mirror of
https://github.com/handsomezhuzhu/handsomezhuzhu.github.io.git
synced 2026-02-20 20:00:14 +00:00
86 lines
4.7 KiB
Markdown
86 lines
4.7 KiB
Markdown
---
|
||
title: 从酒馆到小手机:AI角色扮演的次世代进化 # 文章标题,支持副标题格式(用 - 分隔)
|
||
top: 0 # 置顶级别:1-3,数字越大越靠前,0表示不置顶
|
||
date: 2025-12-12 18:00:00 # 发布日期和时间,格式:YYYY-MM-DD HH:MM:SS
|
||
descriptionHTML: '
|
||
<span style="color:var(--description-font-color);">剧情聊天2.0时代</span>
|
||
'
|
||
tags: # 文章标签列表,用于分类和搜索
|
||
- AI
|
||
- 酒馆
|
||
- 小手机
|
||
sidebar: true # 是否显示侧边栏:true显示,false隐藏
|
||
readingTime: true # 是否显示阅读时间:true显示,false隐藏
|
||
hiddenCover: true # 是否隐藏封面图:true隐藏,false显示
|
||
cover: url # 封面图片路径,相对于public目录
|
||
sticky: 85 # 精选文章设置:值越大在首页展示越靠前,0表示不精选
|
||
hidden: false # 是否隐藏文章:true隐藏(模板用),false显示(正式文章用)
|
||
recommend: true
|
||
---
|
||
|
||
# 从酒馆到小手机:AI角色扮演的次世代进化
|
||
|
||
####
|
||
##### 写在前面:
|
||
####
|
||
|
||
<span style="font-size:0.9em; color:#1976d2;">
|
||
  这是《从角色扮演到剧情聊天,翻开AI的另一面》的续篇。几个月过去,AI角色扮演的世界又发生了翻天覆地的变化。如果说酒馆是1.0时代,那么现在我们已经进入了2.0的"小手机"时代。
|
||
</span>
|
||
|
||
<div align="center">
|
||
|
||
### [上一篇:《从角色扮演到剧情聊天,翻开AI的另一面》](ai-role-play.md)
|
||
|
||
#### 没想到还能续上
|
||
|
||
## 壹 · 进化
|
||
|
||
</div>
|
||
|
||
  最近出现了一个神秘的名字——<span style="color: #43a047;">"小手机"</span>。起初我以为是某种新的AI硬件设备,后来才知道,这相当于酒馆的一个升级版,他将AI角色扮演推向全新的维度。
|
||
|
||
  技术栈还是网页,只是高度模仿手机。
|
||
|
||
#### 放几张图,你没看错,这是小手机的效果
|
||
|
||

|
||
|
||

|
||
|
||
  当然现在还不能做到很理想的状态,但是我看现在<span style="color: #43a047;">"小手机"</span>的微信界面也和平常的微信没什么区别了。AI流式传输的时候对方显示<span style="color: #1976d2;">"对方正在输入..."</span>。后面输出就是消息气泡,而且可以做到和正常人聊天一样的效果,发比如一些表情,收发红包之类的。
|
||
|
||
  与酒馆长文不同,<span style="color: #43a047;">"小手机"</span>完美复刻了现代社交软件的所有细节:消息的时间戳、已读未读状态、撤回消息的提示、甚至是"对方正在输入"的动画。
|
||
|
||
  当然最佳效果是AI还可以通过<span style="color: #43a047;">工具调用</span>来回复表情包,做一些人类特有的操作。其实我认为完全可以做到了,这么大半年以来,大模型的工具调用能力只能说是越来越强了。甚至是接入语音,模仿微信的语音和通话功能。
|
||
|
||
|
||
|
||
|
||
<div align="center">
|
||
|
||
## 贰 · 通话 & 语音
|
||
|
||
</div>
|
||
|
||
  一个玩酒馆的朋友给我提起过这个功能,就是<span style="color: #43a047;">声音复刻和TTS嵌入</span>。比如复刻一个用户期望的声音,然后嵌入在酒馆内朗读特定的对话内容。如果换到小手机里面,就是一段语音消息,甚至是通话功能。
|
||
|
||
  不过目前国内做复刻的也不多,试了一下豆包还不错。但是很好奇,比如谷歌、微软、OpenAI都没有在做复刻相关的开发。是需求度还不够吗?不过也有一些小厂家在做,目前来看需求不大。但从<span style="color: #1976d2;">单身经济</span>的眼光出发,定制化AI语音的未来还是一片光明。
|
||
|
||
<div align="center">
|
||
|
||
## 叁 · 模型
|
||
|
||
</div>
|
||
|
||
  其实聊了两次AI角色扮演的文章,我一直在说AI衍生的工具,没有好好讲最底层的东西——<span style="color: #d32f2f;">模型</span>。为了让这么多衍生的工具繁荣,模型能力绝对得强。我认为当前评估模型的标准不应该再是"xxx跑分"高于xxx模型xx倍,当然不是讽刺国内的模型厂商,只是再强的模型文本生成,他还是只能读取和生成文本。
|
||
|
||
  我认为一个模型的基础标准就得是<span style="color: #1976d2;">多模态</span>,包括视频,图片,文件,语音的多种输入,和多种输出,然后是<span style="color: #1976d2;">工具调用</span>,因为<span style="color: #1976d2;">MCP</span>空前发达,我接一堆MCP进去,你模型不用不也白搭。
|
||
|
||
|
||
  期待国产模型能慢慢支持多模态和很好的工具调用吧,这样我也不会为了Gemini 3 Pro东奔西走。
|
||
|
||
.png)
|
||
|
||
|