Files
handsomezhuzhu.github.io/docs/sop/maindocs/ai-role-play-sequel.md

86 lines
4.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: 从酒馆到小手机AI角色扮演的次世代进化 # 文章标题,支持副标题格式(用 - 分隔)
top: 0 # 置顶级别1-3数字越大越靠前0表示不置顶
date: 2025-12-12 18:00:00 # 发布日期和时间格式YYYY-MM-DD HH:MM:SS
descriptionHTML: '
<span style="color:var(--description-font-color);">剧情聊天2.0时代</span>
'
tags: # 文章标签列表,用于分类和搜索
- AI
- 酒馆
- 小手机
sidebar: true # 是否显示侧边栏true显示false隐藏
readingTime: true # 是否显示阅读时间true显示false隐藏
hiddenCover: true # 是否隐藏封面图true隐藏false显示
cover: url # 封面图片路径相对于public目录
sticky: 85 # 精选文章设置值越大在首页展示越靠前0表示不精选
hidden: false # 是否隐藏文章true隐藏模板用false显示正式文章用
recommend: true
---
# 从酒馆到小手机AI角色扮演的次世代进化
####
##### 写在前面:
####
<span style="font-size:0.9em; color:#1976d2;">
&emsp;&emsp;这是《从角色扮演到剧情聊天翻开AI的另一面》的续篇。几个月过去AI角色扮演的世界又发生了翻天覆地的变化。如果说酒馆是1.0时代那么现在我们已经进入了2.0的"小手机"时代。
</span>
<div align="center">
### [上一篇《从角色扮演到剧情聊天翻开AI的另一面》](ai-role-play.md)
#### 没想到还能续上
## 壹 · 进化
</div>
&emsp;&emsp;最近出现了一个神秘的名字——<span style="color: #43a047;">"小手机"</span>。起初我以为是某种新的AI硬件设备后来才知道这相当于酒馆的一个升级版他将AI角色扮演推向全新的维度。
&emsp;&emsp;技术栈还是网页,只是高度模仿手机。
#### 放几张图,你没看错,这是小手机的效果
![1](/10/1.jpg)
![2](/10/2.jpg)
&emsp;&emsp;当然现在还不能做到很理想的状态,但是我看现在<span style="color: #43a047;">"小手机"</span>的微信界面也和平常的微信没什么区别了。AI流式传输的时候对方显示<span style="color: #1976d2;">"对方正在输入..."</span>。后面输出就是消息气泡,而且可以做到和正常人聊天一样的效果,发比如一些表情,收发红包之类的。
&emsp;&emsp;与酒馆长文不同,<span style="color: #43a047;">"小手机"</span>完美复刻了现代社交软件的所有细节:消息的时间戳、已读未读状态、撤回消息的提示、甚至是"对方正在输入"的动画。
&emsp;&emsp;当然最佳效果是AI还可以通过<span style="color: #43a047;">工具调用</span>来回复表情包,做一些人类特有的操作。其实我认为完全可以做到了,这么大半年以来,大模型的工具调用能力只能说是越来越强了。甚至是接入语音,模仿微信的语音和通话功能。
<div align="center">
## 贰 · 通话 & 语音
</div>
&emsp;&emsp;一个玩酒馆的朋友给我提起过这个功能,就是<span style="color: #43a047;">声音复刻和TTS嵌入</span>。比如复刻一个用户期望的声音,然后嵌入在酒馆内朗读特定的对话内容。如果换到小手机里面,就是一段语音消息,甚至是通话功能。
&emsp;&emsp;不过目前国内做复刻的也不多试了一下豆包还不错。但是很好奇比如谷歌、微软、OpenAI都没有在做复刻相关的开发。是需求度还不够吗不过也有一些小厂家在做目前来看需求不大。但从<span style="color: #1976d2;">单身经济</span>的眼光出发定制化AI语音的未来还是一片光明。
<div align="center">
## 叁 · 模型
</div>
&emsp;&emsp;其实聊了两次AI角色扮演的文章我一直在说AI衍生的工具没有好好讲最底层的东西——<span style="color: #d32f2f;">模型</span>。为了让这么多衍生的工具繁荣,模型能力绝对得强。我认为当前评估模型的标准不应该再是"xxx跑分"高于xxx模型xx倍当然不是讽刺国内的模型厂商只是再强的模型文本生成他还是只能读取和生成文本。
&emsp;&emsp;我认为一个模型的基础标准就得是<span style="color: #1976d2;">多模态</span>,包括视频,图片,文件,语音的多种输入,和多种输出,然后是<span style="color: #1976d2;">工具调用</span>,因为<span style="color: #1976d2;">MCP</span>空前发达我接一堆MCP进去你模型不用不也白搭。
&emsp;&emsp;期待国产模型能慢慢支持多模态和很好的工具调用吧这样我也不会为了Gemini 3 Pro东奔西走。
![3](/10/3(1).png)