handsomezhuzhu.github.io/docs/sop/maindocs/ai-role-play-sequel.md

---
title: 从酒馆到小手机：AI角色扮演的次世代进化  # 文章标题，支持副标题格式（用 - 分隔）
top: 0                  # 置顶级别：1-3，数字越大越靠前，0表示不置顶
date: 2025-12-12  18:00:00  # 发布日期和时间，格式：YYYY-MM-DD HH:MM:SS
descriptionHTML: '
<span style="color:var(--description-font-color);">剧情聊天2.0时代</span>
'
tags:                    # 文章标签列表，用于分类和搜索
  - AI
  - 酒馆
  - 小手机
sidebar: true           # 是否显示侧边栏：true显示，false隐藏
readingTime: true        # 是否显示阅读时间：true显示，false隐藏
hiddenCover: true        # 是否隐藏封面图：true隐藏，false显示
cover: url  # 封面图片路径，相对于public目录
sticky: 85                # 精选文章设置：值越大在首页展示越靠前，0表示不精选
hidden: false            # 是否隐藏文章：true隐藏（模板用），false显示（正式文章用）
recommend: true
---

# 从酒馆到小手机：AI角色扮演的次世代进化

####
##### 写在前面：
####

<span style="font-size:0.9em; color:#1976d2;">
&emsp;&emsp;这是《从角色扮演到剧情聊天，翻开AI的另一面》的续篇。几个月过去，AI角色扮演的世界又发生了翻天覆地的变化。如果说酒馆是1.0时代，那么现在我们已经进入了2.0的"小手机"时代。
</span>

<div align="center">

###  [上一篇：《从角色扮演到剧情聊天，翻开AI的另一面》](ai-role-play.md)

#### 没想到还能续上

## 壹 · 进化

</div>

&emsp;&emsp;最近出现了一个神秘的名字——<span style="color: #43a047;">"小手机"</span>。起初我以为是某种新的AI硬件设备，后来才知道，这相当于酒馆的一个升级版，他将AI角色扮演推向全新的维度。

&emsp;&emsp;技术栈还是网页，只是高度模仿手机。

#### 放几张图，你没看错，这是小手机的效果

![1](/10/1.jpg)

![2](/10/2.jpg)

&emsp;&emsp;当然现在还不能做到很理想的状态，但是我看现在<span style="color: #43a047;">"小手机"</span>的微信界面也和平常的微信没什么区别了。AI流式传输的时候对方显示<span style="color: #1976d2;">"对方正在输入..."</span>。后面输出就是消息气泡，而且可以做到和正常人聊天一样的效果，发比如一些表情，收发红包之类的。

&emsp;&emsp;与酒馆长文不同，<span style="color: #43a047;">"小手机"</span>完美复刻了现代社交软件的所有细节：消息的时间戳、已读未读状态、撤回消息的提示、甚至是"对方正在输入"的动画。

&emsp;&emsp;当然最佳效果是AI还可以通过<span style="color: #43a047;">工具调用</span>来回复表情包，做一些人类特有的操作。其实我认为完全可以做到了，这么大半年以来，大模型的工具调用能力只能说是越来越强了。甚至是接入语音，模仿微信的语音和通话功能。


<div align="center">

## 贰 · 通话 & 语音

</div>

&emsp;&emsp;一个玩酒馆的朋友给我提起过这个功能，就是<span style="color: #43a047;">声音复刻和TTS嵌入</span>。比如复刻一个用户期望的声音，然后嵌入在酒馆内朗读特定的对话内容。如果换到小手机里面，就是一段语音消息，甚至是通话功能。

&emsp;&emsp;不过目前国内做复刻的也不多，试了一下豆包还不错。但是很好奇，比如谷歌、微软、OpenAI都没有在做复刻相关的开发。是需求度还不够吗？不过也有一些小厂家在做，目前来看需求不大。但从<span style="color: #1976d2;">单身经济</span>的眼光出发，定制化AI语音的未来还是一片光明。

<div align="center">

## 叁 · 模型

</div>

&emsp;&emsp;其实聊了两次AI角色扮演的文章，我一直在说AI衍生的工具，没有好好讲最底层的东西——<span style="color: #d32f2f;">模型</span>。为了让这么多衍生的工具繁荣，模型能力绝对得强。我认为当前评估模型的标准不应该再是"xxx跑分"高于xxx模型xx倍，当然不是讽刺国内的模型厂商，只是再强的模型文本生成，他还是只能读取和生成文本。

&emsp;&emsp;我认为一个模型的基础标准就得是<span style="color: #1976d2;">多模态</span>，包括视频，图片，文件，语音的多种输入，和多种输出，然后是<span style="color: #1976d2;">工具调用</span>，因为<span style="color: #1976d2;">MCP</span>空前发达，我接一堆MCP进去，你模型不用不也白搭。


&emsp;&emsp;期待国产模型能慢慢支持多模态和很好的工具调用吧，这样我也不会为了Gemini 3 Pro东奔西走。

![3](/10/3(1).png)