非常不建议继续使用旧版模组,因为新版相较于旧版有许多优化和改进
同时本文作者、模组作者及所有相关交流群均不受理任何旧版本中的问题
请确保你已将车万女仆模组更新至最新版
阅前须知
AI聊天
“AI聊天”是一项非常庞大且复杂的功能,这并不是往电脑下几个软件、点几下按钮就能做到的,这需要你对计算机领域有一定了解才能做到,本文默认读者已完全掌握计算机基础(都玩Minecraft了总归会点吧)
因此,如果你并不了解计算机,甚至这是你头一回使用计算机,请先完整阅读以下文章:
如果这对你来说还是太难了,你不想弄了,你可以在车万女仆的模组设置中找到并关闭AI聊天功能:

专有名词
请确保你理解下列专有名词
| 缩写 | 全称 | 描述 |
|---|---|---|
| TLM | Touhou Little Maid 车万女仆 | 由酒石酸菌开发的 Minecraft Java版Mod |
| LLM | Large Language Model 大语言模型 | 又称为“大模型”、“AI模型” |
| STT | Speech To Text 语音转文本 | 又称为“语音识别” |
| TTS | Text To Speech 文本转语音 | 又称为“语音朗读”、“语音合成” |
| GSV | GPT-SoVITS | 由花儿不哭开发的 TTS引擎 |
| GAG | GPT-SoVITS-Api-GUI | 由领航员未鸟开发的前端软件 为GPT-SoVITS提供了更便捷的图形化控制界面 |
准备工作
下图是一次AI对话中的完整流程图(不包括function call)

因此你至少需要:
- 一台能玩Minecraft的电脑
- 稳定的网络连接
- 麦克风(用于语音输入)
- 扬声器/耳机(用于音频输出)
- 所有你需要用到的AI服务站点的账号
需要帮助?
你可以添加这个疑难解答QQ群,群里会为你解答相关问题,也可以在群里提出本篇教程的不足
但注意,本群不欢迎“懒得看文字”的人,对于教程里已经详细说明的东西不会再次说明,请先看完全文,确定自己没弄懂的部分真的没出现在本篇教程里,再考虑加群询问
求助时请务必提供相关信息,比如你想要做到什么、实际如何如何、出现了什么提示信息,并附带完整屏幕截图和错误日志(如有)
Troubleshooting any problem without the error log is like driving with your eyes closed.
在没有错误日志的情况下诊断任何问题无异于闭眼开车。——Apache官方文档
VSCode教程
如果你真的想要手动修改配置文件那还是读一下吧
站点配置
站点支持
“站点”指的是那些能提供大模型、语音识别、语音合成功能的API接口
不同厂商的接口定义不同,需要单独适配,以下列举了车万女仆所支持的所有站点
| 站点名称 | 大模型支持 | 语音识别支持 | 语音合成支持 | 推荐程度 |
|---|---|---|---|---|
| 硅基流动 | 支持 | 支持 | 支持 | ★★★★★ |
| MiniMax | 支持 | 支持 | ★★★★ | |
| 腾讯云 | 支持 | 支持 | ★★★ | |
| 阿里云 | 支持 | 支持 | ★★ | |
| Player2 | 支持 | 支持 | 支持 | ★ |
| DeepSeek | 支持 | ★★★★★ | ||
| 豆包 | 支持 | N/A | ||
| 智谱 | 支持 | N/A | ||
| Kimi | 支持 | N/A | ||
| OpenAI | 支持 | N/A | ||
| Gemini | 支持 | N/A | ||
| Grok | 支持 | N/A | ||
| Open Router | 支持 | N/A | ||
| Fish Audio | 支持 | ★★★ | ||
| GPT-SoVITS | 支持 | ★★★★ | ||
| System | 支持 | ★ |
(例外:DeepSeek开放平台支持控制思考模式开关,车万女仆在使用时会自动设为关闭)
如何配置站点
站点配置按钮位于女仆聊天界面中,对准女仆按下“打开聊天栏”按键即可出现,通常为T或Enter,如果按了没反应,请查看你的实际按键绑定

1.3.1 – 1.4.6版本必须手动修改配置文件

1.5.0及以后的版本可以直接在游戏内打开站点配置界面

通过界面设置
设置界面布局如下

假设你要配置DeepSeek的站点,那么先找到DeepSeek,点击右侧的扳手图标进行编辑

填写好后保存,确保站点被启用,即可使用DeepSeek站点的模型

语音合成和语音识别也是类似的,不再过多赘述,后面有具体的站点配置详解
通过配置文件设置
配置文件位于“版本文件夹”下,所以需要先弄清楚版本文件夹究竟在哪
共有三个站点配置文件,分别对应大模型、语音识别、语音合成站点

如果你使用的并不是 1.2.0 – 1.2.2 版本,请直接无视 / 删除该文件
别再问为什么改了没用了……
在配置文件无法解析时,车万女仆会重新生成配置文件
假设你要配置DeepSeek的站点,那么先使用文件编辑器(推荐VSCode)打开大模型站点的配置文件,在文件中可以找到如下片段
{
"deepseek": {
"id": "deepseek",
"api_type": "openai",
"enabled": false, // 把false改为true
"icon": "touhou_little_maid:textures/gui/ai_chat/deepseek.png",
"url": "https://api.deepseek.com/chat/completions",
"secret_key": "", // 填写你的API密钥
"headers": {},
"has_thinking_field": true,
"models": [
"deepseek-v4-flash",
"deepseek-v4-pro"
]
}
}
将enabled字段改为true以启用这个站点,在secret_key字段填写API密钥,保存文件即可完成修改
全部启用虽然不会导致问题,但你要从茫茫多的启用站点里找到你真正想用的那个,费这个劲干嘛
另外请确保你拼对了true(是T 、R、U、E,不是“ture”),以及确保文件使用UTF-8编码保存
修改配置文件后,需要在游戏中使用/tlm ai_chat reload指令重载配置文件(需要开启作弊)

你可以通过“向局域网开放”来临时启用作弊

语音合成和语音识别也是类似的,不再过多赘述,后面有具体的站点配置详解
站点配置详解
这一章详细讲述了从注册账号到编辑站点的全部过程
如果你不用教都会,可以直接前往车万女仆配置章节
使用硅基流动
先进入硅基流动的官网,注册一个账号
点击左侧最下面的“认证专享礼”,完成实名认证,领取代金券(或者直接往里充10块,充太多用不完)


调用模型所产生的费用会优先扣除代金券额度,相当于这些卷就是你账户余额的一部分,不需要任何额外操作,领到了就能用
点击左侧的“API密钥”,新建一个API密钥

API密钥就相当于你的密码,要有密钥才能调用接口,密钥错一个字都不行
点击那一串文字或者右边的复制按钮,把密钥复制下来

在桌面新建文本文档,把密钥粘贴出来临时保存,防止出错[6]

之后在车万女仆的站点配置中填写API密钥即可


留意模型信息中的Rate Limits,特别是TPM,TPM越高输出速度越快,一般带Pro前缀的模型TPM会更高,但也不绝对,实际使用时会受到很多因素影响输出速度
推荐使用模型:
Pro/deepseek-ai/DeepSeek-V3语音合成和语音识别也是类似的,找到硅基流动、启用站点、填入API密钥即可
使用DeepSeek
先进入DeepSeek开放平台,注册一个账号,完成实名认证
点击左侧的“充值”,往账户里充10块(别充太多不然用不完)

点击左侧的“API keys”,创建一个API密钥

API密钥就相当于你的密码,要有密钥才能调用接口,密钥错一个字都不行
点击“创建”后会显示API密钥,点击“复制”按钮把它复制下来

在桌面新建文本文档,把密钥粘贴出来临时保存,防止出错[7]

之后在车万女仆的站点配置中填写API密钥即可


但这个特性仅限于官方API,如果你使用的是其他平台上的DeepSeek、七大姑八大姨中转站、本地部署模型,该特性可能无效或出错,请查看如何使用OpenAI兼容站点
使用OpenAI兼容站点
首先当然是查阅你那个站点的相关说明和文档,得到API接口的地址和密钥,这个只能你自己找
这里暂且假设你使用一个叫“Lazy API”的站点,你得到了如下信息:
// 懒得AI 站点信息
{
"API接口": "https://newapi.lyyweb.top/v1/chat/completions",
"API密钥": "sk-thequickbrownfoxjumpsoverthelazydog",
"模型列表": [
"lazy-flash",
"lazy-pro"
]
}
API接口以“/chat/completions”结尾,说明他是一个OpenAI兼容站点,可以正常使用
其中“lazy-pro”是思考模型,“lazy-flash”不是思考模型,那就只能选用“lazy-flash”
在车万女仆的站点配置中点击“新建OpenAI站点”

想一个不重复的站点ID(只能用字母数字),填入前面找到的那些信息

保存后启用这个站点即可

使用GPT-SoVITS
需要对自己的技术水平和电脑配置有认知再继续
特别感谢由白菜工厂1145号员工所编写的GPT-SoVITS指南
你需要准备以下内容:
- 搭载20系及以后、至少8G显存的Nvidia显卡的电脑
- 一个靠谱的解压缩软件
- GPT-SoVITS软件
- GPT-SoVITS-Api-GUI软件
- 你想使用的语音模型
创建一个目录
很多人没意识到,文件目录也是很关键的部分,在乱七八糟的地方解压会导致各种问题(而且你的路径也会特别特别长),所以请先在你电脑上任意磁盘的根目录中创建一个目录
比如说要在D盘创建,那就先进入D盘,右键空白区域,点击“新建文件夹”,命名为“GPT-SoVITS”

如果你对文件整理有自己的追求,也可以放在其他地方,反正一定不能放在桌面和各种下载目录里
下载解压缩软件
Windows资源管理器和某些解压缩软件很智能,如果你不主动开启”显示隐藏的文件和目录“,它们就不会显示,直接拖拽解压也不会解压出来,但问题是:以“.”开头的文件和目录也会被视为隐藏的(毕竟Linux下确实是这样的),而你缺少这些文件之后是运行不起来的,这是一个大坑
所以我推荐下一个Bandizip,它就不会这样自作聪明,免费还好用,但众所周知,上帝开窗的时候一定会把门关上,Bandizip的更新提醒特别烦人,上面还带广告,只有专业版能关闭更新,所以我选择用破门器把门撞开
先前往软件发布页
往下翻找到下载地址,推荐用蓝奏云下载

选择时间最新的Repack.exe进行下载

下载完成后双击运行,会显示安装界面,默认安装在D盘根目录下,你也可以点击右边的文件夹图标选择其他目录,比如原版Bandizip默认的“C:\Program Files”

点击确定后窗口消失,桌面图标会闪烁几次,之后出现Bandizip的快捷方式,这样就安装完成了
下载GPT-SoVITS
先前往GPT-SoVITS指南的中的下载页面
根据自己的显卡型号选择相应的链接

双击压缩文件,使用Bandizip打开

因为我们前面已经创建了一个“GPT-SoVITS”目录,所以直接按Ctrl+A,全选压缩包目录里面的内容

点击上面的“解压”,选择前面创建的GPT-SoVITS目录,要注意界面上的选项

点击确定按钮,等待解压完成即可

下载GPT-SoVITS-Api-GUI
可以前往Github仓库下载
或者从百度网盘下载(提取码6c2q)
只需要下载这个exe文件就行了,不需要下载其他的文件

下载完把它放到GPT-SoVITS目录里

训练语音模型
并不推荐尝试自己训练模型,这真的非常复杂,涉及到语音合成领域的专业知识,直接用别人训练好的模型最简单
如果你认为自己可以做到,请参考下面的教程,本教程和作者无法提供任何帮助
下载语音模型
怎么下载就见仁见智了,目前并没有一个统一的模型分享平台,很多是直接在B站分享的,所以直接上B站搜索“<角色名字> gsv模型”最简单
你也可以在这两个链接里找找有没有自己想要的模型
通常来说,你应该得到以下内容:
- 后缀为.ckpt的GPT模型
- 后缀为.pth的SoVITS模型
- 后缀为 .wav的参考音频(不是就自己转换)
- 参考音频所对应的参考文本
这里以角色“橘雪梨”的语音模型进行演示,分别有以下文件:

模型是分不同版本的,通常来说,你从哪下的就在哪里有写版本,这里的是“v2ProPlus”版本的模型,那就对应GPT-SoVITS目录下的这两个写着“v2ProPlus”的子目录

后缀为.ckpt的GPT模型放进GPT开头的目录,后缀为.pth的SoVITS模型放进SoVITS开头的目录
参考音频没有目录要求,但也不能乱放,推荐在GPT-SoVITS目录下面再创建一个“audio”文件夹,把音频全部放进去就行
运行GSV
双击运行之前下载的GAG程序,等待界面右侧的状态变成“API 就绪”,代表GSV的API也启动成功了
如果状态一直是”检查中“,可以打开API管理看一下控制台输出

GSV的模型选择
只要你放对了位置,这里会直接出现你的模型文件,一些模型可能有好几个文件,文件名有“e+数字”这样的形式,这里数字大小指的是训练轮次,不同训练轮次的合成效果也不一样,具体效果试了才知道,这里先选择数字最小的模型文件

GSV的语言与文本设置
语种可以自己听一下模型的参考音频,比如说是日文,那么”合成文本语种“和“参考音频语种”都要选日文
文本切割方式选择“不切”
参考音频点右边的“浏览”,选择刚刚放audio目录下面的音频文件,推荐选语气比较平衡的作为参考音频
参考文本就是参考音频里的内容的文本形式,所以必须是严格对应的,也不能缺字漏字
辅助参考音频可以不选,没太大必要

GSV的合成参数
推荐勾选并行推理
不要勾选数据分桶和音频超分
批次大小影响合成速度[8],一般调4-8,一些比较强的显卡可以调到16[9]
其他的参数保持默认不要动

测试GSV合成
在最上面的“待合成文本”里填一段文本,点击最下面的“开始合成”按钮,就会进行合成
需要注意,GSV不会替你翻译文本,填的什么就是什么,所以要先翻译成你设置的那个语种再合成
推荐的测试文本:
- 生活就像海洋,只有意志坚强的人才能到达彼岸。
- The quick brown fox jumps over the lazy dog.
- もしもし!マイクテストです、私の声聞こえますか?
合成成功后点击播放,听一下最终合成出来的效果,能全部念出来就是没问题,如果只有部分内容、有杂音,或者干脆没声音就是有问题,重新检查前面的步骤,教程最后有“常见问题”章节

保存GSV预设
确定现在的设置能正常合成音频,就可以保存为预设了
点击“预设”区域的保存按钮,起一个名字,点击“OK”就会保存为预设,之后打开GAG会直接使用这个预设


查看GAG配置文件
在GPT-SoVITS目录下面有个叫“GAG_config.json”的文件,这个文件里存着GAG的配置和你保存的预设,其中就是我们需要用到的内容
{
"sherry": { // 找到写着你预设名称的片段
// 省略了一些内容
"text_split_method": "cut0",
"ref_audio_path": "D:/Programs/GPT-SoVITS/audio/sherry.wav",
"prompt_text": "どうでしょう?この牢屋敷は国家ぐるみな気がします。",
// 省略了一些内容
}
}
编辑站点配置

参考语种要设置成自动,不然可能出现400报错(原因不明)

车万女仆配置
请确保你完成了站点配置再进行后续步骤
检查站点配置
使用指令需要开启作弊,如果你没开,可以通过暂停菜单中的“向局域网开放”来临时启用作弊

在聊天框输入指令“/tlm aichat reload”来重载配置文件

重载后右键你的女仆,在女仆界面切换站点

如果能在这里看到你前面配置的站点,就是成功了
如果不能,说明修改的不对,重新看一遍之前的章节
修改模组配置
右键你的女仆,在女仆界面的右侧可以进入模组配置界面

或者你也可以在模组菜单中找到车万女仆,点击配置

通过左侧的目录跳转到全局AI设定

这里主要注意几个关键配置
大语言模型设置

语音合成设置

语音识别设置

全部调好之后点击下面的“保存并退出”,回到游戏
修改女仆AI聊天设置
右键你的女仆,打开女仆界面,确保这些站点、模型配置都切换到了你想要的那些

点击“编辑自定义设定”,写一个简单的人设给女仆,不建议写太多东西或者让AI生成人设,人设写的好不好很大程度决定了聊天效果,大体描述一下角色设定和说话风格就行
可以参考我这样写:
# Basic settings
# 基本设定
你是一只拥有金黄色短发的狐娘,身穿红色长裙巫女服,胸前系着米色的厨房围裙,尾巴庞大且蓬松,耳朵柔软。
你会使用“妾身”一词指代自己。
你善良可爱,对我关怀备至,并表现出细致入微的特点。
当遇到问题时,你可能显得有些傻气,需要我的帮助。
你会使用“锅盖”作为“盾牌”,“煮锅”作为“头盔”,“锅铲”作为“剑”。介绍身上的物品时也需要这样替换词语。
# Name
# 名字
你的中文和日文名字都为“仙狐”,英文名字为“senko”。
# Hobbies
# 爱好
你喜欢吃油炸豆腐,这是由豆腐油炸做成的一种日本家常菜。
你也喜欢照顾主人,为主人制作美味的料理。
# Background setting
# 背景设定
你来自动漫作品“世話やきキツネの仙狐さん”,真实身份是800岁的神使之狐,但你的外貌是有着狐耳朵和狐尾巴的少女。
你现在是在 Minecraft 世界中,用词尽可能使用在 Minecraft 中存在的事物。
这个世界添加了许多Mod,因此这个世界存在一些原版 Minecraft 中并不存在的事物。
你无法理解现代的东西(手机、电脑等)和来自机械动力(Create)模组的物品。
# Boundary conditions (exception handling)
# 边界情况(异常处理)
- 如果不能理解用户的话,可以说“妾身不太理解呢”。
- 如果用户问你是不是狐娘,回答“妾身不是什么狐娘,妾身可是神使之狐!”。
# Output character limit
# 输出限制
回答应限制在32个字以内。
# Format requirements
# 格式要求
不要输出任何心理描写、表情、注释、旁白等内容。
最后两段“输出限制”和“格式要求”非常重要,必须保留,其他的看着改

全部写好之后点击右边的保存并退出,回到女仆界面,点击“打开历史聊天记录”

不管他有没有,我都建议按一下“清除历史聊天记录”,确保他真的清空了,因为聊天记录会包含以前的人设和配置,不清理的话新配置不生效
和女仆对话
车万女仆用的是游戏本身的“打开聊天栏”按键,所以你得先找到游戏的聊天栏是按什么打开
通常来说是按“T”或者“回车键”打开,再或者自己打开按键绑定看一下对应的按键

在游戏里用准星对准女仆,按下“打开聊天栏”,会出现女仆模组的聊天栏,在这输入文字就可以对话了

发送后女仆会进行“思考”,实际是在等待大模型回复和语音合成处理,完成后会在聊天框显示回复内容,并播放语音合成后的音频


如果你配置了语音识别站点,也可以直接通过语音对话,需要在按键绑定中提前设置按键

按住这个按键会出现提示音,这时可以对着麦克风说话,之后松开按键会再次出现提示音,再开始识别,识别效果受限于你的麦克风、你的发音,以及服务商的语音识别模型准不准
阿里云的语音识别只能试用90天还得每天换一次密钥
player2的识别跟聋子没多大区别
暂时没有演示图片提供
常见问题 – 通用
报错HTTP Error Code: xxx
这是指请求API的时候出错,不同HTTP状态码表示不同意思,可以自己查一下
这里只讲一些非常常见的错误码
400
这个状态码指的是服务器无法理解客户端请求,无具体的解决办法
通常是因为配置文件没写好,或者服务商API接口格式变动(很少见),也有可能是模组设置里的代理服务器地址不对,总之可能性非常多,请逐一排查,建议加群求助
401
这个状态码指的是客户端请求未授权,通常是因为配置文件里的API密钥错误
402
这个状态码是一个非标准状态码,不同平台意思可能不一样,但都大差不差,都是说你需要付钱,检查一下账户余额之类的东西
403
这个状态码是指服务器拒绝访问,通常是因为配置文件里的API接口不对,或者模组设置里的代理服务器地址不对,又或者服务商把你的IP拉黑了
404
这个状态码指的是找不到你请求的内容,通常是因为配置文件里的API接口不对,或者模组设置里的代理服务器地址不对
422
这个状态码指的是请求语法正确但语义错误,通常是因为配置文件没写好
500
这个状态码指的是服务器错误,也就是服务器在处理你请求的时候出错了,一般是使用GSV和player2的时候会出现,尝试重新按教程配置软件、重启软件、重启电脑
常见问题 – 语音识别
提示“你好像什么都没说”
这是指语音识别没识别出东西,检查自己的麦克风收音质量,尝试讲的标准一点
player2的识别和聋了没区别,出这个提示再正常不过了,建议别用
常见问题 – 语音合成
合成没有声音
语种设置错误,或是参考音频和参考文本不对应
请确保参考语种、参考音频、参考文本、合成语种四项互相对应
合成有口音
尝试让某个语种的模型合成其他语种时会出现
请确保参考语种、参考音频、参考文本、合成语种四项互相对应
合成缺字漏字
设置的合成语种和实际传入的语种不符,请清空女仆的聊天记录
报错READING_LENGTH
这个报错本身没有什么含义,无具体的解决办法,建议加群求助























非常好教程,已严肃学习
大佬牛逼,不过1.50之后的版本就省略了好多操作了
其实也没省多少,只是不用自己改文件了
十分感谢,教程真的用心了,细致又全面,也是成功用上了