使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

内容分享5个月前发布

先看下效果：语音合成+识别

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

这是一个智能体，能够通过语音方式，识别和回答客户的提问，跟客户产生互动，同时他还是个知识库，回答的内容仅限于知识库相关的范围，避免词不达意；

在技术端，这个系统主要用到以下几个系统：

知识库管理系统：含文档管理、文档向量化、操作界面
大模型：本文介绍如何使用本地大模型
语音识别系统：搭建本地的语音识别引擎，应用到对话框架中
语音合成系统：能否支持不同音色的语音转文字；

以上技术我们实现完全本地运行，不需要外部网络支持；一次性投入；

硬件要求：

大模型包括语音相关模型，在cuda 上比cpu模式快一个数量级；这里用的 24G显存；可以是4090 或者 3090 都行；内存可以32G左右，硬盘大于 500G；

第一步：安装本地agent模型

可以通过ollama安装，第一安装 ollama，然后执行命令： ollama run qwen2.5:14b

第二步：安装语音识别引擎，并封装成fastapi 服务；语音引擎可以用开源的 funasr，然后通过一下代码，封装成对外的服务，接收base64语音数据，识别转成文字体；

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第三步：安装语音合成引擎，目前兼具性价比的模型，用的比较好的有cosyvoice 和 f5-tts ，以f5-tts 为例，我们接收三个参数 a：文本内容 b：克隆模版 c：语速，来生成语音；

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第四步：来找个知识库管理系统，把以上功能串联起来；目前比较知名的几个有 fastgpt dify maxkb 等；我用的maxkb，并且修改了其源码系统；

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

如何修改：

对于本地模型，maxkb是不支持本地的语音识别、语音合成的，我们让其支持选择：

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

实现代码逻辑：

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第五步：配置模型及应用，

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

通过上面五步，就配置好了，下面可以通过maxkb的功能来做语音识别和对话了；

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多维度聊一聊 k8s 和 openstack

多维度聊一聊 k8s 和 openstack

3个月前

270

跟欧洲人约会，不要踩这些“坑”

跟欧洲人约会，不要踩这些“坑”

7个月前

110

PyTorch之父光速入职TML！离职Meta刚一天，投身500亿估值独角兽

PyTorch之父光速入职TML！离职Meta刚一天，投身500亿估值独角兽

4个月前

430

高效利用AI识别LaTeX答题：让数学学习变得简单又高效

高效利用AI识别LaTeX答题：让数学学习变得简单又高效

7个月前

150

8 条评论

您必须登录才能参与评论！

立即登录

琵熹读者

研究好一段时间了, 就差3090和4090。 ^_^

5个月前无记录

登录以回复
李小讷读者

你这个需要有一定的编码能力，我办不到

5个月前无记录

登录以回复
华讯股票读者

语音识别+合成，科技感十足！

5个月前无记录

登录以回复
赵鲜森读者

valex是不是就是开源maxkb魔改？

5个月前无记录

登录以回复
Jancherry-- 投稿者

起码要个16g的显卡

5个月前无记录

登录以回复
三三客服读者

学到了💪

5个月前无记录

登录以回复
李月读者

厉害，本地超棒

5个月前无记录

登录以回复
漫妮读者

收藏了，感谢分享

5个月前无记录

登录以回复