使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

内容分享1周前发布
0 8 0

先看下效果:语音合成+识别

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

这是一个智能体,能够通过语音方式,识别和回答客户的提问,跟客户产生互动,同时他还是个知识库,回答的内容仅限于知识库相关的范围,避免词不达意;

在技术端,这个系统主要用到以下几个系统:

  1. 知识库管理系统:含 文档管理、文档向量化、操作界面
  2. 大模型:本文介绍如何使用本地大模型
  3. 语音识别系统:搭建本地的语音识别引擎,应用到对话框架中
  4. 语音合成系统:能否支持不同音色的语音转文字;

以上技术我们实现完全本地运行,不需要外部网络支持;一次性投入;

硬件要求:

大模型 包括语音相关模型,在cuda 上比cpu模式快一个数量级; 这里用的 24G显存;可以是4090 或者 3090 都行;内存可以32G左右, 硬盘大于 500G;

第一步:安装本地agent模型

可以通过ollama安装,第一安装 ollama,然后执行命令: ollama run qwen2.5:14b

第二步:安装语音识别引擎,并封装成fastapi 服务; 语音引擎可以用开源的 funasr,然后通过一下代码,封装成对外的服务,接收base64语音数据,识别转成文字体;

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第三步:安装语音合成引擎,目前兼具性价比的模型,用的比较好的有cosyvoice 和 f5-tts ,以f5-tts 为例,我们接收 三个参数 a:文本内容 b:克隆模版 c:语速 ,来生成语音;

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第四步:来找个知识库管理系统,把以上功能串联起来;目前比较知名的几个有 fastgpt dify maxkb 等; 我用的maxkb,并且修改了其源码系统;

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

如何修改:

  1. 对于本地模型,maxkb是不支持 本地的语音识别、语音合成的,我们让其支持选择:

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

  1. 实现代码逻辑:

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

第五步:配置模型及应用,

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

使用Maxkb知识库实现本地部署大模型+语音识别+语音合成

通过上面五步,就配置好了,下面可以通过maxkb的功能来做语音识别和对话了;

© 版权声明

相关文章

8 条评论

您必须登录才能参与评论!
立即登录
  • 头像
    琵熹 读者

    研究好一段时间了, 就差3090和4090。 ^_^

    无记录
  • 头像
    李小讷 读者

    你这个需要有一定的编码能力,我办不到

    无记录
  • 头像
    华讯股票 读者

    语音识别+合成,科技感十足!

    无记录
  • 头像
    赵鲜森 读者

    valex是不是就是开源maxkb魔改?

    无记录
  • 头像
    Jancherry-- 投稿者

    起码要个16g的显卡

    无记录
  • 头像
    三三客服 读者

    学到了💪

    无记录
  • 头像
    李月 读者

    厉害,本地超棒

    无记录
  • 头像
    漫妮 读者

    收藏了,感谢分享

    无记录