Skip to content

Conversation

siky231
Copy link

@siky231 siky231 commented Feb 12, 2025

  1. 原来的代码,是通过api的方式调用gptsovits,那么需要通过api的方式启动gptsovits,同时启动gptsovits的时候需要指定模型,指定参考音频,以及指定参考音频的文本和语言,以避免fay这边的代码改动,例如:
    python api.py -s SoVITS_weights/四爷讲AI.pth -g GPT_weights/四爷讲AI.ckpt -dr "/Users/leosyzhang/sourcecode/ai/aivoice/GPT-SoVITS/ReferenceWav/四爷/说话-小桂子这一身的才华,去哪儿都会被埋没.wav" -dt "小桂子这一身的才华,去哪儿都会被埋没" -dl "zh"

但是实测发现通过api启动gptsovits的方式性能非常的慢。可能是因为我把所有东西都部署到一部机器上的原因
ollama + funasr + fay + gptsovits

  1. 如果仅仅是个人demo,不是真正的生产部署,有一个相对比较快的办法,首先把gptsovits和fay的服务器部署在同一部机器上。 然后python webui.py的方式启动gptsovits
    然后访问gptsovits的tts的界面,确保gptsovits能正常使用
    image

然后在fay的环境里面pip install gradio_client,通过gradio client的方式进行tts合成,性能会快很多,因为这种方式生成的语音文件都是本地的临时文件,减少了网络调用,性能会快一点,该方式不通用,但是可以个人demo

1. 如果是通过原来的api的方式调用gptsovits,那么需要通过api的方式启动gptsovits,同时启动gptsovits的时候指定模型,指定参考音频,以及指定参考音频的文本和语言
python api.py -s SoVITS_weights/四爷讲AI.pth -g GPT_weights/四爷讲AI.ckpt -dr "/Users/leosyzhang/sourcecode/ai/aivoice/GPT-SoVITS/ReferenceWav/四爷/说话-小桂子这一身的才华,去哪儿都会被埋没.wav" -dt "小桂子这一身的才华,去哪儿都会被埋没" -dl "zh"

但是发现通过api启动的方式性能非常的慢。

2. 如果仅仅是个人demo,不是真正的生产部署,有一个相对比较快的办法,首先把gptsovits和fay的服务器部署在同一部机器上。
然后python webui.py的方式启动gptsovits

然后访问tts的界面,确保gptsovits能正常使用
然后在fay的环境里面pip install gradio_client,通过gradio client的方式进行tts合成,性能会快很多,因为这种方式生成的语音文件都是本地的临时文件,减少了网络调用,性能会快一点,该方式不通用,但是可以个人demo
@xszyou
Copy link
Owner

xszyou commented May 17, 2025

好的,谢谢你。我们稍后会做整合测试。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants