自然语音模型 Coqui TTS #
1. 本地(windows11) 安装 #
1.1. python安装 #
确保已安装 Python 3.7 或更高版本。
1.2. 创建虚拟环境 #
使用虚拟环境隔离依赖
python -m venv coqui_tts_env
激活虚拟环境
coqui_tts_env/Scripts/activate
# 在powershell中可能会报错,禁止运行脚本,执行命令如下:
Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
# 使用完后,可以恢复
Set-ExecutionPolicy Restricted -Scope CurrentUser
1.3. 安装TTS
pip install TTS
1.3 模型下载 #
使用tts_models–zh-CN–baker–tacotron2-DDC-GST中文模型[https://coqui.gateway.scarf.sh/v0.6.1_models/tts_models–zh-CN–baker–tacotron2-DDC-GST.zip] 可以手动将此模型下载后,放入:C:\Users\用户名\AppData\Local\tts\vocoder_models–universal–libri-tts–fullband-melgan目录下。
C:\Users\用户名\coqui_tts_env\Lib\site-packages\TTS 这个目录下可以查找下载链接
tts --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --text "你好,欢迎使用Coqui TTS!" --out_path output.wav
# 下载失败时,会提示你模型存放的路径
1.4 生成语音 #
from TTS.api import TTS
# 初始化 TTS
tts = TTS(
model_name="tts_models/zh-CN/baker/tacotron2-DDC-GST", # 指定 TTS 模型
vocoder_path="vocoder_models/universal/libri-tts/fullband-melgan", # 指定声码器
gpu=False # 如果没有 GPU,设置为 False
)
# 生成语音
text = "这是一个语音测试的代码。"
output_path = "output.wav" # 输出文件路径
# 调用 TTS 生成语音
tts.tts_to_file(text=text,
length_scale=1.2, # 稍微放慢语速
noise_scale=0.667,
file_path=output_path, max_decoder_steps=5000 )
print(f"语音已生成并保存到: {output_path}")