自然语音模型 Coqui TTS #

1. 本地（windows11) 安装 #

1.1. python安装 #

确保已安装 Python 3.7 或更高版本。

1.2. 创建虚拟环境 #

使用虚拟环境隔离依赖

python -m venv coqui_tts_env

激活虚拟环境

coqui_tts_env/Scripts/activate
# 在powershell中可能会报错，禁止运行脚本,执行命令如下：
Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
# 使用完后，可以恢复
Set-ExecutionPolicy Restricted -Scope CurrentUser

1.3. 安装TTS

pip install TTS

1.3 模型下载 #

使用tts_models–zh-CN–baker–tacotron2-DDC-GST中文模型[https://coqui.gateway.scarf.sh/v0.6.1_models/tts_models–zh-CN–baker–tacotron2-DDC-GST.zip] 可以手动将此模型下载后，放入：C:\Users\用户名\AppData\Local\tts\vocoder_models–universal–libri-tts–fullband-melgan目录下。

C:\Users\用户名\coqui_tts_env\Lib\site-packages\TTS 这个目录下可以查找下载链接

tts --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --text "你好，欢迎使用Coqui TTS！" --out_path output.wav
# 下载失败时，会提示你模型存放的路径

1.4 生成语音 #


from TTS.api import TTS

# 初始化 TTS
tts = TTS(
   model_name="tts_models/zh-CN/baker/tacotron2-DDC-GST",  # 指定 TTS 模型
    vocoder_path="vocoder_models/universal/libri-tts/fullband-melgan",      # 指定声码器
    gpu=False  # 如果没有 GPU，设置为 False
)

# 生成语音
text = "这是一个语音测试的代码。"
output_path = "output.wav"  # 输出文件路径

# 调用 TTS 生成语音
tts.tts_to_file(text=text, 
 length_scale=1.2,             # 稍微放慢语速
    noise_scale=0.667,
file_path=output_path, max_decoder_steps=5000	)

print(f"语音已生成并保存到: {output_path}")