如果你对语音合成的音质有极致要求——不能有底噪、口齿要清晰、音色要浑厚——F5-TTS 是目前开源 TTS 里音质最好的一档。
14.8K Stars,基于 Flow Matching 技术路线。团队来自 学术界,论文发表在 arXiv。和其他 TTS 不同,它追求的不是少样本也不是自然度,而是「音质天花板」。
是什么
F5-TTS(A Fairytaler that Fakes Fluent and Faithful Speech)是一种基于 Flow Matching 的语音合成模型。它不是传统的 autoregressive 或者 diffusion TTS,而是通过流匹配(Flow Matching)来生成语音,在音质和忠实度上表现突出。
目前 v1.1.20 版本,支持零样本语音克隆和少样本微调。
优势
音质最佳
输出的 48kHz 音频在信噪比、清晰度、音色还原度上,明显优于同期的 GPT-SoVITS 和 ChatTTS。听感更接近专业录音棚。
忠实度好
对输入文本的忠实度高,不会吞字、不会改语调。对做有声书、播客、旁白这类需要准确还原文本内容的场景非常关键。
零样本也能出好效果
不像 GPT-SoVITS 需要 1 分钟微调才能出质量,F5-TTS 零样本推理出来的效果就已经很不错。参考音频质量好 + 3 秒参考就够。
不足
第一,训练和推理都更吃资源。同样的 GPU,F5-TTS 推理比 GPT-SoVITS 慢。第二,社区生态不如 GPT-SoVITS 丰富。插件、整合包、社区模型都少很多。第三,多语言支持范围窄一些,主要是中英文。第四,情感表达不如 ChatTTS 丰富。
一句话
对音质有执念的选择。做播客、有声书、高质量旁白,F5-TTS 是首选。
GitHub:SWivid/F5-TTS
论文:arXiv 2410.06885
标签:#F5-TTS #FlowMatching #音质天花板 #零样本TTS #语音合成 #开源TTS