I

Indri 0.1 350m Tts

由11mlabs開發
Indri 是一個基於 Transformer 架構的新型、超小型、輕量級 TTS 模型,支持英語和印地語的文本轉語音任務。
下載量 1,088
發布時間 : 11/20/2024

模型概述

該模型將音頻建模為標記,可以生成高質量的音頻,並保持說話者風格的一致性。支持語音克隆和代碼混合文本輸入。

模型特點

小型輕量
基於 GPT-2 中等架構,體積小但性能強大
超快推理
在 RTX6000Ada GPU 上可達 300 toks/s 的生成速度,首次標記時間低於 20ms
語音克隆
支持基於短提示(<5秒)的說話者風格克隆
多語言支持
支持英語和印地語的代碼混合輸入
批量處理
在 RTX6000Ada 上支持約300個序列的批量處理

模型能力

文本轉語音
語音克隆
多語言語音合成
批量語音生成

使用案例

內容創作
有聲讀物生成
為電子書自動生成高質量的有聲版本
提供多種說話者風格選擇
教育內容
為教育材料生成多語言語音內容
支持英語和印地語混合內容
商業應用
語音助手
為應用程序集成自然語音輸出
低延遲響應
廣告內容
快速生成不同風格的廣告語音
支持多種說話者風格
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase