L

Llama OuteTTS 1.0 1B GPTQ 8bit

由adriabama06開發
OuteTTS 1.0是一個1B參數的文本轉語音模型,支持多語言語音合成與聲音克隆
下載量 15
發布時間 : 4/7/2025

模型概述

基於Llama3.2架構的語音合成模型,通過DAC編碼器實現高保真音頻重建,支持17種主要語言的文本轉語音和聲音克隆功能

模型特點

多語言原生支持
直接支持23種語言的文本輸入,無需羅馬音轉換等預處理
高效聲音克隆
僅需10秒參考音頻即可生成精準聲紋克隆
智能文本對齊
自動處理無明確邊界語言(如日語/中文)的詞語對齊
DAC音頻編碼器
採用IBM Research的高保真雙編碼簿架構,音頻質量顯著提升

模型能力

文本轉語音合成
跨語言語音轉換
聲音特徵克隆
情感語音生成
長文本語音合成(最長42秒)

使用案例

輔助技術
無障礙閱讀
為視障用戶轉換文本內容為語音
支持多語言自然語音輸出
內容創作
有聲內容製作
快速生成播客/視頻配音
可克隆特定主播聲線
教育技術
語言學習工具
生成多語言發音示範
支持23種語言原生髮音
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase