🚀 EraX-WoW-Turbo V1.1-CT2:適用於越南語及更多語言的Whisper Large-v3 Turbo,搭配CTranslate2,性能超強且本地化!🚀
EraX-WoW-Turbo V1.1-CT2基於令人印象深刻的Whisper Large-v3 Turbo構建,它能提供比喝了咖啡的獵豹還快的語音識別速度,其準確性足以讓最挑剔的技術達人朋友也為之讚歎。它就像是經過嚴格訓練並喝了大量濃縮咖啡後的Whisper Large-v3。(承諾兌現!遵循MIT許可協議 - 絕對完全免費。)
🚀 快速開始
EraX-WoW-Turbo V1.1-CT2是一款強大的語音識別模型,它在Whisper Large-v3 Turbo的基礎上進行了優化,結合CTranslate2庫,能實現超快速且準確的語音識別。以下是使用該模型的步驟:
安裝依賴
* 安裝以下包
pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2
代碼示例
from faster_whisper import WhisperModel
model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"
from pydub import AudioSegment
def convert16k (audio_path ):
audio = AudioSegment.from_file(audio_path, format ="wav" )
audio = audio.split_to_mono()[0 ]
audio = audio.set_frame_rate(16000 )
audio.export("test.wav" , format ="wav" )
return True
fast_model = WhisperModel(model_path, device="cuda" , compute_type="bfloat16" , )
segments, info = fast_model.transcribe(test["path" ], beam_size=5 ,
language="vi" ,
temperature=0.0 ,
vad_filter=True ,
)
print ("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print ("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
✨ 主要特性
極速運行
藉助CTranslate2庫,實現即時轉錄。由於Turbo架構的巧妙優化,該模型能在約350ms內處理30秒的音頻,讓轉錄幾乎在你說話結束前就完成。相比之下,原始的中等模型就顯得力不從心了。
多語言支持
EraX-WoW-Turbo不僅速度快,還是一個語言多面手。它在涵蓋11種關鍵語言的多樣化數據集上進行了微調:
越南語(涵蓋所有8個地區,不會遺漏任何口音 😉)
英語(美國)
中文(普通話)
粵語
印尼語
韓語
日語
俄語
德語
法語
荷蘭語
我們相信這個語言選擇為廣泛的應用提供了堅實的基礎。
高準確性
雖然最終的基準測試結果仍在敲定中(即將公佈!),但初步測試顯示,在包括具有挑戰性的越南方言在內的主要語言中,該模型的單詞錯誤率(WER)約為12%。即使你有很重的地方口音,它也能理解你。
精心訓練
該模型在大量數據集(約600,000個樣本,約1000小時)上進行訓練,涵蓋了真實世界的音頻條件。有噪音也沒問題!
開源(MIT許可)
你可以自由使用,沒有任何限制。
在線試聽
"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"
📚 詳細文檔
使用場景
即時轉錄 :即時字幕、會議、訪談等任何對速度有要求的場景。
語音助手 :構建響應迅速且準確的語音控制應用程序。
媒體字幕 :快速準確地為視頻和播客生成字幕。
無障礙工具 :幫助聽力障礙人士。
語言學習 :練習發音並獲得即時反饋。
多語言通信 :與即將推出的EraX翻譯器(約100ms/句延遲)結合使用,打造完整的多語言通信平臺。可用於國際會議的即時翻譯,甚至是旅行應用程序。
侷限性
該模型是基於成人語音進行訓練的,可能難以處理嬰兒的高音哭聲或非常安靜的低語。(我們正在努力改進!)請在合適的場景中使用。
參與貢獻
我們熱衷於讓語音識別技術惠及每個人。我們鼓勵你:
試用 :下載模型並進行測試。
提供反饋 :告訴我們哪些方面有效,哪些方面需要改進,以及你希望看到哪些功能。(批評時請溫柔一些;我們很敏感! 😉)
貢獻代碼 :如果你是開發者,考慮為項目做出貢獻。
EraX團隊致力於不斷改進我們的模型。請關注未來的更新和更多令人興奮的發展!
📄 許可證
本項目遵循MIT許可協議,與Whisper的許可協議一致。
📚 引用
如果你發現我們的項目有用,請給我們的倉庫點個星,並按以下方式引用我們的工作:
@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
organization={EraX},
year={2025},
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}