🚀 EraX-WoW-Turbo V1.1:適用於越南語及更多語言的Whisper Large-v3 Turbo,超強本地化版本!
EraX-WoW-Turbo V1.1基於強大的Whisper Large-v3 Turbo構建,專為越南語及多種語言的語音識別場景進行了優化和本地化處理。它速度極快、準確率高,且遵循MIT許可協議,完全免費使用。
🚀 快速開始
EraX-WoW-Turbo V1.1已經準備好為你提供超快速且準確的語音識別服務。你可以直接下載模型進行測試,體驗其卓越性能。
✨ 主要特性
極速識別
藉助CTranslate2庫實現即時轉錄。憑藉Turbo架構的巧妙優化,該模型僅需約350ms即可處理30秒的音頻,讓你幾乎在說話結束的瞬間就能看到轉錄結果,遠超原始的中等模型。
多語言支持
EraX-WoW-Turbo V1.1是一個語言多面手,在涵蓋11種關鍵語言的多樣化數據集上進行了微調:
越南語(涵蓋所有8個地區,不會遺漏任何口音😉)
英語(美國)
中文(普通話)
粵語
印尼語
韓語
日語
俄語
德語
法語
荷蘭語
這種語言選擇為廣泛的應用提供了堅實的基礎。
高準確率
儘管最終的基準測試結果仍在敲定中(即將公佈!),但初步測試顯示,在包括具有挑戰性的越南方言在內的主要語言中,該模型的單詞錯誤率(WER)約為12%,即使面對濃重的地方口音也能準確識別。
精心訓練
模型在大量數據集(約600,000個樣本,約1000小時)上進行訓練,涵蓋了真實世界的音頻條件,即使存在噪音也能正常工作。
開源免費
遵循MIT許可協議,你可以自由使用、修改和分發該模型,沒有任何限制。
在線體驗
你可以點擊下面的音頻進行試聽:
"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"
🔧 技術細節
性能加速(CTranslate2)
雖然EraX-WoW-Turbo本身已經非常快速,但結合CTranslate2庫(https://github.com/OpenNMT/CTranslate2 )使用時,你可以進一步提升其速度,實現高達2.5倍的加速,非常適合對延遲要求極高的應用場景。
💻 使用示例
應用場景
即時轉錄 :適用於即時字幕、會議、訪談等對速度要求較高的場景。
語音助手 :構建響應迅速且準確的語音控制應用程序。
媒體字幕 :快速準確地為視頻和播客生成字幕。
無障礙工具 :幫助聽力障礙人士獲取信息。
語言學習 :練習發音並獲得即時反饋。
多語言通信 :與即將推出的EraX翻譯器(約100ms/句延遲)結合使用,打造完整的多語言通信解決方案,適用於國際會議或旅行應用。
📄 許可證
本項目遵循MIT許可協議,與Whisper的許可協議一致。
📚 詳細文檔
侷限性說明
本模型是基於成人語音進行訓練的,可能在處理嬰兒的高音哭聲或非常安靜的低語時遇到困難。開發團隊正在努力改進這一問題,請在合適的場景中使用該模型。
參與貢獻
開發團隊致力於讓語音識別技術惠及每一個人,鼓勵你:
試用模型 :下載模型並進行測試。
提供反饋 :告知我們哪些方面表現良好,哪些方面需要改進,以及你期望看到的新功能。(請溫柔地提出批評,開發團隊很敏感哦😉)
貢獻代碼 :如果你是開發者,歡迎為項目做出貢獻。
EraX團隊將持續改進模型,敬請關注未來的更新和更多令人興奮的發展!
📝 引用
如果你覺得我們的項目有用,請給我們的倉庫點個星,並按照以下格式引用我們的工作:
@article{title={EraX-WoW-Turbo-V1.1: Lắng nghe để Yêu thương.},
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
organization={EraX},
year={2025},
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1}
}