EraX-WoW-Turbo-V1.1-CT2開源模型 - 多語言語音識別，越南語增強，快準兼備！

首頁

Erax WoW Turbo V1.1 CT2

由erax-ai開發

基於CTranslate2優化的Whisper Large-v3 Turbo越南語增強本地化版，支持多語言語音識別，速度快、準確度高

語音識別

Transformers

其他開源協議:MIT #越南語增強 #即時語音轉寫 #多語言ASR

下載量 1,283

發布時間 : 3/31/2025

模型概述

這是一個優化的語音轉文本模型，基於Whisper Large-v3 Turbo架構，特別針對越南語進行了增強，同時支持多種語言。模型經過CTranslate2優化，提供極速轉錄能力。

模型特點

極速轉錄

處理30秒音頻僅需約350毫秒，支持即時轉錄

多語言支持

支持11種語言，特別針對越南語8種地區口音優化

高準確度

在主要語言中詞錯率(WER)約為12%，能處理各種口音

CTranslate2優化

通過CTranslate2庫實現2.5倍加速，適合低延遲應用

模型能力

語音轉文本

多語言識別

即時轉錄

口音適應

使用案例

即時轉錄

會議記錄

即時轉錄會議內容

幾乎即時的文字記錄

採訪記錄

自動轉錄採訪音頻

快速準確的採訪記錄

無障礙工具

聽力輔助

為聽力障礙人士提供即時字幕

提高溝通可及性

媒體制作

視頻字幕

自動為視頻生成字幕

快速準確的字幕生成

🚀 EraX-WoW-Turbo V1.1-CT2：適用於越南語及更多語言的Whisper Large-v3 Turbo，搭配CTranslate2，性能超強且本地化！🚀

EraX-WoW-Turbo V1.1-CT2基於令人印象深刻的Whisper Large-v3 Turbo構建，它能提供比喝了咖啡的獵豹還快的語音識別速度，其準確性足以讓最挑剔的技術達人朋友也為之讚歎。它就像是經過嚴格訓練並喝了大量濃縮咖啡後的Whisper Large-v3。（承諾兌現！遵循MIT許可協議 - 絕對完全免費。）

Logo

🚀 快速開始

EraX-WoW-Turbo V1.1-CT2是一款強大的語音識別模型，它在Whisper Large-v3 Turbo的基礎上進行了優化，結合CTranslate2庫，能實現超快速且準確的語音識別。以下是使用該模型的步驟：

安裝依賴

* 安裝以下包

pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2

代碼示例

from faster_whisper import WhisperModel

model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"

# 必要時將音頻轉換為單聲道並設置採樣率為16000
from pydub import AudioSegment
def convert16k(audio_path):
    audio = AudioSegment.from_file(audio_path, format="wav")    
    audio = audio.split_to_mono()[0]
    audio = audio.set_frame_rate(16000)

    audio.export("test.wav", format="wav")
    return True
    
# 在GPU上使用FP16運行
fast_model = WhisperModel(model_path, device="cuda", compute_type="bfloat16", )

segments, info = fast_model.transcribe(test["path"], beam_size=5,
                                  #word_timestamps=True,
                                  language="vi",
                                  temperature=0.0,
                                  vad_filter=True,
                                  #vad_parameters=dict(min_silence_duration_ms=2000),
                                  )

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

✨ 主要特性

極速運行

藉助CTranslate2庫，實現即時轉錄。由於Turbo架構的巧妙優化，該模型能在約350ms內處理30秒的音頻，讓轉錄幾乎在你說話結束前就完成。相比之下，原始的中等模型就顯得力不從心了。

多語言支持

EraX-WoW-Turbo不僅速度快，還是一個語言多面手。它在涵蓋11種關鍵語言的多樣化數據集上進行了微調：

越南語（涵蓋所有8個地區，不會遺漏任何口音 😉）
英語（美國）
中文（普通話）
粵語
印尼語
韓語
日語
俄語
德語
法語
荷蘭語

我們相信這個語言選擇為廣泛的應用提供了堅實的基礎。

高準確性

雖然最終的基準測試結果仍在敲定中（即將公佈！），但初步測試顯示，在包括具有挑戰性的越南方言在內的主要語言中，該模型的單詞錯誤率（WER）約為12%。即使你有很重的地方口音，它也能理解你。

精心訓練

該模型在大量數據集（約600,000個樣本，約1000小時）上進行訓練，涵蓋了真實世界的音頻條件。有噪音也沒問題！

開源（MIT許可）

你可以自由使用，沒有任何限制。

在線試聽

"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"

📚 詳細文檔

使用場景

即時轉錄：即時字幕、會議、訪談等任何對速度有要求的場景。
語音助手：構建響應迅速且準確的語音控制應用程序。
媒體字幕：快速準確地為視頻和播客生成字幕。
無障礙工具：幫助聽力障礙人士。
語言學習：練習發音並獲得即時反饋。
多語言通信：與即將推出的EraX翻譯器（約100ms/句延遲）結合使用，打造完整的多語言通信平臺。可用於國際會議的即時翻譯，甚至是旅行應用程序。

侷限性

該模型是基於成人語音進行訓練的，可能難以處理嬰兒的高音哭聲或非常安靜的低語。（我們正在努力改進！）請在合適的場景中使用。

參與貢獻

我們熱衷於讓語音識別技術惠及每個人。我們鼓勵你：

試用：下載模型並進行測試。
提供反饋：告訴我們哪些方面有效，哪些方面需要改進，以及你希望看到哪些功能。（批評時請溫柔一些；我們很敏感！ 😉）
貢獻代碼：如果你是開發者，考慮為項目做出貢獻。

EraX團隊致力於不斷改進我們的模型。請關注未來的更新和更多令人興奮的發展！

📄 許可證

本項目遵循MIT許可協議，與Whisper的許可協議一致。

📚 引用

如果你發現我們的項目有用，請給我們的倉庫點個星，並按以下方式引用我們的工作：

@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
  author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
  organization={EraX},
  year={2025},
  url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}