🚀 EraX-WoW-Turbo V1.1-CT2: Whisper Large-v3 Turbo with CTranslate2 for Vietnamese and then some, Supercharged and Localized! 🚀
EraX-WoW-Turboは、すでに印象的なWhisper Large-v3 Turboをベースに構築された音声認識モデルです。このモデルは、高速で高精度な音声認識を実現し、多言語に対応しています。MITライセンスのため、完全に無料で利用できます。
🚀 クイックスタート
EraX-WoW-Turboを使って、高速かつ高精度な音声認識を体験しましょう。まずは必要なパッケージをインストールします。
* 以下のパッケージをインストールします
pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2
次に、以下のコードを使って音声認識を行います。
from faster_whisper import WhisperModel
model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"
from pydub import AudioSegment
def convert16k(audio_path):
audio = AudioSegment.from_file(audio_path, format="wav")
audio = audio.split_to_mono()[0]
audio = audio.set_frame_rate(16000)
audio.export("test.wav", format="wav")
return True
fast_model = WhisperModel(model_path, device="cuda", compute_type="bfloat16", )
segments, info = fast_model.transcribe(test["path"], beam_size=5,
language="vi",
temperature=0.0,
vad_filter=True,
)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
✨ 主な機能
超高速な音声認識
EraX-WoW-Turboは、CTranslate2ライブラリを使って最適化されており、30秒の音声を約350msで処理することができます。これにより、リアルタイムでの音声認識が可能です。
多言語対応
このモデルは、11の主要言語に対応しており、ベトナム語を含む様々な言語で高精度な音声認識を行うことができます。
高精度な認識結果
事前テストでは、主要言語で約12%のWER(Word Error Rate)が達成されており、ベトナム語の難しい方言でも高精度な認識が可能です。
オープンソース
EraX-WoW-TurboはMITライセンスの下で公開されており、自由に使用することができます。
📦 インストール
必要なパッケージをインストールするには、以下のコマンドを実行します。
pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2
💻 使用例
基本的な使用法
from faster_whisper import WhisperModel
model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"
from pydub import AudioSegment
def convert16k(audio_path):
audio = AudioSegment.from_file(audio_path, format="wav")
audio = audio.split_to_mono()[0]
audio = audio.set_frame_rate(16000)
audio.export("test.wav", format="wav")
return True
fast_model = WhisperModel(model_path, device="cuda", compute_type="bfloat16", )
segments, info = fast_model.transcribe(test["path"], beam_size=5,
language="vi",
temperature=0.0,
vad_filter=True,
)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
📚 ドキュメント
利用ケース
- リアルタイム文字起こし:ライブキャプション、会議、インタビューなど、速度が重要な場面での利用に最適です。
- 音声アシスタント:応答性が高く、高精度な音声制御アプリケーションを構築することができます。
- メディア字幕作成:動画やポッドキャストの字幕を迅速かつ正確に生成することができます。
- アクセシビリティツール:聴覚障害者を支援するためのツールとして利用できます。
- 言語学習:発音の練習や即時フィードバックを受けることができます。
- 多言語通信:将来的にリリース予定のEraX翻訳機と組み合わせることで、完全な多言語通信システムを構築することができます。
制限事項
このモデルは成人の音声で学習されているため、乳児の高い声や静かなささやきには対応できない場合があります。
🔧 技術詳細
EraX-WoW-Turboは、OpenAIのWhisper Large-v3 Turboをベースに構築されており、CTranslate2ライブラリを使って最適化されています。これにより、高速かつ高精度な音声認識が可能です。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
引用
@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
organization={EraX},
year={2025},
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}