EraX - WoW - Turbo - V1.1 - CT2オープンソースモデル - 多言語音声認識、ベトナム語強化、迅速かつ正確！

Home

Erax WoW Turbo V1.1 CT2

Developed by erax-ai

CTranslate2で最適化されたWhisper Large-v3 Turboのベトナム語強化ローカライズ版で、多言語音声認識をサポートし、高速で高精度

音声認識

Transformers

OtherOpen Source License:MIT #ベトナム語強化 #リアルタイム音声書き起こし #多言語ASR

Downloads 1,283

Release Time : 3/31/2025

Model Overview

これは最適化された音声テキスト変換モデルで、Whisper Large-v3 Turboアーキテクチャを基に、特にベトナム語を強化し、複数の言語をサポートしています。CTranslate2で最適化され、超高速な書き起こし能力を提供します。

Model Features

超高速書き起こし

30秒の音声処理に約350ミリ秒しかかからず、リアルタイム書き起こしをサポート

多言語サポート

11言語をサポートし、特にベトナム語の8地域のアクセントに最適化

高精度

主要言語で単語誤り率(WER)約12%、様々なアクセントに対応

CTranslate2最適化

CTranslate2ライブラリにより2.5倍高速化、低遅延アプリケーションに適している

Model Capabilities

音声テキスト変換

多言語認識

リアルタイム書き起こし

アクセント適応

Use Cases

リアルタイム書き起こし

会議議事録

会議内容をリアルタイムで書き起こし

ほぼリアルタイムの文字記録

インタビュー記録

インタビュー音声を自動書き起こし

迅速で正確なインタビュー記録

アクセシビリティツール

聴覚支援

聴覚障害者向けリアルタイム字幕提供

コミュニケーションのアクセシビリティ向上

メディア制作

動画字幕

動画に自動で字幕を生成

迅速で正確な字幕生成

🚀 EraX-WoW-Turbo V1.1-CT2: Whisper Large-v3 Turbo with CTranslate2 for Vietnamese and then some, Supercharged and Localized! 🚀

EraX-WoW-Turboは、すでに印象的なWhisper Large-v3 Turboをベースに構築された音声認識モデルです。このモデルは、高速で高精度な音声認識を実現し、多言語に対応しています。MITライセンスのため、完全に無料で利用できます。

🚀 クイックスタート

EraX-WoW-Turboを使って、高速かつ高精度な音声認識を体験しましょう。まずは必要なパッケージをインストールします。

* 以下のパッケージをインストールします

pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2

次に、以下のコードを使って音声認識を行います。

from faster_whisper import WhisperModel

model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"

# 必要に応じてオーディオをMONO & 16000に変換します
from pydub import AudioSegment
def convert16k(audio_path):
    audio = AudioSegment.from_file(audio_path, format="wav")    
    audio = audio.split_to_mono()[0]
    audio = audio.set_frame_rate(16000)

    audio.export("test.wav", format="wav")
    return True
    
# GPUでFP16で実行します
fast_model = WhisperModel(model_path, device="cuda", compute_type="bfloat16", )

segments, info = fast_model.transcribe(test["path"], beam_size=5,
                                  #word_timestamps=True,
                                  language="vi",
                                  temperature=0.0,
                                  vad_filter=True,
                                  #vad_parameters=dict(min_silence_duration_ms=2000),
                                  )

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

✨ 主な機能

超高速な音声認識

EraX-WoW-Turboは、CTranslate2ライブラリを使って最適化されており、30秒の音声を約350msで処理することができます。これにより、リアルタイムでの音声認識が可能です。

多言語対応

このモデルは、11の主要言語に対応しており、ベトナム語を含む様々な言語で高精度な音声認識を行うことができます。

高精度な認識結果

事前テストでは、主要言語で約12%のWER（Word Error Rate）が達成されており、ベトナム語の難しい方言でも高精度な認識が可能です。

オープンソース

EraX-WoW-TurboはMITライセンスの下で公開されており、自由に使用することができます。

📦 インストール

必要なパッケージをインストールするには、以下のコマンドを実行します。

pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2

💻 使用例

基本的な使用法

from faster_whisper import WhisperModel

model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"

# 必要に応じてオーディオをMONO & 16000に変換します
from pydub import AudioSegment
def convert16k(audio_path):
    audio = AudioSegment.from_file(audio_path, format="wav")    
    audio = audio.split_to_mono()[0]
    audio = audio.set_frame_rate(16000)

    audio.export("test.wav", format="wav")
    return True
    
# GPUでFP16で実行します
fast_model = WhisperModel(model_path, device="cuda", compute_type="bfloat16", )

segments, info = fast_model.transcribe(test["path"], beam_size=5,
                                  #word_timestamps=True,
                                  language="vi",
                                  temperature=0.0,
                                  vad_filter=True,
                                  #vad_parameters=dict(min_silence_duration_ms=2000),
                                  )

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

📚 ドキュメント

利用ケース

リアルタイム文字起こし：ライブキャプション、会議、インタビューなど、速度が重要な場面での利用に最適です。
音声アシスタント：応答性が高く、高精度な音声制御アプリケーションを構築することができます。
メディア字幕作成：動画やポッドキャストの字幕を迅速かつ正確に生成することができます。
アクセシビリティツール：聴覚障害者を支援するためのツールとして利用できます。
言語学習：発音の練習や即時フィードバックを受けることができます。
多言語通信：将来的にリリース予定のEraX翻訳機と組み合わせることで、完全な多言語通信システムを構築することができます。

制限事項

このモデルは成人の音声で学習されているため、乳児の高い声や静かなささやきには対応できない場合があります。

🔧 技術詳細

EraX-WoW-Turboは、OpenAIのWhisper Large-v3 Turboをベースに構築されており、CTranslate2ライブラリを使って最適化されています。これにより、高速かつ高精度な音声認識が可能です。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

引用

@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
  author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
  organization={EraX},
  year={2025},
  url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}