Breeze-ASR-25オープンソース音声認識モデル - 台湾の普通話と中英切り替えシーンを精度よく認識します

Home

Breeze ASR 25

Developed by MediaTek-Research

Breeze ASR 25は、Whisper-large-v2を微調整した高度な自動音声認識モデルで、台湾普通話と普通話 - 英語のコード切り替えシナリオの認識能力を特別に最適化しています。

音声認識

Safetensors

Supports Multiple LanguagesOpen Source License:Apache-2.0 #台湾普通話の最適化 #中英コード切り替え #正確な時間合わせ

Downloads 10.33k

Release Time : 6/6/2025

Model Overview

Breeze ASR 25は高性能の自動音声認識モデルで、台湾普通話と普通話 - 英語のコード切り替えシナリオに対して最適化されており、自動字幕生成などのタスクに適しています。

Model Features

台湾普通話の最適化

台湾普通話の音声内容をより正確に認識できます

コード切り替えのサポート

普通話 - 英語のコード切り替えシナリオをサポートし、文内切り替えと文間切り替えを含みます

時間合わせの強化

より正確な時間合わせ機能を提供し、自動字幕生成に適しています

高性能

複数のベンチマークテストでWhisper-large-v2よりも優れた性能を発揮します

Model Capabilities

音声認識

多言語サポート

コード切り替え認識

時間合わせ

Use Cases

字幕生成

自動字幕生成

ビデオコンテンツに正確な時間合わせの字幕を生成します

Whisper-large-v2と比較して認識精度が向上しました

音声書き起こし

台湾普通話の書き起こし

台湾普通話の内容を正確に書き起こします

CommonVoice16 - zh - TWデータセットでWERRが19％低下しました

コード切り替えの書き起こし

普通話 - 英語の混合音声内容を処理します

CSZS - zh - enデータセットでWERRが55.88％低下しました

🚀 Breeze ASR 25

Breeze ASR 25は、高度な自動音声認識（ASR）モデルです。このモデルは、Whisper-large-v2をベースに微調整されています。台湾語、普通話と英語のコード切り替えシナリオ、および時間同期において卓越した性能を発揮し、自動字幕生成などのタスクに最適です。

Breeze ASR 25

GitHub | 論文

✨ 主な機能

台湾語に最適化：台湾語の音声内容をより正確に認識します。
普通話と英語のコード切り替えに対応：文内および文間のコード切り替えなど、様々なコード切り替えシナリオに対応しています。
強化された時間同期機能：自動字幕生成に最適で、音声と文字の時間をより正確に一致させます。

📦 インストール

クイックテストを行う場合は、Hugging FaceのTransformersがこのモデルをサポートしています。まず、関連するパッケージをインストールします。

pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate

💻 使用例

基本的な使用法

以下の例は、Breeze ASR 25を使用して音声を文字起こしする方法を示しています。例のinput_audio.wavを実際の音声ファイル名に置き換えるだけです。

import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline

# 1. 音声をロード
audio_path = "./input_audio.wav"
waveform, sample_rate = torchaudio.load(audio_path)          

# 2. 前処理
if waveform.shape[0] > 1:
    waveform = waveform.mean(dim=0)                         
waveform = waveform.squeeze().numpy()                        

if sample_rate != 16_000:
    resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
    waveform = resampler(torch.tensor(waveform)).numpy()
    sample_rate = 16_000

# 3. モデルをロード
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()

# 4. パイプラインを構築
asr_pipeline = AutomaticSpeechRecognitionPipeline(
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=0
)

# 6. 推論
output = asr_pipeline(waveform, return_timestamps=True)  
print("Result:", output["text"])

高度な使用法

ベンチマークから音声ファイルをロードしてテストすることができます。以下のコードは、テスト用のwavファイルを取得する方法を示しています。

from datasets import load_dataset
import torch
import torchaudio


ds = load_dataset("ky552/ML2021_ASR_ST", split="test")
sample = ds[1279]["audio"]

audio_array = sample["array"]
sampling_rate = sample["sampling_rate"]

waveform = torch.tensor(audio_array).unsqueeze(0)

torchaudio.save("input_audio.wav", waveform, sampling_rate)

# デコード結果:
# Breeze ASR 25: "ÊîæÈÄ≤‰Ω†ÁöÑ training Ë£°Èù¢" (正しい)
# Whisper: "ÊîæÈÄ≤‰Ω†ÁöÑÊ¨äÂà©Ë£°Èù¢"

📚 ドキュメント

例

MediaTek's 24th Anniversaryを例に、Breeze ASR 25とWhisper-large-v2の文字起こし結果を示します。

Breeze ASR 25：

Èù¢Â∞ç‰∏çÁü•ÈÅìÁöÑÊàëÂÄëÊÄéÈ∫ºÁî® open mind open heart ÁöÑÂøÉÊÉÖÂéª explore
ÈÇ£ explore ÈÅéÁ®ã‰πüÂ∞±ÊòØÊåÅÁ∫åÂ≠∏Áøí ‰∏çÊñ∑ÂâµÊñ∞
Áï∂ÁÑ∂Â¶ÇÊûúËÉΩÂ∏∂È†ò MediaTek Ë™™ÈÅîÂà∞ÈÄôÊ®£ÁöÑ position
Â∞çÂÅöÈÄôÊ®£ÁöÑ‰∫ãÊÉÖÈÇ£Ë¶∫ÂæóÊòØ‰∏ÄÂÄã commitment
ÈÇ£‰πüÊòØ‰∏ÄÂÄã passion ÈÇ£ÂèØ‰ª•‰∏ÄÁõ¥ÂæàÂä™ÂäõÁöÑÊäïÂÖ•Âú®ÂÅö

Whisper-large-v2：

Èù¢Â∞ç‰∏çÁü•ÈÅìÁöÑÊàëÂÄëÊÄéÈ∫ºÁî®ÈñãÊîæÂøÉÊÉÖÂéªÊé¢Á¥¢
ÊääÂÆÉÊé¢Á¥¢ÈÅéÁ®ã‰πüÂ∞±ÊòØ ‰ªîÁ¥∞Â≠∏Áøí ‰∏çÊñ∑ÂâµÊñ∞
Áï∂ÁÑ∂Â¶ÇÊûúËÉΩÂ∏∂È†òMediaTekË™™ ÈÅîÂà∞ÈÄôÊ®£ÁöÑÂ±§Ê¨° Â∞çÂÅöÈÄôÊ®£ÁöÑ‰∫ãÊÉÖ
ÈÇ£Ë¶∫ÂæóÊòØ‰∏ÄÂÄãË≤¢ÁçªÈÇ£‰πüÊòØ‰∏ÄÂÄãÁÜ±Ë™†
ÈÇ£ÂèØ‰ª•‰∏ÄÁõ¥‰æÜÂä™ÂäõÂú∞ÊäïÂÖ•Âú®ÂÅö

性能

以下は、さまざまなベンチマークデータセットでの単語誤り率（WERR）で、Whisper-large-v2の自動言語検出（WLV2 - Auto）ベースラインと比較しています。論文では、「Breeze ASR 25」は「Twister」と呼ばれています。

短い音声データセット

データセット/モデル	言語	WLV2 - Auto %	WLV3 - Auto %	COOL - Whisper %	Breeze ASR 25 (当モデル) %
ASCEND - OVERALL*	混合	21.14	23.22	19.71	17.74 (-16.08%)
- ASCEND - EN	英語	27.36	27.21	29.39	26.64 (-2.63%)
- ASCEND - ZH	普通話	17.49	17.41	18.90	16.04 (-8.29%)
- ASCEND - MIX*	混合	21.01	25.13	17.34	16.38 (-22.01%)
CommonVoice16 - zh - TW	普通話	9.84	8.95	11.86	7.97 (-19%)
CSZS - zh - en*	混合	29.49	26.43	20.90	13.01 (-55.88%)

長い音声データセット

データセット/モデル	言語	WLV2 - Auto %	WLV3 - Auto %	COOL - Whisper %	Breeze ASR 25 (当モデル) %
ML - lecture - 2021 - long*	普通話	6.13	6.41	6.37	4.98 (-18.76%)
Formosa - Go	普通話	15.03	14.90	16.83	13.61 (-9.44%)
Formosa - Show	普通話	29.18	27.80	29.78	27.58 (-5.48%)
Formosa - Course	普通話	9.50	9.67	11.12	9.94 (+0.44%)
Formosa - General	普通話	11.45	11.46	13.33	11.37 (-0.69%)
FormosaSpeech	普通話	22.34	21.22	26.71	22.09 (-1.12%)

注：* はコード切り替えデータセットを示します。

訓練データ

Breeze ASR 25の訓練データは、以下の緩やかなオープンソースライセンスを持つ公開データセットからサンプリングされています。すべての中国語データは合成データです。

データセット名	タイプ	言語	総時間（時間）	ライセンス
ODC Synth	合成	普通話	10,000	Open Data Commons License Attribution + Apache2.0*
CommonVoice17 - EN	実データ	英語	1,738	Creative Commons Zero
NTUML2021	実データ	コード切り替え	11	MIT License

注：* ODC Synthは、FineWeb2（ODC License）のテキストとBreezyVoice（Apache2.0 License）のTTSモデルを使用して生成されました。

🔧 技術詳細

3つのデータセットを使用したデータ拡張により、追加のコード切り替えサンプルが生成されました。詳細については、論文を参照してください。

📄 ライセンス

このプロジェクトは、Apache - 2.0ライセンスの下で提供されています。

謝辞

NVIDIAが台北 - 1スーパーコンピュータへのアクセスを提供してくれたことに感謝します。
Hung - yi Lee教授がこのプロジェクトに対して貴重な指導をしてくれたことに感謝します。

引用

このモデルが役立つと思われる場合は、以下のように引用してください。 Cheng - Kang Chou*, Chan - Jan Hsu*, Ho - Lam Chung, Liang - Hsuan Tseng, Hsi - Chun Cheng, Yu - Kuan Fu, Kuan - Po Huang, Hung - yi Lee
A Self - Refining Framework for Enhancing ASR Using TTS - Synthesized Data

* 同等の貢献

@article{chou2025selfrefiningframeworkenhancingasr,
  title={A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data},
  author={Cheng Kang Chou and Chan-Jan Hsu and Ho-Lam Chung and Liang-Hsuan Tseng and Hsi-Chun Cheng and Yu-Kuan Fu and Kuan Po Huang and Hung-Yi Lee},
  journal={arXiv preprint arXiv:2506.11130},
  year={2025}
}