🚀 Breeze ASR 25
Breeze ASR 25は、高度な自動音声認識(ASR)モデルです。このモデルは、Whisper-large-v2をベースに微調整されています。台湾語、普通話と英語のコード切り替えシナリオ、および時間同期において卓越した性能を発揮し、自動字幕生成などのタスクに最適です。

GitHub | 論文
✨ 主な機能
- 台湾語に最適化:台湾語の音声内容をより正確に認識します。
- 普通話と英語のコード切り替えに対応:文内および文間のコード切り替えなど、様々なコード切り替えシナリオに対応しています。
- 強化された時間同期機能:自動字幕生成に最適で、音声と文字の時間をより正確に一致させます。
📦 インストール
クイックテストを行う場合は、Hugging FaceのTransformersがこのモデルをサポートしています。まず、関連するパッケージをインストールします。
pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate
💻 使用例
基本的な使用法
以下の例は、Breeze ASR 25を使用して音声を文字起こしする方法を示しています。例のinput_audio.wav
を実際の音声ファイル名に置き換えるだけです。
import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline
audio_path = "./input_audio.wav"
waveform, sample_rate = torchaudio.load(audio_path)
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0)
waveform = waveform.squeeze().numpy()
if sample_rate != 16_000:
resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
waveform = resampler(torch.tensor(waveform)).numpy()
sample_rate = 16_000
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()
asr_pipeline = AutomaticSpeechRecognitionPipeline(
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
chunk_length_s=0
)
output = asr_pipeline(waveform, return_timestamps=True)
print("Result:", output["text"])
高度な使用法
ベンチマークから音声ファイルをロードしてテストすることができます。以下のコードは、テスト用のwavファイルを取得する方法を示しています。
from datasets import load_dataset
import torch
import torchaudio
ds = load_dataset("ky552/ML2021_ASR_ST", split="test")
sample = ds[1279]["audio"]
audio_array = sample["array"]
sampling_rate = sample["sampling_rate"]
waveform = torch.tensor(audio_array).unsqueeze(0)
torchaudio.save("input_audio.wav", waveform, sampling_rate)
📚 ドキュメント
例
MediaTek's 24th Anniversaryを例に、Breeze ASR 25とWhisper-large-v2の文字起こし結果を示します。
面對不知道的我們怎麼用 open mind open heart 的心情去 explore
那 explore 過程也就是持續學習 不斷創新
當然如果能帶領 MediaTek 說達到這樣的 position
對做這樣的事情那覺得是一個 commitment
那也是一個 passion 那可以一直很努力的投入在做
面對不知道的我們怎麼用開放心情去探索
把它探索過程也就是 仔細學習 不斷創新
當然如果能帶領MediaTek說 達到這樣的層次 對做這樣的事情
那覺得是一個貢獻那也是一個熱誠
那可以一直來努力地投入在做
性能
以下は、さまざまなベンチマークデータセットでの単語誤り率(WERR)で、Whisper-large-v2の自動言語検出(WLV2 - Auto)ベースラインと比較しています。論文では、「Breeze ASR 25」は「Twister」と呼ばれています。
短い音声データセット
データセット/モデル |
言語 |
WLV2 - Auto % |
WLV3 - Auto % |
COOL - Whisper % |
Breeze ASR 25 (当モデル) % |
ASCEND - OVERALL* |
混合 |
21.14 |
23.22 |
19.71 |
17.74 (-16.08%) |
- ASCEND - EN |
英語 |
27.36 |
27.21 |
29.39 |
26.64 (-2.63%) |
- ASCEND - ZH |
普通話 |
17.49 |
17.41 |
18.90 |
16.04 (-8.29%) |
- ASCEND - MIX* |
混合 |
21.01 |
25.13 |
17.34 |
16.38 (-22.01%) |
CommonVoice16 - zh - TW |
普通話 |
9.84 |
8.95 |
11.86 |
7.97 (-19%) |
CSZS - zh - en* |
混合 |
29.49 |
26.43 |
20.90 |
13.01 (-55.88%) |
長い音声データセット
データセット/モデル |
言語 |
WLV2 - Auto % |
WLV3 - Auto % |
COOL - Whisper % |
Breeze ASR 25 (当モデル) % |
ML - lecture - 2021 - long* |
普通話 |
6.13 |
6.41 |
6.37 |
4.98 (-18.76%) |
Formosa - Go |
普通話 |
15.03 |
14.90 |
16.83 |
13.61 (-9.44%) |
Formosa - Show |
普通話 |
29.18 |
27.80 |
29.78 |
27.58 (-5.48%) |
Formosa - Course |
普通話 |
9.50 |
9.67 |
11.12 |
9.94 (+0.44%) |
Formosa - General |
普通話 |
11.45 |
11.46 |
13.33 |
11.37 (-0.69%) |
FormosaSpeech |
普通話 |
22.34 |
21.22 |
26.71 |
22.09 (-1.12%) |
注:* はコード切り替えデータセットを示します。
訓練データ
Breeze ASR 25の訓練データは、以下の緩やかなオープンソースライセンスを持つ公開データセットからサンプリングされています。すべての中国語データは合成データです。
データセット名 |
タイプ |
言語 |
総時間(時間) |
ライセンス |
ODC Synth |
合成 |
普通話 |
10,000 |
Open Data Commons License Attribution + Apache2.0* |
CommonVoice17 - EN |
実データ |
英語 |
1,738 |
Creative Commons Zero |
NTUML2021 |
実データ |
コード切り替え |
11 |
MIT License |
注:* ODC Synthは、FineWeb2(ODC License)のテキストとBreezyVoice(Apache2.0 License)のTTSモデルを使用して生成されました。
🔧 技術詳細
3つのデータセットを使用したデータ拡張により、追加のコード切り替えサンプルが生成されました。詳細については、論文を参照してください。
📄 ライセンス
このプロジェクトは、Apache - 2.0ライセンスの下で提供されています。
謝辞
- NVIDIAが台北 - 1スーパーコンピュータへのアクセスを提供してくれたことに感謝します。
- Hung - yi Lee教授がこのプロジェクトに対して貴重な指導をしてくれたことに感謝します。
引用
このモデルが役立つと思われる場合は、以下のように引用してください。
Cheng - Kang Chou*, Chan - Jan Hsu*, Ho - Lam Chung, Liang - Hsuan Tseng, Hsi - Chun Cheng, Yu - Kuan Fu, Kuan - Po Huang, Hung - yi Lee
A Self - Refining Framework for Enhancing ASR Using TTS - Synthesized Data
* 同等の貢献
@article{chou2025selfrefiningframeworkenhancingasr,
title={A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data},
author={Cheng Kang Chou and Chan-Jan Hsu and Ho-Lam Chung and Liang-Hsuan Tseng and Hsi-Chun Cheng and Yu-Kuan Fu and Kuan Po Huang and Hung-Yi Lee},
journal={arXiv preprint arXiv:2506.11130},
year={2025}
}