模型概述
模型特點
模型能力
使用案例
🚀 Breeze ASR 25
Breeze ASR 25 是一款先進的自動語音識別(ASR)模型,它基於 Whisper-large-v2 進行微調。該模型具有諸多優勢,尤其在臺灣普通話、普通話 - 英語代碼切換場景以及時間對齊方面表現出色,適用於自動字幕生成等任務。
✨ 主要特性
- 針對臺灣普通話優化:能更精準地識別臺灣普通話語音內容。
- 適用於普通話 - 英語代碼切換場景:支持句內切換和句間切換等多種代碼切換情況。
- 增強的時間對齊功能:適合自動字幕生成,能更準確地匹配語音和文字的時間。
📦 安裝指南
若要進行快速測試,Hugging Face 的 Transformers 支持該模型。首先,安裝相關包:
pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate
💻 使用示例
基礎用法
以下示例展示瞭如何使用 Breeze ASR 25 對音頻進行轉錄,只需將示例中的 input_audio.wav
替換為實際的音頻文件名即可。
import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline
# 1. 加載音頻
audio_path = "./input_audio.wav"
waveform, sample_rate = torchaudio.load(audio_path)
# 2. 預處理
if waveform.shape[0] > 1:
waveform = waveform.mean(dim=0)
waveform = waveform.squeeze().numpy()
if sample_rate != 16_000:
resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
waveform = resampler(torch.tensor(waveform)).numpy()
sample_rate = 16_000
# 3. 加載模型
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()
# 4. 構建管道
asr_pipeline = AutomaticSpeechRecognitionPipeline(
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
chunk_length_s=0
)
# 6. 推理
output = asr_pipeline(waveform, return_timestamps=True)
print("Result:", output["text"])
高級用法
你可以從基準測試中加載音頻文件進行測試,以下代碼展示瞭如何獲取測試用的 wav 文件。
from datasets import load_dataset
import torch
import torchaudio
ds = load_dataset("ky552/ML2021_ASR_ST", split="test")
sample = ds[1279]["audio"]
audio_array = sample["array"]
sampling_rate = sample["sampling_rate"]
waveform = torch.tensor(audio_array).unsqueeze(0)
torchaudio.save("input_audio.wav", waveform, sampling_rate)
# 解碼結果:
# Breeze ASR 25: "ÊîæÈÄ≤‰Ω†ÁöÑ training Ë£°Èù¢" (正確)
# Whisper: "放進你的權利裡面"
📚 詳細文檔
示例
以 MediaTek's 24th Anniversary 為例,展示 Breeze ASR 25 和 Whisper-large-v2 的轉錄結果。
- Breeze ASR 25:
面對不知道的我們怎麼用 open mind open heart 的心情去 explore
那 explore 過程也就是持續學習 不斷創新
當然如果能帶領 MediaTek 說達到這樣的 position
對做這樣的事情那覺得是一個 commitment
那也是一個 passion 那可以一直很努力的投入在做
- Whisper-large-v2:
面對不知道的我們怎麼用開放心情去探索
把它探索過程也就是 仔細學習 不斷創新
當然如果能帶領MediaTek說 達到這樣的層次 對做這樣的事情
那覺得是一個貢獻那也是一個熱誠
那可以一直來努力地投入在做
性能
以下是不同基準測試數據集上的詞錯誤率(WERR),並與 Whisper-large-v2 自動語言檢測(WLV2 - Auto)基線進行對比。在 論文 中,“Breeze ASR 25” 被稱為 “Twister”。
短音頻數據集
數據集/模型 | 語言 | WLV2 - Auto % | WLV3 - Auto % | COOL - Whisper % | Breeze ASR 25 (我們的模型) % |
---|---|---|---|---|---|
ASCEND - OVERALL* | 混合 | 21.14 | 23.22 | 19.71 | 17.74 (-16.08%) |
- ASCEND - EN | 英語 | 27.36 | 27.21 | 29.39 | 26.64 (-2.63%) |
- ASCEND - ZH | 普通話 | 17.49 | 17.41 | 18.90 | 16.04 (-8.29%) |
- ASCEND - MIX* | 混合 | 21.01 | 25.13 | 17.34 | 16.38 (-22.01%) |
CommonVoice16 - zh - TW | 普通話 | 9.84 | 8.95 | 11.86 | 7.97 (-19%) |
CSZS - zh - en* | 混合 | 29.49 | 26.43 | 20.90 | 13.01 (-55.88%) |
長音頻數據集
數據集/模型 | 語言 | WLV2 - Auto % | WLV3 - Auto % | COOL - Whisper % | Breeze ASR 25 (我們的模型) % |
---|---|---|---|---|---|
ML - lecture - 2021 - long* | 普通話 | 6.13 | 6.41 | 6.37 | 4.98 (-18.76%) |
Formosa - Go | 普通話 | 15.03 | 14.90 | 16.83 | 13.61 (-9.44%) |
Formosa - Show | 普通話 | 29.18 | 27.80 | 29.78 | 27.58 (-5.48%) |
Formosa - Course | 普通話 | 9.50 | 9.67 | 11.12 | 9.94 (+0.44%) |
Formosa - General | 普通話 | 11.45 | 11.46 | 13.33 | 11.37 (-0.69%) |
FormosaSpeech | 普通話 | 22.34 | 21.22 | 26.71 | 22.09 (-1.12%) |
注:* 表示代碼切換數據集。
訓練數據
Breeze ASR 25 的訓練數據採樣自以下具有寬鬆開源許可證的公開可用來源,其中所有中文數據均為合成數據。
數據集名稱 | 類型 | 語言 | 總時長(小時) | 許可證 |
---|---|---|---|---|
ODC Synth | 合成 | 普通話 | 10,000 | Open Data Commons License Attribution + Apache2.0* |
CommonVoice17 - EN | 真實 | 英語 | 1,738 | Creative Commons Zero |
NTUML2021 | 真實 | 代碼切換 | 11 | MIT License |
注:* ODC Synth 是使用 FineWeb2(ODC License)的文本和 BreezyVoice(Apache2.0 License)的 TTS 模型生成的。
🔧 技術細節
通過對三個數據集進行數據增強生成了額外的代碼切換樣本,更多詳細信息可參考 論文。
📄 許可證
本項目採用 Apache - 2.0 許可證。
致謝
- 感謝 NVIDIA 提供對臺北 - 1 超級計算機的訪問權限。
- 感謝 Hung - yi Lee 教授對本項目的寶貴指導。
引用
如果您發現該模型有用,請引用我們的工作:
Cheng - Kang Chou*, Chan - Jan Hsu*, Ho - Lam Chung, Liang - Hsuan Tseng, Hsi - Chun Cheng, Yu - Kuan Fu, Kuan - Po Huang, Hung - yi Lee
A Self - Refining Framework for Enhancing ASR Using TTS - Synthesized Data
* 同等貢獻
@article{chou2025selfrefiningframeworkenhancingasr,
title={A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data},
author={Cheng Kang Chou and Chan-Jan Hsu and Ho-Lam Chung and Liang-Hsuan Tseng and Hsi-Chun Cheng and Yu-Kuan Fu and Kuan Po Huang and Hung-Yi Lee},
journal={arXiv preprint arXiv:2506.11130},
year={2025}
}



