Breeze-ASR-25開源語音識別模型 - 精準識別臺灣普通話及中英切換場景

首頁

Breeze ASR 25

由MediaTek-Research開發

Breeze ASR 25 是一款基於 Whisper-large-v2 微調的先進自動語音識別模型，特別優化了臺灣普通話和普通話-英語代碼切換場景的識別能力。

語音識別

Safetensors

支持多種語言開源協議:Apache-2.0 #臺灣普通話優化 #中英代碼切換 #精準時間對齊

下載量 10.33k

發布時間 : 6/6/2025

模型概述

Breeze ASR 25 是一款高性能的自動語音識別模型，針對臺灣普通話和普通話-英語代碼切換場景進行了優化，適用於自動字幕生成等任務。

模型特點

臺灣普通話優化

能更精準地識別臺灣普通話語音內容

代碼切換支持

支持普通話-英語代碼切換場景，包括句內切換和句間切換

時間對齊增強

提供更準確的時間對齊功能，適合自動字幕生成

高性能

在多個基準測試中表現優於 Whisper-large-v2

模型能力

語音識別

多語言支持

代碼切換識別

時間對齊

使用案例

字幕生成

自動字幕生成

為視頻內容生成準確的時間對齊字幕

相比 Whisper-large-v2 提高了識別準確率

語音轉寫

臺灣普通話轉寫

準確轉寫臺灣普通話內容

在 CommonVoice16 - zh - TW 數據集上 WERR 降低 19%

代碼切換轉寫

處理普通話-英語混合的語音內容

在 CSZS - zh - en 數據集上 WERR 降低 55.88%

🚀 Breeze ASR 25

Breeze ASR 25 是一款先進的自動語音識別（ASR）模型，它基於 Whisper-large-v2 進行微調。該模型具有諸多優勢，尤其在臺灣普通話、普通話 - 英語代碼切換場景以及時間對齊方面表現出色，適用於自動字幕生成等任務。

Breeze ASR 25

GitHub | 論文

✨ 主要特性

針對臺灣普通話優化：能更精準地識別臺灣普通話語音內容。
適用於普通話 - 英語代碼切換場景：支持句內切換和句間切換等多種代碼切換情況。
增強的時間對齊功能：適合自動字幕生成，能更準確地匹配語音和文字的時間。

📦 安裝指南

若要進行快速測試，Hugging Face 的 Transformers 支持該模型。首先，安裝相關包：

pip install --upgrade pip
pip install --upgrade transformers datasets[audio] accelerate

💻 使用示例

基礎用法

以下示例展示瞭如何使用 Breeze ASR 25 對音頻進行轉錄，只需將示例中的 input_audio.wav 替換為實際的音頻文件名即可。

import torchaudio
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration, AutomaticSpeechRecognitionPipeline

# 1. 加載音頻
audio_path = "./input_audio.wav"
waveform, sample_rate = torchaudio.load(audio_path)          

# 2. 預處理
if waveform.shape[0] > 1:
    waveform = waveform.mean(dim=0)                         
waveform = waveform.squeeze().numpy()                        

if sample_rate != 16_000:
    resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
    waveform = resampler(torch.tensor(waveform)).numpy()
    sample_rate = 16_000

# 3. 加載模型
processor = WhisperProcessor.from_pretrained("MediaTek-Research/Breeze-ASR-25")
model = WhisperForConditionalGeneration.from_pretrained("MediaTek-Research/Breeze-ASR-25").to("cuda").eval()

# 4. 構建管道
asr_pipeline = AutomaticSpeechRecognitionPipeline(
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    chunk_length_s=0
)

# 6. 推理
output = asr_pipeline(waveform, return_timestamps=True)  
print("Result:", output["text"])

高級用法

你可以從基準測試中加載音頻文件進行測試，以下代碼展示瞭如何獲取測試用的 wav 文件。

from datasets import load_dataset
import torch
import torchaudio


ds = load_dataset("ky552/ML2021_ASR_ST", split="test")
sample = ds[1279]["audio"]

audio_array = sample["array"]
sampling_rate = sample["sampling_rate"]

waveform = torch.tensor(audio_array).unsqueeze(0)

torchaudio.save("input_audio.wav", waveform, sampling_rate)

# 解碼結果:
# Breeze ASR 25: "ÊîæÈÄ≤‰Ω†ÁöÑ training Ë£°Èù¢" (正確)
# Whisper: "ÊîæÈÄ≤‰Ω†ÁöÑÊ¨äÂà©Ë£°Èù¢"

📚 詳細文檔

示例

以 MediaTek's 24th Anniversary 為例，展示 Breeze ASR 25 和 Whisper-large-v2 的轉錄結果。

Breeze ASR 25：

Èù¢Â∞ç‰∏çÁü•ÈÅìÁöÑÊàëÂÄëÊÄéÈ∫ºÁî® open mind open heart ÁöÑÂøÉÊÉÖÂéª explore
ÈÇ£ explore ÈÅéÁ®ã‰πüÂ∞±ÊòØÊåÅÁ∫åÂ≠∏Áøí ‰∏çÊñ∑ÂâµÊñ∞
Áï∂ÁÑ∂Â¶ÇÊûúËÉΩÂ∏∂È†ò MediaTek Ë™™ÈÅîÂà∞ÈÄôÊ®£ÁöÑ position
Â∞çÂÅöÈÄôÊ®£ÁöÑ‰∫ãÊÉÖÈÇ£Ë¶∫ÂæóÊòØ‰∏ÄÂÄã commitment
ÈÇ£‰πüÊòØ‰∏ÄÂÄã passion ÈÇ£ÂèØ‰ª•‰∏ÄÁõ¥ÂæàÂä™ÂäõÁöÑÊäïÂÖ•Âú®ÂÅö

Whisper-large-v2：

Èù¢Â∞ç‰∏çÁü•ÈÅìÁöÑÊàëÂÄëÊÄéÈ∫ºÁî®ÈñãÊîæÂøÉÊÉÖÂéªÊé¢Á¥¢
ÊääÂÆÉÊé¢Á¥¢ÈÅéÁ®ã‰πüÂ∞±ÊòØ ‰ªîÁ¥∞Â≠∏Áøí ‰∏çÊñ∑ÂâµÊñ∞
Áï∂ÁÑ∂Â¶ÇÊûúËÉΩÂ∏∂È†òMediaTekË™™ ÈÅîÂà∞ÈÄôÊ®£ÁöÑÂ±§Ê¨° Â∞çÂÅöÈÄôÊ®£ÁöÑ‰∫ãÊÉÖ
ÈÇ£Ë¶∫ÂæóÊòØ‰∏ÄÂÄãË≤¢ÁçªÈÇ£‰πüÊòØ‰∏ÄÂÄãÁÜ±Ë™†
ÈÇ£ÂèØ‰ª•‰∏ÄÁõ¥‰æÜÂä™ÂäõÂú∞ÊäïÂÖ•Âú®ÂÅö

性能

以下是不同基準測試數據集上的詞錯誤率（WERR），並與 Whisper-large-v2 自動語言檢測（WLV2 - Auto）基線進行對比。在論文中，“Breeze ASR 25” 被稱為 “Twister”。

短音頻數據集

數據集/模型	語言	WLV2 - Auto %	WLV3 - Auto %	COOL - Whisper %	Breeze ASR 25 (我們的模型) %
ASCEND - OVERALL*	混合	21.14	23.22	19.71	17.74 (-16.08%)
- ASCEND - EN	英語	27.36	27.21	29.39	26.64 (-2.63%)
- ASCEND - ZH	普通話	17.49	17.41	18.90	16.04 (-8.29%)
- ASCEND - MIX*	混合	21.01	25.13	17.34	16.38 (-22.01%)
CommonVoice16 - zh - TW	普通話	9.84	8.95	11.86	7.97 (-19%)
CSZS - zh - en*	混合	29.49	26.43	20.90	13.01 (-55.88%)

長音頻數據集

數據集/模型	語言	WLV2 - Auto %	WLV3 - Auto %	COOL - Whisper %	Breeze ASR 25 (我們的模型) %
ML - lecture - 2021 - long*	普通話	6.13	6.41	6.37	4.98 (-18.76%)
Formosa - Go	普通話	15.03	14.90	16.83	13.61 (-9.44%)
Formosa - Show	普通話	29.18	27.80	29.78	27.58 (-5.48%)
Formosa - Course	普通話	9.50	9.67	11.12	9.94 (+0.44%)
Formosa - General	普通話	11.45	11.46	13.33	11.37 (-0.69%)
FormosaSpeech	普通話	22.34	21.22	26.71	22.09 (-1.12%)

注：* 表示代碼切換數據集。

訓練數據

Breeze ASR 25 的訓練數據採樣自以下具有寬鬆開源許可證的公開可用來源，其中所有中文數據均為合成數據。

數據集名稱	類型	語言	總時長（小時）	許可證
ODC Synth	合成	普通話	10,000	Open Data Commons License Attribution + Apache2.0*
CommonVoice17 - EN	真實	英語	1,738	Creative Commons Zero
NTUML2021	真實	代碼切換	11	MIT License

注：* ODC Synth 是使用 FineWeb2（ODC License）的文本和 BreezyVoice（Apache2.0 License）的 TTS 模型生成的。

🔧 技術細節

通過對三個數據集進行數據增強生成了額外的代碼切換樣本，更多詳細信息可參考論文。

📄 許可證

本項目採用 Apache - 2.0 許可證。

致謝

感謝 NVIDIA 提供對臺北 - 1 超級計算機的訪問權限。
感謝 Hung - yi Lee 教授對本項目的寶貴指導。

引用

如果您發現該模型有用，請引用我們的工作： Cheng - Kang Chou*, Chan - Jan Hsu*, Ho - Lam Chung, Liang - Hsuan Tseng, Hsi - Chun Cheng, Yu - Kuan Fu, Kuan - Po Huang, Hung - yi Lee
A Self - Refining Framework for Enhancing ASR Using TTS - Synthesized Data

* 同等貢獻

@article{chou2025selfrefiningframeworkenhancingasr,
  title={A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data},
  author={Cheng Kang Chou and Chan-Jan Hsu and Ho-Lam Chung and Liang-Hsuan Tseng and Hsi-Chun Cheng and Yu-Kuan Fu and Kuan Po Huang and Hung-Yi Lee},
  journal={arXiv preprint arXiv:2506.11130},
  year={2025}
}