模型概述
模型特點
模型能力
使用案例
🚀 Røst-wav2vec2-315m-v2
這是一款丹麥最先進的語音識別模型,由 Alvenir 作為 CoRal 項目的一部分進行訓練。本倉庫包含一個基於即將發佈的 CoRal-v2 數據集 訓練的 Wav2Vec2 模型。CoRal-v2 數據集包含豐富多樣的丹麥語對話和朗讀數據,涵蓋了不同年齡、性別和方言。該模型專為自動語音識別(ASR)而設計。
快來 我們的交互式演示 中體驗吧!
🚀 快速開始
首先,安裝所需的庫:
$ pip install transformers kenlm pyctcdecode
接下來,你可以使用 transformers
Python 包來使用該模型,如下所示:
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz 原始音頻數組
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-315m-v2")
>>> transcriber(audio)
{'text': '你的轉錄內容'}
✨ 主要特性
- 基於先進的 Wav2Vec2 架構,利用自監督學習從原始音頻數據中學習特徵。
- 在豐富多樣的丹麥語數據集上進行訓練,涵蓋不同年齡、性別和方言,具有良好的泛化能力。
- 經過微調,能夠更好地識別丹麥語語音,尤其是考慮到不同的方言。
- 結合語言模型進行後處理,提高轉錄的準確性。
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz 原始音頻數組
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-315m-v2")
>>> transcriber(audio)
{'text': '你的轉錄內容'}
高級用法
在實際應用中,你可以根據需要調整模型的參數,例如使用不同的語言模型進行後處理,或者對音頻進行預處理以提高識別準確性。
📚 詳細文檔
轉錄示例
探索以下音頻樣本及其轉錄內容和準確率指標。每個示例都展示了模型在不同丹麥方言下的性能。
示例 1 - 西日德蘭方言
音頻樣本:
模型轉錄內容:
det blev til yderlig ti mål i den første sæson på trods af en position som back
目標轉錄內容:
det blev til yderligere ti mål i den første sæson på trods af en position som back
- 字符錯誤率 (CER): 3.7%
- 單詞錯誤率 (WER): 5.9%
示例 2 - 南日德蘭方言
音頻樣本:
模型轉錄內容:
en arkitektoniske udformning af pladser forslagene iver benzen
目標轉錄內容:
den arkitektoniske udformning af pladsen er forestået af ivar bentsen
- 字符錯誤率 (CER): 20.3%
- 單詞錯誤率 (WER): 60.0%
示例 3 - 北西蘭方言
音頻樣本:
模型轉錄內容:
østrig og ungarn samarbejder om søen gennem den østrigske og ungarske vandkommission
目標轉錄內容:
østrig og ungarn samarbejder om søen gennem den østrigske og ungarske vandkommission
- 字符錯誤率 (CER): 0.0%
- 單詞錯誤率 (WER): 0.0%
示例 4 - 洛蘭方言
音頻樣本:
模型轉錄內容:
det er produceret af thomas helme og indspillede i easy sound recording studio i københavn
目標轉錄內容:
det er produceret af thomas helmig og indspillet i easy sound recording studio i københavn
- 字符錯誤率 (CER): 4.4%
- 單詞錯誤率 (WER): 13.3%
模型詳情
Wav2Vec2 是一種先進的語音識別模型架構,它利用自監督學習從原始音頻數據中學習特徵。預訓練的 Wav2Vec2-XLS-R-300M 模型在 CoRal-v2 數據集 上進行了微調,以提高其在識別丹麥語語音時的性能,尤其是考慮到不同的方言。該模型使用 CoRaL 倉庫 中的訓練設置進行了 30K 步的訓練,運行以下命令:
python src/scripts/finetune_asr_model.py \
model=wav2vec2-small \
max_steps=30000 \
datasets.coral_conversation_internal.id=CoRal-project/coral-v2 \
datasets.coral_readaloud_internal.id=CoRal-project/coral-v2
該模型使用語言模型(LM)進行後處理評估。所使用的 LM 是由 CoRal-project/roest-wav2vec2-315m-v1 訓練和使用的那個。
該模型在 CoRal-v2 數據集上進行訓練,包括對話和朗讀子集。這個數據集包含了各種方言、年齡組和性別差異的丹麥語語音。請注意,該數據集以及此模型均根據自定義許可證進行許可,該許可證改編自 OpenRAIL-M,允許在很少限制的情況下進行商業使用(語音合成和生物識別除外) - 請參閱 許可證。
評估
該模型使用以下指標進行評估:
- 字符錯誤率 (CER): 錯誤轉錄的字符百分比。
- 單詞錯誤率 (WER): 錯誤轉錄的單詞百分比。
對話 CoRal 性能
該模型首先在 coral-v2 對話數據集的一個初步版本上進行了評估。
由於測試集僅包含 5 個獨特的說話者,其中 4 名是女性,因此結果是初步的。測試集包括 2 名使用“菲英島方言”的說話者、1 名使用“南日德蘭方言”的說話者、1 名非母語者和 1 名使用“北日德蘭方言”的說話者。
請注意,對於在朗讀數據上訓練的模型在對話數據上的高泛化誤差仍在分析中。
模型 | 參數數量 | 微調數據類型 | CoRal-v2::conversation CER | CoRal-v2::conversation WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗讀和對話 | 23.9% | 36.7% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗讀和對話 | 24.2% | 37.7% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗讀 | 138% | 121% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗讀 | 123% | 80.5% |
mhenrichsen/hviske-v2 | 1540M | 朗讀 | 78.2% | 72.6% |
openai/whisper-large-v3 | 1540M | - | 46.4 % | 57.4% |
朗讀 CoRal 性能
模型 | 參數數量 | 微調數據類型 | CoRal CER | CoRal WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗讀和對話 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗讀和對話 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗讀 | 4.3% ± 0.2% | 10.4% ± 0.3% |
CoRal-project/roest-wav2vec2-315M-v1 | 315M | 朗讀 | 6.6% ± 0.2% | 17.0% ± 0.4% |
mhenrichsen/hviske-v2 | 1540M | 朗讀 | 4.7% ± 0.2% | 11.8% ± 0.3% |
openai/whisper-large-v3 | 1540M | - | 11.4% ± 0.3% | 28.3% ± 0.6% |
注意! hviske-v2
的基準測試已經重新評估,置信區間比模型卡片中報告的要大。
CoRal 測試數據按人口統計分類的詳細 CER 得分(百分比)
類別 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 5.1 | 7.4 | 7.2 | 7.3 |
男性 | 3.6 | 5.8 | 5.7 | 5.8 |
0 - 25 歲 | 3.4 | 5.4 | 5.3 | 5.1 |
25 - 50 歲 | 4.0 | 6.2 | 6.0 | 5.7 |
50 歲以上 | 5.0 | 7.5 | 7.4 | 7.8 |
博恩霍爾姆島方言 | 3.8 | 6.8 | 6.1 | 6.2 |
菲英島方言 | 5.1 | 7.4 | 7.2 | 6.9 |
哥本哈根方言 | 1.9 | 3.3 | 3.2 | 3.0 |
非母語者 | 4.8 | 7.8 | 7.5 | 7.3 |
北日德蘭方言 | 1.6 | 2.6 | 2.8 | 2.6 |
西蘭島方言 | 3.0 | 4.4 | 4.5 | 3.9 |
南奧馬爾方言 | 4.1 | 6.4 | 6.4 | 6.5 |
南日德蘭方言 | 8.8 | 11.9 | 11.6 | 12.6 |
西日德蘭方言 | 6.4 | 10.1 | 9.8 | 10.5 |
東日德蘭方言 | 2.6 | 4.0 | 4.1 | 3.8 |
總體 | 4.3 | 6.6 | 6.5 | 6.5 |
CoRal 測試數據按人口統計分類的詳細 WER 得分(百分比)
類別 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 11.5 | 18.5 | 17.7 | 17.8 |
男性 | 9.4 | 15.5 | 14.9 | 15.0 |
0 - 25 歲 | 9.0 | 14.7 | 14.0 | 13.7 |
25 - 50 歲 | 10.1 | 16.6 | 15.8 | 15.3 |
50 歲以上 | 11.3 | 18.2 | 17.7 | 18.5 |
博恩霍爾姆島方言 | 9.8 | 17.7 | 15.7 | 16.4 |
菲英島方言 | 12.1 | 18.3 | 17.7 | 16.7 |
哥本哈根方言 | 5.9 | 10.2 | 10.0 | 9.5 |
非母語者 | 12.2 | 20.9 | 19.4 | 19.4 |
北日德蘭方言 | 4.5 | 7.7 | 7.5 | 7.3 |
西蘭島方言 | 7.6 | 12.6 | 12.7 | 11.0 |
南奧馬爾方言 | 10.0 | 14.9 | 15.3 | 14.4 |
南日德蘭方言 | 17.5 | 26.0 | 25.4 | 27.8 |
西日德蘭方言 | 15.0 | 26.3 | 25.2 | 26.7 |
東日德蘭方言 | 7.5 | 11.7 | 11.3 | 10.8 |
總體 | 10.4 | 17.0 | 16.3 | 16.4 |
使用和不使用語言模型的 Røst-wav2vec2 實驗
引入後處理語言模型會顯著影響性能。Røst-v1 和 Røst-v2 模型使用相同的語言模型(LM)。所使用的 LM 是由 CoRal-project/roest-wav2vec2-315m-v1 訓練和使用的那個。
模型 | 參數數量 | 微調數據類型 | 是否使用語言模型後處理 | CoRal CER | CoRal WER |
---|---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗讀和對話 | 是 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗讀和對話 | 否 | 8.1% ± 0.2% | 23.9% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗讀和對話 | 是 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗讀和對話 | 否 | 8.2% ± 0.2% | 25.1% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗讀 | 是 | 6.6% ± 0.2% | 17.0% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗讀 | 否 | 8.6% ± 0.2% | 26.3% ± 0.5% |
以下是 Røst-Wav2Vec2-315m 模型在測試集中不同丹麥方言上的結果:
Røst-v1 | Røst-v1 | Røst-v2 | Røst-v2 | |||||
---|---|---|---|---|---|---|---|---|
LM | 否 | 是 | 否 | 是 | ||||
------------- | --------- | --------- | --------- | --------- | --------- | --------- | --------- | --------- |
方言 | CER (%) | WER (%) | CER (%) | WER (%) | CER (%) | WER (%) | CER (%) | WER (%) |
西日德蘭方言 | 12.7 | 37.1 | 10.1 | 26.3 | 12.2 | 36.3 | 9.82 | 25.2 |
南日德蘭方言 | 14.7 | 37.8 | 11.9 | 26.0 | 14.2 | 36.2 | 11.6 | 25.4 |
博恩霍爾姆島方言 | 9.32 | 29.9 | 6.79 | 17.7 | 8.08 | 26.7 | 6.12 | 15.7 |
東日德蘭方言 | 5.51 | 18.7 | 3.97 | 11.7 | 5.39 | 18.0 | 4.06 | 11.3 |
北日德蘭方言 | 3.86 | 13.6 | 2.57 | 7.72 | 3.80 | 13.5 | 2.75 | 7.51 |
哥本哈根方言 | 5.27 | 18.8 | 3.31 | 10.2 | 5.02 | 17.7 | 3.20 | 9.98 |
菲英島方言 | 9.41 | 28.6 | 7.43 | 18.3 | 8.86 | 27.0 | 7.20 | 17.7 |
非母語者 | 10.6 | 33.2 | 7.84 | 20.9 | 10.0 | 31.6 | 7.46 | 19.4 |
西蘭島方言 | 5.82 | 19.5 | 4.44 | 12.6 | 5.70 | 18.6 | 4.48 | 12.7 |
南奧馬爾方言 | 7.09 | 20.7 | 6.38 | 14.9 | 6.96 | 20.4 | 6.44 | 15.3 |
其他數據集上的性能
該模型還在其他數據集上進行了測試,以評估其泛化能力:
Røst-whisper-large-v1 | Røst-wav2vec2-315M-v1 | Røst-wav2vec2-315M-v2 | Røst-wav2vec2-1B-v2 | |||||
---|---|---|---|---|---|---|---|---|
評估數據集 | WER % | CER % | WER % | CER % | WER % | CER % | WER % | CER % |
CoRal | 10.4 | 4.3 | 17.0 | 6.6 | 16.3 | 6.5 | 16.4 | 6.5 |
NST-da | 29.8 | 14.5 | 29.7 | 13.9 | 26.1 | 11.9 | 12.4 | 4.9 |
CommonVoice17 | 15.6 | 8.2 | 16.7 | 6.6 | 14.4 | 5.4 | 26.3 | 10.9 |
Fleurs-da_dk | 12.6 | 5.1 | 16.6 | 6.3 | 15.6 | 6.1 | 13.7 | 5.5 |
注意! 訓練使用的詞彙表包括數字(0,1,2,..,9),這些數字在後期處理步驟中會轉換為文本。如果模型遺漏了空格,數字會被解釋為一個整體,這尤其會影響 NST 得分,因為該數據集包含許多數字。
比較 Whisper 和 Wav2Vec2 模型的注意事項
本模型卡片中詳細介紹的 Whisper 模型與 Wav2Vec2 模型相比,表現出顯著較低的字符錯誤率(CER)和單詞錯誤率(WER)。
Whisper 使用基於變壓器的架構,並具有額外的層來增強上下文理解。相比之下,Wav2Vec2 模型使用較短的上下文窗口,專注於聲音預測。Røst-Wav2Vec2 模型在後期處理中結合了一個簡單的語言模型,該模型根據統計語言模式來處理錯誤。
引入一個更復雜的上下文後處理語言模型可能會使這些模型類型之間的比較更加準確,CoRal 項目計劃在未來的版本中進行探索。
Røst-Whisper 模型在朗讀數據上表現出色,利用其嵌入式上下文框架在該上下文中實現更強大的識別能力。然而,Wav2Vec2 模型在各種語音識別任務中似乎具有更好的泛化能力,而 Whisper 模型在對話數據上的錯誤率較高。需要注意的是,CoRal-v2 對話數據集是初步的,說話者多樣性有限,這可能會影響這些結果。
訓練曲線
創建者和資助者
該模型由 Marie Juhl Jørgensen 和 Søren Vejlgaard Holm 在 Alvenir 進行訓練,並撰寫了模型卡片。
CoRal 項目由 丹麥創新基金 資助,參與夥伴包括:
我們特別感謝 Dan Saattrup Nielsen、亞歷山德拉研究所 在倉庫工作方面的貢獻,以及 Simon Leminen Madsen、亞歷山德拉研究所 在建模工作方面的貢獻。
引用
@misc{roest-wav2vec2-315m-v2,
author = {Marie Juhl Jørgensen, Søren Vejlgaard Holm, Martin Carsten Nielsen, Dan Saattrup Nielsen, Sif Bernstorff Lehmann, Simon Leminen Madsen and Torben Blach},
title = {Røst-wav2vec-315m-v2: A Danish state-of-the-art speech recognition model trained on varied demographics and dialects},
year = {2025},
url = {https://huggingface.co/CoRal-project/roest-wav2vec2-315m-v2},
}
許可證
📄 許可證
該模型使用 OpenRAIL 許可證。有關詳細信息,請參閱 許可證。



