模型简介
模型特点
模型能力
使用案例
🚀 Røst-wav2vec2-315m-v2
这是一款丹麦最先进的语音识别模型,由 Alvenir 作为 CoRal 项目的一部分进行训练。本仓库包含一个基于即将发布的 CoRal-v2 数据集 训练的 Wav2Vec2 模型。CoRal-v2 数据集包含丰富多样的丹麦语对话和朗读数据,涵盖了不同年龄、性别和方言。该模型专为自动语音识别(ASR)而设计。
快来 我们的交互式演示 中体验吧!
🚀 快速开始
首先,安装所需的库:
$ pip install transformers kenlm pyctcdecode
接下来,你可以使用 transformers
Python 包来使用该模型,如下所示:
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz 原始音频数组
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-315m-v2")
>>> transcriber(audio)
{'text': '你的转录内容'}
✨ 主要特性
- 基于先进的 Wav2Vec2 架构,利用自监督学习从原始音频数据中学习特征。
- 在丰富多样的丹麦语数据集上进行训练,涵盖不同年龄、性别和方言,具有良好的泛化能力。
- 经过微调,能够更好地识别丹麦语语音,尤其是考虑到不同的方言。
- 结合语言模型进行后处理,提高转录的准确性。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz 原始音频数组
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-315m-v2")
>>> transcriber(audio)
{'text': '你的转录内容'}
高级用法
在实际应用中,你可以根据需要调整模型的参数,例如使用不同的语言模型进行后处理,或者对音频进行预处理以提高识别准确性。
📚 详细文档
转录示例
探索以下音频样本及其转录内容和准确率指标。每个示例都展示了模型在不同丹麦方言下的性能。
示例 1 - 西日德兰方言
音频样本:
模型转录内容:
det blev til yderlig ti mål i den første sæson på trods af en position som back
目标转录内容:
det blev til yderligere ti mål i den første sæson på trods af en position som back
- 字符错误率 (CER): 3.7%
- 单词错误率 (WER): 5.9%
示例 2 - 南日德兰方言
音频样本:
模型转录内容:
en arkitektoniske udformning af pladser forslagene iver benzen
目标转录内容:
den arkitektoniske udformning af pladsen er forestået af ivar bentsen
- 字符错误率 (CER): 20.3%
- 单词错误率 (WER): 60.0%
示例 3 - 北西兰方言
音频样本:
模型转录内容:
østrig og ungarn samarbejder om søen gennem den østrigske og ungarske vandkommission
目标转录内容:
østrig og ungarn samarbejder om søen gennem den østrigske og ungarske vandkommission
- 字符错误率 (CER): 0.0%
- 单词错误率 (WER): 0.0%
示例 4 - 洛兰方言
音频样本:
模型转录内容:
det er produceret af thomas helme og indspillede i easy sound recording studio i københavn
目标转录内容:
det er produceret af thomas helmig og indspillet i easy sound recording studio i københavn
- 字符错误率 (CER): 4.4%
- 单词错误率 (WER): 13.3%
模型详情
Wav2Vec2 是一种先进的语音识别模型架构,它利用自监督学习从原始音频数据中学习特征。预训练的 Wav2Vec2-XLS-R-300M 模型在 CoRal-v2 数据集 上进行了微调,以提高其在识别丹麦语语音时的性能,尤其是考虑到不同的方言。该模型使用 CoRaL 仓库 中的训练设置进行了 30K 步的训练,运行以下命令:
python src/scripts/finetune_asr_model.py \
model=wav2vec2-small \
max_steps=30000 \
datasets.coral_conversation_internal.id=CoRal-project/coral-v2 \
datasets.coral_readaloud_internal.id=CoRal-project/coral-v2
该模型使用语言模型(LM)进行后处理评估。所使用的 LM 是由 CoRal-project/roest-wav2vec2-315m-v1 训练和使用的那个。
该模型在 CoRal-v2 数据集上进行训练,包括对话和朗读子集。这个数据集包含了各种方言、年龄组和性别差异的丹麦语语音。请注意,该数据集以及此模型均根据自定义许可证进行许可,该许可证改编自 OpenRAIL-M,允许在很少限制的情况下进行商业使用(语音合成和生物识别除外) - 请参阅 许可证。
评估
该模型使用以下指标进行评估:
- 字符错误率 (CER): 错误转录的字符百分比。
- 单词错误率 (WER): 错误转录的单词百分比。
对话 CoRal 性能
该模型首先在 coral-v2 对话数据集的一个初步版本上进行了评估。
由于测试集仅包含 5 个独特的说话者,其中 4 名是女性,因此结果是初步的。测试集包括 2 名使用“菲英岛方言”的说话者、1 名使用“南日德兰方言”的说话者、1 名非母语者和 1 名使用“北日德兰方言”的说话者。
请注意,对于在朗读数据上训练的模型在对话数据上的高泛化误差仍在分析中。
模型 | 参数数量 | 微调数据类型 | CoRal-v2::conversation CER | CoRal-v2::conversation WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 23.9% | 36.7% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗读和对话 | 24.2% | 37.7% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗读 | 138% | 121% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 123% | 80.5% |
mhenrichsen/hviske-v2 | 1540M | 朗读 | 78.2% | 72.6% |
openai/whisper-large-v3 | 1540M | - | 46.4 % | 57.4% |
朗读 CoRal 性能
模型 | 参数数量 | 微调数据类型 | CoRal CER | CoRal WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗读和对话 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗读 | 4.3% ± 0.2% | 10.4% ± 0.3% |
CoRal-project/roest-wav2vec2-315M-v1 | 315M | 朗读 | 6.6% ± 0.2% | 17.0% ± 0.4% |
mhenrichsen/hviske-v2 | 1540M | 朗读 | 4.7% ± 0.2% | 11.8% ± 0.3% |
openai/whisper-large-v3 | 1540M | - | 11.4% ± 0.3% | 28.3% ± 0.6% |
注意! hviske-v2
的基准测试已经重新评估,置信区间比模型卡片中报告的要大。
CoRal 测试数据按人口统计分类的详细 CER 得分(百分比)
类别 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 5.1 | 7.4 | 7.2 | 7.3 |
男性 | 3.6 | 5.8 | 5.7 | 5.8 |
0 - 25 岁 | 3.4 | 5.4 | 5.3 | 5.1 |
25 - 50 岁 | 4.0 | 6.2 | 6.0 | 5.7 |
50 岁以上 | 5.0 | 7.5 | 7.4 | 7.8 |
博恩霍尔姆岛方言 | 3.8 | 6.8 | 6.1 | 6.2 |
菲英岛方言 | 5.1 | 7.4 | 7.2 | 6.9 |
哥本哈根方言 | 1.9 | 3.3 | 3.2 | 3.0 |
非母语者 | 4.8 | 7.8 | 7.5 | 7.3 |
北日德兰方言 | 1.6 | 2.6 | 2.8 | 2.6 |
西兰岛方言 | 3.0 | 4.4 | 4.5 | 3.9 |
南奥马尔方言 | 4.1 | 6.4 | 6.4 | 6.5 |
南日德兰方言 | 8.8 | 11.9 | 11.6 | 12.6 |
西日德兰方言 | 6.4 | 10.1 | 9.8 | 10.5 |
东日德兰方言 | 2.6 | 4.0 | 4.1 | 3.8 |
总体 | 4.3 | 6.6 | 6.5 | 6.5 |
CoRal 测试数据按人口统计分类的详细 WER 得分(百分比)
类别 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 11.5 | 18.5 | 17.7 | 17.8 |
男性 | 9.4 | 15.5 | 14.9 | 15.0 |
0 - 25 岁 | 9.0 | 14.7 | 14.0 | 13.7 |
25 - 50 岁 | 10.1 | 16.6 | 15.8 | 15.3 |
50 岁以上 | 11.3 | 18.2 | 17.7 | 18.5 |
博恩霍尔姆岛方言 | 9.8 | 17.7 | 15.7 | 16.4 |
菲英岛方言 | 12.1 | 18.3 | 17.7 | 16.7 |
哥本哈根方言 | 5.9 | 10.2 | 10.0 | 9.5 |
非母语者 | 12.2 | 20.9 | 19.4 | 19.4 |
北日德兰方言 | 4.5 | 7.7 | 7.5 | 7.3 |
西兰岛方言 | 7.6 | 12.6 | 12.7 | 11.0 |
南奥马尔方言 | 10.0 | 14.9 | 15.3 | 14.4 |
南日德兰方言 | 17.5 | 26.0 | 25.4 | 27.8 |
西日德兰方言 | 15.0 | 26.3 | 25.2 | 26.7 |
东日德兰方言 | 7.5 | 11.7 | 11.3 | 10.8 |
总体 | 10.4 | 17.0 | 16.3 | 16.4 |
使用和不使用语言模型的 Røst-wav2vec2 实验
引入后处理语言模型会显著影响性能。Røst-v1 和 Røst-v2 模型使用相同的语言模型(LM)。所使用的 LM 是由 CoRal-project/roest-wav2vec2-315m-v1 训练和使用的那个。
模型 | 参数数量 | 微调数据类型 | 是否使用语言模型后处理 | CoRal CER | CoRal WER |
---|---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 是 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 否 | 8.1% ± 0.2% | 23.9% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 (本模型) | 315M | 朗读和对话 | 是 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗读和对话 | 否 | 8.2% ± 0.2% | 25.1% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 是 | 6.6% ± 0.2% | 17.0% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 否 | 8.6% ± 0.2% | 26.3% ± 0.5% |
以下是 Røst-Wav2Vec2-315m 模型在测试集中不同丹麦方言上的结果:
Røst-v1 | Røst-v1 | Røst-v2 | Røst-v2 | |||||
---|---|---|---|---|---|---|---|---|
LM | 否 | 是 | 否 | 是 | ||||
------------- | --------- | --------- | --------- | --------- | --------- | --------- | --------- | --------- |
方言 | CER (%) | WER (%) | CER (%) | WER (%) | CER (%) | WER (%) | CER (%) | WER (%) |
西日德兰方言 | 12.7 | 37.1 | 10.1 | 26.3 | 12.2 | 36.3 | 9.82 | 25.2 |
南日德兰方言 | 14.7 | 37.8 | 11.9 | 26.0 | 14.2 | 36.2 | 11.6 | 25.4 |
博恩霍尔姆岛方言 | 9.32 | 29.9 | 6.79 | 17.7 | 8.08 | 26.7 | 6.12 | 15.7 |
东日德兰方言 | 5.51 | 18.7 | 3.97 | 11.7 | 5.39 | 18.0 | 4.06 | 11.3 |
北日德兰方言 | 3.86 | 13.6 | 2.57 | 7.72 | 3.80 | 13.5 | 2.75 | 7.51 |
哥本哈根方言 | 5.27 | 18.8 | 3.31 | 10.2 | 5.02 | 17.7 | 3.20 | 9.98 |
菲英岛方言 | 9.41 | 28.6 | 7.43 | 18.3 | 8.86 | 27.0 | 7.20 | 17.7 |
非母语者 | 10.6 | 33.2 | 7.84 | 20.9 | 10.0 | 31.6 | 7.46 | 19.4 |
西兰岛方言 | 5.82 | 19.5 | 4.44 | 12.6 | 5.70 | 18.6 | 4.48 | 12.7 |
南奥马尔方言 | 7.09 | 20.7 | 6.38 | 14.9 | 6.96 | 20.4 | 6.44 | 15.3 |
其他数据集上的性能
该模型还在其他数据集上进行了测试,以评估其泛化能力:
Røst-whisper-large-v1 | Røst-wav2vec2-315M-v1 | Røst-wav2vec2-315M-v2 | Røst-wav2vec2-1B-v2 | |||||
---|---|---|---|---|---|---|---|---|
评估数据集 | WER % | CER % | WER % | CER % | WER % | CER % | WER % | CER % |
CoRal | 10.4 | 4.3 | 17.0 | 6.6 | 16.3 | 6.5 | 16.4 | 6.5 |
NST-da | 29.8 | 14.5 | 29.7 | 13.9 | 26.1 | 11.9 | 12.4 | 4.9 |
CommonVoice17 | 15.6 | 8.2 | 16.7 | 6.6 | 14.4 | 5.4 | 26.3 | 10.9 |
Fleurs-da_dk | 12.6 | 5.1 | 16.6 | 6.3 | 15.6 | 6.1 | 13.7 | 5.5 |
注意! 训练使用的词汇表包括数字(0,1,2,..,9),这些数字在后期处理步骤中会转换为文本。如果模型遗漏了空格,数字会被解释为一个整体,这尤其会影响 NST 得分,因为该数据集包含许多数字。
比较 Whisper 和 Wav2Vec2 模型的注意事项
本模型卡片中详细介绍的 Whisper 模型与 Wav2Vec2 模型相比,表现出显著较低的字符错误率(CER)和单词错误率(WER)。
Whisper 使用基于变压器的架构,并具有额外的层来增强上下文理解。相比之下,Wav2Vec2 模型使用较短的上下文窗口,专注于声音预测。Røst-Wav2Vec2 模型在后期处理中结合了一个简单的语言模型,该模型根据统计语言模式来处理错误。
引入一个更复杂的上下文后处理语言模型可能会使这些模型类型之间的比较更加准确,CoRal 项目计划在未来的版本中进行探索。
Røst-Whisper 模型在朗读数据上表现出色,利用其嵌入式上下文框架在该上下文中实现更强大的识别能力。然而,Wav2Vec2 模型在各种语音识别任务中似乎具有更好的泛化能力,而 Whisper 模型在对话数据上的错误率较高。需要注意的是,CoRal-v2 对话数据集是初步的,说话者多样性有限,这可能会影响这些结果。
训练曲线
创建者和资助者
该模型由 Marie Juhl Jørgensen 和 Søren Vejlgaard Holm 在 Alvenir 进行训练,并撰写了模型卡片。
CoRal 项目由 丹麦创新基金 资助,参与伙伴包括:
我们特别感谢 Dan Saattrup Nielsen、亚历山德拉研究所 在仓库工作方面的贡献,以及 Simon Leminen Madsen、亚历山德拉研究所 在建模工作方面的贡献。
引用
@misc{roest-wav2vec2-315m-v2,
author = {Marie Juhl Jørgensen, Søren Vejlgaard Holm, Martin Carsten Nielsen, Dan Saattrup Nielsen, Sif Bernstorff Lehmann, Simon Leminen Madsen and Torben Blach},
title = {Røst-wav2vec-315m-v2: A Danish state-of-the-art speech recognition model trained on varied demographics and dialects},
year = {2025},
url = {https://huggingface.co/CoRal-project/roest-wav2vec2-315m-v2},
}
许可证
📄 许可证
该模型使用 OpenRAIL 许可证。有关详细信息,请参阅 许可证。



