模型简介
模型特点
模型能力
使用案例
🚀 Røst-wav2vec2-1B-v2
这是一个丹麦最先进的语音识别模型,由 Alvenir 作为 CoRal 项目的一部分进行训练。该模型旨在解决丹麦语语音识别的问题,利用先进的技术和丰富的数据集,为丹麦语语音识别提供了高精度的解决方案。
🚀 快速开始
首先,安装所需的库:
$ pip install transformers kenlm pyctcdecode
接下来,你可以使用 transformers
Python 包来使用该模型,如下所示:
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz 原始音频数组
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-1B-v2")
>>> transcriber(audio)
{'text': 'your transcription'}
✨ 主要特性
- 基于 Wav2Vec2 架构,利用自监督学习从原始音频数据中进行语音识别。
- 在 CoRal-v2 数据集 上进行训练,该数据集包含丰富多样的丹麦语对话和朗读数据,涵盖不同年龄、性别和方言。
- 适用于自动语音识别(ASR)任务。
📦 安装指南
安装所需的库:
$ pip install transformers kenlm pyctcdecode
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> audio = get_audio() # 16kHz 原始音频数组
>>> transcriber = pipeline(model="CoRal-project/roest-wav2vec2-1B-v2")
>>> transcriber(audio)
{'text': 'your transcription'}
📚 详细文档
模型详情
Wav2Vec2 是一种最先进的语音识别模型架构,利用自监督学习从原始音频数据中学习。预训练的 wav2vec2-xls-r-1b 模型在 CoRal-v2 数据集 上进行了微调,以提高其在识别丹麦语语音时对不同方言的适应性。该模型在 CoRaL 仓库 的训练设置下运行了 30K 步,命令如下:
python src/scripts/finetune_asr_model.py \
model=wav2vec2-medium \
max_steps=30000 \
datasets.coral_conversation_internal.id=CoRal-project/coral-v2 \
datasets.coral_readaloud_internal.id=CoRal-project/coral-v2
该模型在评估时使用了语言模型(LM)进行后处理,所使用的 LM 是由 CoRal-project/roest-wav2vec2-315m-v1 训练和使用的。
该模型在 CoRal-v2 数据集上进行训练,该数据集包括对话和朗读子集,包含了不同方言、年龄组和性别差异的丹麦语语音。需要注意的是,所使用的数据集采用了自定义许可证,该许可证改编自 OpenRAIL-M,允许商业使用,但有一些限制(语音合成和生物识别)。详情见 许可证。
评估
该模型使用以下指标进行评估:
- 字符错误率(CER):错误转录的字符百分比。
- 单词错误率(WER):错误转录的单词百分比。
对话 CoRal 性能
该模型首先在 coral-v2 对话数据集的一个试验版本上进行了评估。由于测试集仅包含 5 个独特的说话者,其中 4 名是女性,因此结果是初步的。测试集包括 2 名使用“Fynsk”方言的说话者、1 名使用“Sønderjysk”方言的说话者、1 名非母语者和 1 名使用“Nordjysk”方言的说话者。需要注意的是,在朗读数据上训练的模型在对话数据上的高泛化误差仍在分析中。
模型 | 参数数量 | 微调数据类型 | CoRal-v2::conversation CER | CoRal-v2::conversation WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2(本模型) | 1B | 朗读和对话 | 23.9% | 36.7% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗读和对话 | 24.2% | 37.7% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗读 | 138% | 121% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 123% | 80.5% |
mhenrichsen/hviske-v2 | 1540M | 朗读 | 78.2% | 72.6% |
openai/whisper-large-v3 | 1540M | - | 46.4 % | 57.4% |
朗读 CoRal 性能
模型 | 参数数量 | 微调数据类型 | CoRal CER | CoRal WER |
---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2(本模型) | 1B | 朗读和对话 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗读和对话 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-whisper-large-v1 | 1540M | 朗读 | 4.3% ± 0.2% | 10.4% ± 0.3% |
CoRal-project/roest-wav2vec2-315M-v1 | 315M | 朗读 | 6.6% ± 0.2% | 17.0% ± 0.4% |
mhenrichsen/hviske-v2 | 1540M | 朗读 | 4.7% ± 0.2% | 11.8% ± 0.3% |
openai/whisper-large-v3 | 1540M | - | 11.4% ± 0.3% | 28.3% ± 0.6% |
注意! hviske-v2
的基准测试已经重新评估,置信区间比模型卡片中报告的要大。
CoRal 测试数据按人口统计分类的详细 CER 得分(%)
类别 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 5.1 | 7.4 | 7.2 | 7.3 |
男性 | 3.6 | 5.8 | 5.7 | 5.8 |
0 - 25 岁 | 3.4 | 5.4 | 5.3 | 5.1 |
25 - 50 岁 | 4.0 | 6.2 | 6.0 | 5.7 |
50 岁以上 | 5.0 | 7.5 | 7.4 | 7.8 |
Bornholmsk 方言 | 3.8 | 6.8 | 6.1 | 6.2 |
Fynsk 方言 | 5.1 | 7.4 | 7.2 | 6.9 |
Københavnsk 方言 | 1.9 | 3.3 | 3.2 | 3.0 |
非母语者 | 4.8 | 7.8 | 7.5 | 7.3 |
Nordjysk 方言 | 1.6 | 2.6 | 2.8 | 2.6 |
Sjællandsk 方言 | 3.0 | 4.4 | 4.5 | 3.9 |
Sydømål 方言 | 4.1 | 6.4 | 6.4 | 6.5 |
Sønderjysk 方言 | 8.8 | 11.9 | 11.6 | 12.6 |
Vestjysk 方言 | 6.4 | 10.1 | 9.8 | 10.5 |
Østjysk 方言 | 2.6 | 4.0 | 4.1 | 3.8 |
总体 | 4.3 | 6.6 | 6.5 | 6.5 |
CoRal 测试数据按人口统计分类的详细 WER 得分(%)
类别 | Røst-whisper-large-v1 | Røst-wav2vec2-315m-v1 | Røst-wav2vec2-315m-v2 | Røst-wav2vec2-1B-v2 |
---|---|---|---|---|
女性 | 11.5 | 18.5 | 17.7 | 17.8 |
男性 | 9.4 | 15.5 | 14.9 | 15.0 |
0 - 25 岁 | 9.0 | 14.7 | 14.0 | 13.7 |
25 - 50 岁 | 10.1 | 16.6 | 15.8 | 15.3 |
50 岁以上 | 11.3 | 18.2 | 17.7 | 18.5 |
Bornholmsk 方言 | 9.8 | 17.7 | 15.7 | 16.4 |
Fynsk 方言 | 12.1 | 18.3 | 17.7 | 16.7 |
Københavnsk 方言 | 5.9 | 10.2 | 10.0 | 9.5 |
非母语者 | 12.2 | 20.9 | 19.4 | 19.4 |
Nordjysk 方言 | 4.5 | 7.7 | 7.5 | 7.3 |
Sjællandsk 方言 | 7.6 | 12.6 | 12.7 | 11.0 |
Sydømål 方言 | 10.0 | 14.9 | 15.3 | 14.4 |
Sønderjysk 方言 | 17.5 | 26.0 | 25.4 | 27.8 |
Vestjysk 方言 | 15.0 | 26.3 | 25.2 | 26.7 |
Østjysk 方言 | 7.5 | 11.7 | 11.3 | 10.8 |
总体 | 10.4 | 17.0 | 16.3 | 16.4 |
使用和不使用语言模型的 Røst-wav2vec2 实验
后处理语言模型的加入会显著影响模型性能。Røst-v1 和 Røst-v2 模型使用相同的语言模型(LM),所使用的 LM 是由 CoRal-project/roest-wav2vec2-315m-v1 训练和使用的。
模型 | 参数数量 | 微调数据类型 | 是否使用语言模型进行后处理 | CoRal CER | CoRal WER |
---|---|---|---|---|---|
CoRal-project/roest-wav2vec2-1B-v2(本模型) | 1B | 朗读和对话 | 是 | 6.5% ± 0.2% | 16.4% ± 0.4% |
CoRal-project/roest-wav2vec2-1B-v2 | 1B | 朗读和对话 | 否 | 8.1% ± 0.2% | 23.9% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗读和对话 | 是 | 6.5% ± 0.2% | 16.3% ± 0.4% |
CoRal-project/roest-wav2vec2-315M-v2 | 315M | 朗读和对话 | 否 | 8.2% ± 0.2% | 25.1% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 是 | 6.6% ± 0.2% | 17.0% ± 0.4% |
CoRal-project/roest-wav2vec2-315m-v1 | 315M | 朗读 | 否 | 8.6% ± 0.2% | 26.3% ± 0.5% |
其他数据集上的性能
该模型还在其他数据集上进行了测试,以评估其泛化能力:
Røst-whisper-large-v1 | Røst-wav2vec2-315M-v1 | Røst-wav2vec2-315M-v2 | Røst-wav2vec2-1B-v2 | |||||
---|---|---|---|---|---|---|---|---|
评估数据集 | WER % | CER % | WER % | CER % | WER % | CER % | WER % | CER % |
CoRal | 10.4 | 4.3 | 17.0 | 6.6 | 16.3 | 6.5 | 16.4 | 6.5 |
NST-da | 29.8 | 14.5 | 29.7 | 13.9 | 26.1 | 11.9 | 12.4 | 4.9 |
CommonVoice17 | 15.6 | 8.2 | 16.7 | 6.6 | 14.4 | 5.4 | 26.3 | 10.9 |
Fleurs-da_dk | 12.6 | 5.1 | 16.6 | 6.3 | 15.6 | 6.1 | 13.7 | 5.5 |
注意! 训练使用的词汇表包含数字(0, 1, 2, ..., 9),这些数字在后期处理步骤中会转换为文本。如果模型遗漏了空格,数字会被解释为一个整体,这尤其会影响 NST 得分,因为该数据集包含许多数字。
关于比较 Whisper 和 Wav2Vec2 模型的说明
本模型卡片中详细介绍的 Whisper 模型的字符错误率(CER)和单词错误率(WER)明显低于 Wav2Vec2 模型。Whisper 采用基于 Transformer 的架构,具有额外的层来增强上下文理解。相比之下,Wav2Vec2 模型使用较短的上下文窗口,专注于声音预测。Røst-Wav2Vec2 模型在后期处理中加入了简单的语言模型,根据统计语言模式处理错误。引入更复杂的上下文后处理语言模型可能会使这些模型类型之间的比较更加准确,CoRal 项目计划在未来的版本中进行探索。
Røst-Whisper 模型在朗读数据上表现出色,利用其内置的上下文框架在该场景下实现了更强大的识别能力。然而,Wav2Vec2 模型似乎在各种语音识别任务中具有更好的泛化能力,而 Whisper 模型在对话数据上的错误率较高。需要注意的是,CoRal-v2 对话数据集是初步的,说话者多样性有限,这可能会影响这些结果。
训练曲线
创作者和资助者
该模型由 Alvenir 的 Marie Juhl Jørgensen 进行训练并撰写模型卡片。
CoRal 项目由 丹麦创新基金 资助,合作伙伴包括:
我们特别感谢 Alexandra 研究所的 Dan Saattrup Nielsen 在仓库方面的工作,以及 Simon Leminen Madsen 在建模方面的工作。
引用
@misc{roest-wav2vec2-1B-v2,
author = {Marie Juhl Jørgensen, Søren Vejlgaard Holm, Martin Carsten Nielsen, Dan Saattrup Nielsen, Sif Bernstorff Lehmann, Simon Leminen Madsen and Torben Blach},
title = {Røst-wav2vec-1B-v2: A Danish state-of-the-art speech recognition model trained on varied demographics and dialects},
year = {2025},
url = {https://huggingface.co/CoRal-project/roest-wav2vec2-1B-v2},
}
📄 许可证
该模型采用 OpenRAIL 许可证。所使用的数据集采用自定义许可证,改编自 OpenRAIL-M,允许商业使用,但有一些限制(语音合成和生物识别)。详情见 许可证。



