wav2vec2-FR-3K-base开源语音模型 - 基于法语语音训练支持多场景语音

首页

Wav2vec2 FR 3K Base

由 LeBenchmark 开发

基于2.9K小时法语语音训练的wav2vec2基础模型，支持自发、朗读和广播语音

语音识别

Transformers

法语开源协议:Apache-2.0 #法语语音识别 #自监督学习 #多场景语音处理

下载量 31

发布时间 : 3/2/2022

模型简介

LeBenchmark提供的wav2vec2基础模型，在包含自发、朗读和广播语音的不同法语数据集上预训练，适用于语音相关任务

模型特点

多场景语音训练

模型在包含自发、朗读和广播语音的不同法语数据集上预训练，适应多种语音场景

多种规模选择

提供从1K到14K小时不同规模的预训练模型，满足不同计算资源需求

开源许可

模型根据Apache-2.0许可证分发，可以广泛重用

模型能力

语音特征提取

语音表示学习

自动语音识别

说话人识别

使用案例

语音处理

自动语音识别(ASR)

使用CTC对模型进行ASR微调

由于CTC的性质，语音到文本的结果预计不会是最先进的

说话人识别

结合SpeechBrain工具包进行说话人识别或验证

🚀 LeBenchmark：基于3000小时法语语音训练的wav2vec2基础模型

LeBenchmark提供了一系列在不同法语数据集上预训练的wav2vec2模型，这些数据集包含自发、朗读和广播语音。它有两个版本，其中，后期版本（LeBenchmark 2.0）在预训练的自监督学习（SSL）模型数量和下游任务数量方面都是第一个版本的扩展。如需了解更多可用于评估wav2vec2模型的不同基准测试信息，请参考我们的论文：LeBenchmark 2.0：一个标准化、可复制且增强的法语语音自监督表示框架

🚀 快速开始

本项目提供了一系列预训练的wav2vec2模型，可用于法语语音相关的下游任务。你可以根据自己的需求选择合适的模型进行使用。

✨ 主要特性

提供多种不同架构和训练数据规模的wav2vec2模型。
模型基于不同的法语数据集进行训练，涵盖自发、朗读和广播语音。
有两个版本，后期版本在模型数量和下游任务方面有所扩展。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

模型和数据描述

我们发布了四个不同的模型，可在我们的HuggingFace组织下找到。四种不同的wav2vec2架构 Light、Base、Large 和 xLarge 与我们的小型（1000小时）、中型（3000小时）、大型（7000小时）和超大型（14000小时）语料库相结合。简而言之：

Lebenchmark 2.0

wav2vec2-FR-14K-xlarge：在14000小时法语语音（5400名男性 / 2400名女性 / 6800名未知）上训练的xLarge wav2vec2模型。
wav2vec2-FR-14K-large：在14000小时法语语音（5400名男性 / 2400名女性 / 6800名未知）上训练的Large wav2vec2模型。
wav2vec2-FR-14K-light：在14000小时法语语音（5400名男性 / 2400名女性 / 6800名未知）上训练的Light wav2vec2模型。

Lebenchmark

wav2vec2-FR-7K-large：在7600小时法语语音（1800名男性 / 1000名女性 / 4800名未知）上训练的Large wav2vec2模型。
wav2vec2-FR-7K-base：在7600小时法语语音（1800名男性 / 1000名女性 / 4800名未知）上训练的Base wav2vec2模型。
wav2vec2-FR-3K-large：在2900小时法语语音（1800名男性 / 1000名女性 / 100名未知）上训练的Large wav2vec2模型。
wav2vec2-FR-3K-base：在2900小时法语语音（1800名男性 / 1000名女性 / 100名未知）上训练的Base wav2vec2模型。
wav2vec2-FR-2.6K-base：在2600小时法语语音（无自发语音）上训练的Base wav2vec2模型。
wav2vec2-FR-1K-large：在1000小时法语语音（500名男性 / 500名女性）上训练的Large wav2vec2模型。
wav2vec2-FR-1K-base：在1000小时法语语音（500名男性 / 500名女性）上训练的Base wav2vec2模型。

预期用途和限制

预训练的wav2vec2模型根据Apache - 2.0许可证分发。因此，它们可以广泛重用，没有严格的限制。但是，基准测试和数据可能与未完全开源的语料库相关联。

使用Fairseq进行基于CTC的自动语音识别（ASR）微调

由于我们的wav2vec2模型是使用Fairseq进行训练的，因此可以使用他们提供的不同工具对模型进行基于CTC的ASR微调。完整的过程已在这篇博客文章中进行了很好的总结。

请注意，由于CTC的性质，语音转文本的结果预计不会达到最先进水平。此外，未来的功能可能会根据Fairseq和HuggingFace在这方面的参与情况而出现。

集成到SpeechBrain进行ASR、说话人识别、源分离等

预训练的wav2vec模型最近越来越受欢迎。与此同时，SpeechBrain工具包问世，它提出了一种新的、更简单的处理最先进语音和深度学习技术的方法。

虽然目前它还处于测试阶段，但SpeechBrain提供了两种很好的集成使用Fairseq训练的wav2vec2模型（即我们的LeBenchmark模型）的方法！

实时提取wav2vec2特征（使用冻结的wav2vec2编码器），以便与任何语音相关架构相结合。示例包括：基于CTC + 注意力 + 语言模型的端到端ASR；说话人识别或验证、源分离等。
实验性：为了充分利用wav2vec2，最佳解决方案仍然是在训练下游任务时对模型进行微调。在SpeechBrain中，这非常简单，只需打开一个标志即可。因此，我们的wav2vec2模型可以在训练你喜欢的ASR管道或说话人识别器时进行微调。

如果感兴趣，只需遵循这个教程

引用LeBenchmark

@misc{parcollet2023lebenchmark,
      title={LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech}, 
      author={Titouan Parcollet and Ha Nguyen and Solene Evain and Marcely Zanon Boito and Adrien Pupier and Salima Mdhaffar and Hang Le and Sina Alisamir and Natalia Tomashenko and Marco Dinarelli and Shucong Zhang and Alexandre Allauzen and Maximin Coavoux and Yannick Esteve and Mickael Rouvier and Jerome Goulian and Benjamin Lecouteux and Francois Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
      year={2023},
      eprint={2309.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}