mms-1b-fl102开源语音识别模型 - 支持102种语言的免费多语言转录工具

首页

Mms 1b Fl102

由 facebook 开发

MMS-1B-FL102是Facebook大规模多语言语音项目的一部分，是一个支持102种语言的自动语音识别模型，基于10亿参数的Wav2Vec2架构，通过适配器技术实现多语言转录。

语音识别

Transformers

支持多种语言#多语言语音识别 #支持102种语言 #10亿参数模型

下载量 6,360

发布时间 : 5/27/2023

模型简介

该模型是专为多语言自动语音识别（ASR）微调的检查点，能够转录100多种语言的音频。它基于Wav2Vec2架构，利用适配器技术实现多语言支持，是从facebook/mms-1b在Fleurs数据集的102种语言上微调而来。

模型特点

多语言支持

支持102种语言的语音识别，包括多种小众语言

适配器技术

使用适配器模型实现语言切换，无需重新加载整个模型

大规模预训练

基于10亿参数的Wav2Vec2架构，具有强大的语音识别能力

模型能力

多语言语音识别

实时语音转录

语言适配器切换

使用案例

语音转录

多语言会议转录

实时转录包含多种语言的会议内容

语音内容本地化

将语音内容转录后翻译为其他语言

语音助手

多语言语音助手

开发支持多种语言的语音助手应用

🚀 大规模多语言语音（MMS） - 微调后的自动语音识别 - FL102

本检查点是一个针对多语言自动语音识别（ASR）进行微调的模型，是Facebook 大规模多语言语音项目的一部分。该检查点基于 Wav2Vec2架构，并利用适配器模型来转录100多种语言。此检查点包含 10亿个参数，是在 Fleurs 的102种语言上，从 facebook/mms-1b 微调而来。

🚀 快速开始

安装依赖库

本MMS检查点可与 Transformers 配合使用，以转录1107种不同语言的音频。首先，我们需要安装 transformers 和其他一些库：

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

⚠️ 重要提示

要使用MMS，你需要至少安装 transformers >= 4.30 版本。如果 PyPI 上还没有 4.30 版本，请确保从源代码安装 transformers：

pip install git+https://github.com/huggingface/transformers.git

加载音频样本

接下来，我们通过 datasets 加载一些音频样本。请确保音频数据的采样率为16000 kHz。

from datasets import load_dataset, Audio

# 英语
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 法语
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "fr", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
fr_sample = next(iter(stream_data))["audio"]["array"]

加载模型和处理器

from transformers import Wav2Vec2ForCTC, AutoProcessor
import torch

model_id = "facebook/mms-1b-fl102"

processor = AutoProcessor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

处理音频数据并转录

现在，我们处理音频数据，将处理后的音频数据传入模型，并转录模型输出，就像我们通常对 facebook/wav2vec2-base-960h 等Wav2Vec2模型所做的那样。

inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

ids = torch.argmax(outputs, dim=-1)[0]
transcription = processor.decode(ids)
# 'joe keton disapproved of films and buster also had reservations about the media'

切换语言适配器

我们可以将同一模型保留在内存中，并通过为模型调用便捷的 load_adapter() 函数，为分词器调用 set_target_lang() 函数，简单地切换语言适配器。我们将目标语言作为输入传入 - 法语为 "fra"。

processor.tokenizer.set_target_lang("fra")
model.load_adapter("fra")

inputs = processor(fr_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

ids = torch.argmax(outputs, dim=-1)[0]
transcription = processor.decode(ids)
# "ce dernier est volé tout au long de l'histoire romaine"

同样，我们可以为所有其他支持的语言切换语言。你可以查看：

processor.tokenizer.vocab.keys()

更多详细信息，请查看官方文档。

✨ 主要特性

多语言支持：该模型支持102种语言，可广泛应用于不同语言的语音识别场景。
基于Wav2Vec2架构：利用先进的Wav2Vec2架构，结合适配器模型，实现高效的多语言转录。

📦 安装指南

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

若 transformers 版本未达到 4.30，可从源代码安装：

pip install git+https://github.com/huggingface/transformers.git

💻 使用示例

基础用法

from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForCTC, AutoProcessor
import torch

# 加载英语音频样本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 加载模型和处理器
model_id = "facebook/mms-1b-fl102"
processor = AutoProcessor.from_pretrained(model_id)
model = Wav2Vec2ForCTC.from_pretrained(model_id)

# 处理音频数据并转录
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs).logits
ids = torch.argmax(outputs, dim=-1)[0]
transcription = processor.decode(ids)
print(transcription)

高级用法

# 加载法语音频样本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "fr", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
fr_sample = next(iter(stream_data))["audio"]["array"]

# 切换语言适配器
processor.tokenizer.set_target_lang("fra")
model.load_adapter("fra")

# 处理法语音频数据并转录
inputs = processor(fr_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs).logits
ids = torch.argmax(outputs, dim=-1)[0]
transcription = processor.decode(ids)
print(transcription)

📚 详细文档

你可以在以下链接找到更多详细信息：

博客文章
Transformers文档
论文
GitHub仓库
其他 MMS 检查点
MMS基础检查点：
- facebook/mms-1b
- facebook/mms-300m
官方空间

🔧 技术细节

模型信息

属性	详情
模型类型	多语言自动语音识别模型
开发者	Vineel Pratap等人
支持语言	100多种语言，见支持的语言
许可证	CC - BY - NC 4.0许可证
参数数量	10亿
音频采样率	16000 kHz
引用方式	@article{pratap2023mms, title={Scaling Speech Technology to 1,000+ Languages}, author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel - Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei - Ning Hsu and Alexis Conneau and Michael Auli}, journal={arXiv}, year={2023} }