mms - lid - 512开源语音识别模型，精准识别512种语言的音频语言类别！

首页

Mms Lid 512

由 facebook 开发

这是一个针对512种语言的语音语言识别(LID)进行微调的模型，基于Wav2Vec2架构，能够识别输入音频的语言类别。

语音识别

Transformers

支持多种语言#512种语言识别 #10亿参数语音模型 #多语种语音分类

下载量 32

发布时间 : 6/13/2023

模型简介

该模型是Facebook大规模多语言语音项目的一部分，将原始音频输入分类为512种语言类别的概率分布。模型包含10亿参数，适用于多语言语音识别任务。

模型特点

多语言支持

支持512种语言的语音识别，覆盖全球大多数主要语言和方言。

大规模预训练

基于10亿参数的Wav2Vec2架构，从facebook/mms-1b模型微调而来。

高准确率

在多种语言上表现出色，能够准确识别音频的语种。

模型能力

语音语言识别

多语言音频分类

实时语音处理

使用案例

语音技术

多语言语音助手

用于识别用户语音输入的语言，以便切换至相应语言的语音处理模块。

提高多语言环境下的语音助手准确性和用户体验

语音内容分类

自动识别音频内容的语言类别，用于内容管理和分类。

实现多语言音频内容的自动分类

教育技术

语言学习应用

帮助语言学习者识别和练习不同语言的发音。

提供更准确的语言识别反馈

🚀 大规模多语言语音 (MMS) - 微调后的语言识别模型

本模型是一个针对语音语言识别 (LID) 进行微调的模型，是 Facebook 大规模多语言语音项目的一部分。该模型基于 Wav2Vec2 架构，可将原始音频输入分类为 512 个输出类别的概率分布（每个类别代表一种语言）。此模型包含 10 亿个参数，是在 512 种语言上对 facebook/mms-1b 进行微调得到的。

🚀 快速开始

安装依赖库

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

⚠️ 重要提示

要使用 MMS，你需要安装至少 transformers >= 4.30 版本。如果 4.30 版本尚未在 PyPI 上发布，请确保从源代码安装 transformers：

pip install git+https://github.com/huggingface/transformers.git

加载音频样本

from datasets import load_dataset, Audio

# 英语
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 阿拉伯语
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

加载模型和处理器

from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-512"

processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

处理音频数据并进行语言分类

# 英语
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

# 阿拉伯语
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

查看支持的所有语言

processor.id2label.values()

更多关于架构的详细信息，请参考官方文档。

✨ 主要特性

支持 512 种语言的语音识别。
基于 Wav2Vec2 架构，具有较高的识别准确率。

💻 使用示例

基础用法

from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

# 加载音频样本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 加载模型和处理器
model_id = "facebook/mms-lid-512"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

# 处理音频数据并进行语言分类
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs).logits
lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
print(detected_lang)

高级用法

# 可以通过循环处理多个音频样本
from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

languages = ["en", "ar"]
model_id = "facebook/mms-lid-512"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

for lang in languages:
    stream_data = load_dataset("mozilla-foundation/common_voice_13_0", lang, split="test", streaming=True)
    stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
    sample = next(iter(stream_data))["audio"]["array"]
    inputs = processor(sample, sampling_rate=16_000, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs).logits
    lang_id = torch.argmax(outputs, dim=-1)[0].item()
    detected_lang = model.config.id2label[lang_id]
    print(f"Detected language for {lang}: {detected_lang}")

📚 详细文档

支持的语言

本模型支持 512 种语言。点击下面的展开按钮查看此模型支持的所有语言的 ISO 639-3 代码。你可以在 MMS 语言覆盖概述中找到有关这些语言及其 ISO 649-3 代码的更多详细信息。

点击展开

模型详情

属性	详情
开发者	Vineel Pratap 等人
模型类型	多语言自动语音识别模型
语言	512 种语言，见支持的语言
许可证	CC-BY-NC 4.0 许可证
参数数量	10 亿
音频采样率	16,000 kHz
引用方式

@article{pratap2023mms,
  title={Scaling Speech Technology to 1,000+ Languages},
  author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
  journal={arXiv},
  year={2023}
}