mms - lid - 256開源語音語言識別模型，免費識別256種語言！

首頁

Mms Lid 256

由facebook開發

這是一個基於Wav2Vec2架構的語音語言識別模型，能夠識別256種語言，屬於Facebook大規模多語言語音(MMS)項目的一部分。

音頻分類

Transformers

支持多種語言#256種語言識別 #10億參數語音模型 #多語言語音分類

下載量 48.38k

發布時間 : 6/13/2023

模型概述

該模型用於語音語言識別任務，可將輸入的音頻分類為256種語言中的一種。基於10億參數的Wav2Vec2架構，在256種語言上進行了微調。

模型特點

多語言支持

支持256種語言的語音識別，覆蓋全球大多數主要語言和許多少數民族語言

大規模預訓練

基於10億參數的Wav2Vec2架構，具有強大的語音特徵提取能力

高準確率

在多種語言上表現出色，能夠準確識別語音的語言類別

模型能力

語音語言識別

多語言音頻分類

即時語言檢測

使用案例

語音技術

多語言語音助手

自動檢測用戶語音的語言，為多語言語音助手提供支持

可準確識別256種語言，提高語音助手的語言適應能力

語音內容分析

分析音頻內容中的語言分佈

可用於媒體監測、內容審核等場景

教育技術

語言學習應用

識別學習者發音的語言背景

幫助個性化語言學習體驗

🚀 大規模多語言語音 (MMS) - 微調後的語言識別模型

本模型是一個經過微調的語音語言識別 (LID) 模型，是 Facebook 大規模多語言語音項目的一部分。該模型基於 Wav2Vec2 架構，可將原始音頻輸入分類為 256 個輸出類別的概率分佈（每個類別代表一種語言）。此模型包含 10 億個參數，是在 256 種語言上對 facebook/mms-1b 進行微調得到的。

🚀 快速開始

安裝依賴

首先，我們需要安裝 transformers 和其他一些必要的庫：

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

注意：為了使用 MMS，你需要安裝至少 transformers >= 4.30 版本。如果 4.30 版本尚未在 PyPI 上發佈，請確保從源代碼安裝 transformers：

pip install git+https://github.com/huggingface/transformers.git

加載音頻樣本

接下來，我們通過 datasets 加載一些音頻樣本。請確保音頻數據的採樣率為 16000 kHz。

from datasets import load_dataset, Audio

# 英語樣本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 阿拉伯語樣本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

加載模型和處理器

from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-256"

processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

音頻分類

現在我們處理音頻數據，並將處理後的音頻數據傳遞給模型，以將其分類為某種語言，就像我們通常對 Wav2Vec2 音頻分類模型（如 ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition）所做的那樣。

# 英語音頻分類
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

# 阿拉伯語音頻分類
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

查看支持的語言

要查看模型支持的所有語言，可以按如下方式打印語言 ID：

processor.id2label.values()

有關該架構的更多詳細信息，請查看官方文檔。

✨ 主要特性

多語言支持：該模型支持 256 種語言，能夠準確識別多種語言的語音。
基於先進架構：基於 Wav2Vec2 架構，具有良好的性能和泛化能力。

📦 安裝指南

安裝所需的庫，具體安裝命令如下：

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

若 transformers 版本未達到要求，可從源代碼安裝：

pip install git+https://github.com/huggingface/transformers.git

💻 使用示例

基礎用法

from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

# 加載英語音頻樣本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 加載模型和處理器
model_id = "facebook/mms-lid-256"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

# 處理音頻數據
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

# 進行推理
with torch.no_grad():
    outputs = model(**inputs).logits

# 獲取預測的語言 ID
lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
print(detected_lang)

高級用法

# 可以通過循環處理多個音頻樣本
from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-256"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

languages = ["en", "ar"]  # 要處理的語言列表
for lang in languages:
    stream_data = load_dataset("mozilla-foundation/common_voice_13_0", lang, split="test", streaming=True)
    stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
    sample = next(iter(stream_data))["audio"]["array"]

    inputs = processor(sample, sampling_rate=16_000, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs).logits

    lang_id = torch.argmax(outputs, dim=-1)[0].item()
    detected_lang = model.config.id2label[lang_id]
    print(f"Detected language for {lang}: {detected_lang}")

📚 詳細文檔

支持的語言

本模型支持 256 種語言。點擊下面的按鈕展開查看此模型支持的所有語言的 ISO 639-3 代碼。你可以在 MMS 語言覆蓋概述中找到有關這些語言及其 ISO 649-3 代碼的更多詳細信息。

點擊展開

模型詳情

屬性	詳情
開發者	Vineel Pratap 等人
模型類型	多語言自動語音識別模型
支持語言	256 種語言，詳見支持的語言
許可證	CC-BY-NC 4.0 許可證
參數數量	10 億
音頻採樣率	16000 kHz
引用方式	@article{pratap2023mms, title={Scaling Speech Technology to 1,000+ Languages}, author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli}, journal={arXiv}, year={2023} }