mms - lid - 512開源語音識別模型，精準識別512種語言的音頻語言類別！

首頁

Mms Lid 512

由facebook開發

這是一個針對512種語言的語音語言識別(LID)進行微調的模型，基於Wav2Vec2架構，能夠識別輸入音頻的語言類別。

語音識別

Transformers

支持多種語言#512種語言識別 #10億參數語音模型 #多語種語音分類

下載量 32

發布時間 : 6/13/2023

模型概述

該模型是Facebook大規模多語言語音項目的一部分，將原始音頻輸入分類為512種語言類別的概率分佈。模型包含10億參數，適用於多語言語音識別任務。

模型特點

多語言支持

支持512種語言的語音識別，覆蓋全球大多數主要語言和方言。

大規模預訓練

基於10億參數的Wav2Vec2架構，從facebook/mms-1b模型微調而來。

高準確率

在多種語言上表現出色，能夠準確識別音頻的語種。

模型能力

語音語言識別

多語言音頻分類

即時語音處理

使用案例

語音技術

多語言語音助手

用於識別用戶語音輸入的語言，以便切換至相應語言的語音處理模塊。

提高多語言環境下的語音助手準確性和用戶體驗

語音內容分類

自動識別音頻內容的語言類別，用於內容管理和分類。

實現多語言音頻內容的自動分類

教育技術

語言學習應用

幫助語言學習者識別和練習不同語言的發音。

提供更準確的語言識別反饋

🚀 大規模多語言語音 (MMS) - 微調後的語言識別模型

本模型是一個針對語音語言識別 (LID) 進行微調的模型，是 Facebook 大規模多語言語音項目的一部分。該模型基於 Wav2Vec2 架構，可將原始音頻輸入分類為 512 個輸出類別的概率分佈（每個類別代表一種語言）。此模型包含 10 億個參數，是在 512 種語言上對 facebook/mms-1b 進行微調得到的。

🚀 快速開始

安裝依賴庫

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

⚠️ 重要提示

要使用 MMS，你需要安裝至少 transformers >= 4.30 版本。如果 4.30 版本尚未在 PyPI 上發佈，請確保從源代碼安裝 transformers：

pip install git+https://github.com/huggingface/transformers.git

加載音頻樣本

from datasets import load_dataset, Audio

# 英語
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 阿拉伯語
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

加載模型和處理器

from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-512"

processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

處理音頻數據並進行語言分類

# 英語
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

# 阿拉伯語
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

查看支持的所有語言

processor.id2label.values()

更多關於架構的詳細信息，請參考官方文檔。

✨ 主要特性

支持 512 種語言的語音識別。
基於 Wav2Vec2 架構，具有較高的識別準確率。

💻 使用示例

基礎用法

from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

# 加載音頻樣本
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# 加載模型和處理器
model_id = "facebook/mms-lid-512"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

# 處理音頻數據並進行語言分類
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs).logits
lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
print(detected_lang)

高級用法

# 可以通過循環處理多個音頻樣本
from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

languages = ["en", "ar"]
model_id = "facebook/mms-lid-512"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

for lang in languages:
    stream_data = load_dataset("mozilla-foundation/common_voice_13_0", lang, split="test", streaming=True)
    stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
    sample = next(iter(stream_data))["audio"]["array"]
    inputs = processor(sample, sampling_rate=16_000, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs).logits
    lang_id = torch.argmax(outputs, dim=-1)[0].item()
    detected_lang = model.config.id2label[lang_id]
    print(f"Detected language for {lang}: {detected_lang}")

📚 詳細文檔

支持的語言

本模型支持 512 種語言。點擊下面的展開按鈕查看此模型支持的所有語言的 ISO 639-3 代碼。你可以在 MMS 語言覆蓋概述中找到有關這些語言及其 ISO 649-3 代碼的更多詳細信息。

點擊展開

模型詳情

屬性	詳情
開發者	Vineel Pratap 等人
模型類型	多語言自動語音識別模型
語言	512 種語言，見支持的語言
許可證	CC-BY-NC 4.0 許可證
參數數量	10 億
音頻採樣率	16,000 kHz
引用方式

@article{pratap2023mms,
  title={Scaling Speech Technology to 1,000+ Languages},
  author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
  journal={arXiv},
  year={2023}
}