mms - lid - 1024オープンソース音声モデル - 1024言語の音声入力の認識をサポート

ホーム

Mms Lid 1024

facebookによって開発

このモデルはFacebookの大規模多言語音声プロジェクトの一部で、Wav2Vec2アーキテクチャに基づいており、1024言語の音声入力を識別できます。

音声分類

Transformers

複数言語対応#1024言語識別 #10億パラメータ音声モデル #低リソース言語サポート

ダウンロード数 1,869

リリース時間 : 6/13/2023

モデル概要

これは音声言語識別（LID）タスク用にファインチューニングされたモデルで、生のオーディオ入力を1024言語の確率分布に分類します。

モデル特徴

超多言語サポート

1024の異なる言語を識別可能で、世界の大多数の言語をカバー

大規模モデル

10億パラメータのWav2Vec2アーキテクチャに基づき、高精度な言語識別を提供

簡単操作

Hugging Face Transformersライブラリとシームレスに統合可能で、数行のコードで言語識別を実現

モデル能力

音声言語識別

多言語オーディオ分類

リアルタイム言語検出

使用事例

音声技術

多言語音声アシスタント

ユーザーの音声言語を自動検出し、対応する音声認識モデルに切り替え

多言語環境での音声アシスタントの精度向上

コンテンツモデレーション

オーディオコンテンツの言語を自動識別し、コンテンツ分類とモデレーションを支援

多言語コンテンツのモデレーション効率向上

教育技術

言語学習アプリ

学習者の発音言語を検出し、対象的な言語学習アドバイスを提供

言語学習効果の向上

🚀 Massively Multilingual Speech (MMS) - Finetuned LID

このチェックポイントは、音声言語識別（LID）用にファインチューニングされたモデルで、FacebookのMassive Multilingual Speechプロジェクトの一部です。このモデルは、Wav2Vec2アーキテクチャに基づいており、生の音声入力を1024の出力クラス（各クラスは言語を表す）の確率分布に分類します。

🚀 クイックスタート

このMMSチェックポイントは、Transformersを使用して音声の話されている言語を識別するために利用できます。このモデルは、以下の1024の言語を認識することができます。

まずは、簡単な例を見てみましょう。

最初に、transformersと他のいくつかのライブラリをインストールします。

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

⚠️ 重要提示

MMSを使用するには、少なくともtransformers >= 4.30がインストールされている必要があります。もし4.30バージョンがまだPyPIに公開されていない場合は、ソースからtransformersをインストールすることを確認してください。

pip install git+https://github.com/huggingface/transformers.git

次に、datasetsを介していくつかの音声サンプルをロードします。音声データが16000kHzにサンプリングされていることを確認してください。

from datasets import load_dataset, Audio

# English
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# Arabic
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

次に、モデルとプロセッサをロードします。

from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-1024"

processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

これで、音声データを処理し、処理された音声データをモデルに渡して言語に分類することができます。これは、ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognitionのような通常のWav2Vec2音声分類モデルと同じように行います。

# English
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

# Arabic
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

チェックポイントがサポートするすべての言語を表示するには、次のように言語IDを出力します。

processor.id2label.values()

アーキテクチャの詳細については、公式ドキュメントを参照してください。

✨ 主な機能

このモデルは1024の言語をサポートしています。以下をクリックすると、このチェックポイントがサポートするすべての言語をISO 639-3コードで表示できます。言語とそのISO 649-3コードの詳細は、MMS言語カバレッジ概要で確認できます。

クリックして表示

📚 ドキュメント

項目	詳細
開発者	Vineel Pratap et al.
モデルタイプ	多言語自動音声認識モデル
言語	1024の言語、サポート言語を参照
ライセンス	CC-BY-NC 4.0ライセンス
パラメータ数	10億
音声サンプリングレート	16,000kHz
引用方法	`bibtex<br>@article{pratap2023mms,<br> title={Scaling Speech Technology to 1,000+ Languages},<br> author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},<br> journal={arXiv},<br> year={2023}<br>}<br>`