mms - lid - 512オープンソース音声認識モデル、512種類の言語の音声言語カテゴリを正確に認識！

ホーム

Mms Lid 512

facebookによって開発

これは512言語の音声言語識別(LID)向けにファインチューニングされたモデルで、Wav2Vec2アーキテクチャに基づき、入力音声の言語カテゴリを識別できます。

音声認識

Transformers

複数言語対応#512言語の音声認識 #10億パラメータの音声モデル #多言語音声分類

ダウンロード数 32

リリース時間 : 6/13/2023

モデル概要

このモデルはFacebookの大規模多言語音声プロジェクトの一部で、生の音声入力を512言語カテゴリの確率分布に分類します。10億パラメータを含み、多言語音声認識タスクに適しています。

モデル特徴

多言語サポート

512言語の音声認識をサポートし、世界の主要な言語と方言のほとんどをカバーします。

大規模事前学習

10億パラメータのWav2Vec2アーキテクチャに基づき、facebook/mms-1bモデルからファインチューニングされています。

高精度

複数の言語で優れた性能を発揮し、音声の言語を正確に識別できます。

モデル能力

音声言語識別

多言語音声分類

リアルタイム音声処理

使用事例

音声技術

多言語音声アシスタント

ユーザーの音声入力の言語を識別し、対応する言語の音声処理モジュールに切り替えるために使用します。

多言語環境での音声アシスタントの精度とユーザー体験を向上

音声コンテンツ分類

音声コンテンツの言語カテゴリを自動識別し、コンテンツ管理と分類に使用します。

多言語音声コンテンツの自動分類を実現

教育技術

言語学習アプリ

言語学習者が異なる言語の発音を識別し練習するのを支援します。

より正確な言語識別フィードバックを提供

🚀 大規模多言語音声 (MMS) - 微調整済み言語識別 (LID)

このチェックポイントは、音声の言語識別 (LID) のために微調整されたモデルです。Facebookの大規模多言語音声プロジェクトの一部です。このチェックポイントはWav2Vec2アーキテクチャに基づいており、生の音声入力を512の出力クラス（各クラスは言語を表す）の確率分布に分類します。チェックポイントには10億個のパラメータが含まれており、facebook/mms - 1bから512言語で微調整されています。

🚀 クイックスタート

インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

⚠️ 重要提示

MMSを使用するには、少なくともtransformers >= 4.30がインストールされている必要があります。4.30バージョンがまだPyPIにない場合は、ソースからtransformersをインストールしてください。

pip install git+https://github.com/huggingface/transformers.git

使用例

基本的な使用法

from datasets import load_dataset, Audio

# 英語
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# アラビア語
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-512"

processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

# 英語
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

# アラビア語
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

チェックポイントがサポートするすべての言語を表示するには、以下のように言語IDを出力できます。

processor.id2label.values()

アーキテクチャの詳細については、公式ドキュメントを参照してください。

✨ 主な機能

このモデルは512言語をサポートしています。以下をクリックすると、このチェックポイントがサポートするすべての言語をISO 639 - 3コードで表示できます。言語とそのISO 649 - 3コードの詳細は、MMS言語カバレッジ概要で確認できます。

クリックして表示/非表示を切り替える

📚 ドキュメント

モデル詳細

属性	详情
開発者	Vineel Pratapら
モデルタイプ	多言語自動音声認識モデル
言語	512言語、サポート言語を参照
ライセンス	CC - BY - NC 4.0ライセンス
パラメータ数	10億
音声サンプリングレート	16,000 kHz
引用形式	@article{pratap2023mms, title={Scaling Speech Technology to 1,000+ Languages}, author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel - Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei - Ning Hsu and Alexis Conneau and Michael Auli}, journal={arXiv}, year={2023} }