mms - lid - 256オープンソース音声言語識別モデル、無料で256種類の言語を識別！

Home

Mms Lid 256

Developed by facebook

これはWav2Vec2アーキテクチャに基づく音声言語識別モデルで、256言語を識別可能であり、Facebookの大規模多言語音声(MMS)プロジェクトの一部です。

音声分類

Transformers

Supports Multiple Languages#256言語識別 #10億パラメータ音声モデル #多言語音声分類

Downloads 48.38k

Release Time : 6/13/2023

Model Overview

このモデルは音声言語識別タスクに使用され、入力された音声を256言語のいずれかに分類します。10億パラメータのWav2Vec2アーキテクチャに基づき、256言語でファインチューニングされています。

Model Features

多言語サポート

256言語の音声認識をサポートし、世界の主要言語の多くと多くの少数民族言語をカバーします

大規模事前学習

10億パラメータのWav2Vec2アーキテクチャに基づき、強力な音声特徴抽出能力を備えています

高精度

複数の言語で優れた性能を発揮し、音声の言語カテゴリを正確に識別できます

Model Capabilities

音声言語識別

多言語音声分類

リアルタイム言語検出

Use Cases

音声技術

多言語音声アシスタント

ユーザーの音声言語を自動検出し、多言語音声アシスタントをサポートします

256言語を正確に識別可能で、音声アシスタントの言語適応能力を向上させます

音声コンテンツ分析

音声コンテンツ中の言語分布を分析します

メディア監視、コンテンツモデレーションなどのシナリオに活用可能

教育技術

言語学習アプリ

学習者の発音の言語背景を識別します

個別化された言語学習体験を支援します

🚀 大規模多言語音声 (MMS) - 微調整済み言語識別 (LID)

このチェックポイントは、音声の言語識別 (LID) 用に微調整されたモデルであり、Facebookの大規模多言語音声プロジェクトの一部です。このチェックポイントはWav2Vec2アーキテクチャに基づいており、生の音声入力を256の出力クラス（各クラスは言語を表す）の確率分布に分類します。このチェックポイントは10億個のパラメータから構成され、256の言語でfacebook/mms - 1bから微調整されています。

🚀 クイックスタート

このMMSチェックポイントは、Transformersを使って音声の話されている言語を識別するために使用できます。これは以下の256の言語を認識することができます。

簡単な例を見てみましょう。

まず、transformersと他のいくつかのライブラリをインストールします。

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

注意: MMSを使用するには、少なくともtransformers >= 4.30がインストールされている必要があります。もし4.30バージョンがまだPyPIにない場合は、ソースからtransformersをインストールすることを確認してください。

pip install git+https://github.com/huggingface/transformers.git

次に、datasetsを使っていくつかの音声サンプルをロードします。音声データが16000kHzでサンプリングされていることを確認してください。

from datasets import load_dataset, Audio

# 英語
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

# アラビア語
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

次に、モデルとプロセッサをロードします。

from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

model_id = "facebook/mms-lid-256"

processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

これで音声データを処理し、処理された音声データをモデルに渡して言語に分類します。これは、[ehcalabres/wav2vec2 - lg - xlsr - en - speech - emotion - recognition](https://huggingface.co/harshit345/xlsr - wav2vec - speech - emotion - recognition)のような通常のWav2Vec2音声分類モデルと同じように行います。

# 英語
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

# アラビア語
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

チェックポイントがサポートするすべての言語を見るには、以下のように言語IDを出力することができます。

processor.id2label.values()

アーキテクチャの詳細については、公式ドキュメントを参照してください。

✨ 主な機能

音声の言語識別 (LID) 用に微調整されたモデルです。
256の言語を認識することができます。
Wav2Vec2アーキテクチャに基づいています。

📦 インストール

pip install torch accelerate torchaudio datasets
pip install --upgrade transformers

pip install git+https://github.com/huggingface/transformers.git

💻 使用例

基本的な使用法

# 英語
from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]

model_id = "facebook/mms-lid-256"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'eng'

高度な使用法

# アラビア語
from datasets import load_dataset, Audio
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch

stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]

model_id = "facebook/mms-lid-256"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)

inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs).logits

lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
# 'ara'

📚 ドキュメント

サポートされる言語

このモデルは256の言語をサポートしています。以下をクリックして、このチェックポイントがサポートするすべての言語をISO 639 - 3コードで表示します。言語とそのISO 649 - 3コードの詳細は、MMS言語カバレッジ概要で見ることができます。

クリックして表示

モデルの詳細

プロパティ	詳細
開発者	Vineel Pratap et al.
モデルタイプ	多言語自動音声認識モデル
言語	256の言語、サポートされる言語を参照
ライセンス	CC - BY - NC 4.0ライセンス
パラメータ数	10億
音声サンプリングレート	16,000kHz
引用	@article{pratap2023mms, title={Scaling Speech Technology to 1,000+ Languages}, author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel - Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei - Ning Hsu and Alexis Conneau and Michael Auli}, journal={arXiv}, year={2023} }