🚀 Wav2Vec2-XLS-R-300M-21-EN
このモデルは、FacebookによるWav2Vec2 XLS - Rを音声翻訳用にファインチューニングしたものです。音声を特定の言語から英語に翻訳することが可能で、多言語の音声データセットを用いて訓練されています。

🚀 クイックスタート
このモデルはSpeechEncoderDecoderModelです。エンコーダはfacebook/wav2vec2-xls-r-300m
のチェックポイントからウォームスタートされ、デコーダはfacebook/mbart-large-50
のチェックポイントから初期化されました。その後、Covost2データセットの21の{lang}
-> en
の翻訳ペアでファインチューニングされました。
このモデルは以下の音声言語から英語への翻訳が可能です。
{fr
, de
, es
, ca
, it
, ru
, zh-CN
, pt
, fa
, et
, mn
, nl
, tr
, ar
, sv-SE
, lv
, sl
, ta
, ja
, id
, cy
} -> en
詳細については、公式XLS - R論文のセクション5.1.2を参照してください。
✨ 主な機能
- 多言語の音声を英語に翻訳することができます。
- エンコーダとデコーダがそれぞれ強力なモデルから初期化され、高精度な翻訳が期待できます。
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。
pip install datasets transformers
💻 使用例
基本的な使用法
from datasets import load_dataset
from transformers import pipeline
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-300m-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-300m-21-to-en")
translation = asr(audio_file)
高度な使用法
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-300m-21-to-en")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)
📚 ドキュメント
デモ
このモデルは、モデルカード上の音声認識ウィジェットで直接テストすることができます。可能な音声言語のいずれかで音声を録音するか、サンプルのオーディオファイルを選択して、チェックポイントが入力をどれだけうまく翻訳できるかを確認してください。
🔧 技術詳細
このモデルは、音声エンコーダとデコーダの組み合わせで構成されています。エンコーダは音声信号を特徴ベクトルに変換し、デコーダはその特徴ベクトルを英語のテキストに変換します。エンコーダとデコーダはそれぞれ事前学習されたモデルから初期化され、Covost2データセットを用いてファインチューニングされています。
📄 ライセンス
このモデルはapache-2.0
ライセンスの下で提供されています。
その他の情報
属性 |
详情 |
サポート言語 |
fr , de , es , ca , it , ru , zh-CN , pt , fa , et , mn , nl , tr , ar , sv-SE , lv , sl , ta , ja , id , cy から英語への翻訳 |
データセット |
common_voice、multilingual_librispeech、covost2 |
タグ |
speech、xls_r、automatic-speech-recognition、xls_r_translation |
パイプラインタグ |
automatic-speech-recognition |
サンプルオーディオ
結果
このモデルのCovost2でのパフォーマンスについては、XLS - R (0.3B) の行を参照してください。

その他のXLS - Rモデル