🚀 Wav2Vec2-XLS-R-2B-22-16 (XLS-R-Any-to-Any)
このモデルは、Facebookによる音声翻訳用にファインチューニングされたものです。音声を入力として受け取り、指定された言語に翻訳することができます。
🚀 クイックスタート
このモデルは、このスペース でテストできます。ターゲット言語を選択し、上記の入力言語のいずれかで音声を録音し、チェックポイントが入力をどれだけうまく翻訳できるかを確認できます。
✨ 主な機能
- 多言語の音声翻訳が可能で、入力言語と出力言語の組み合わせが豊富です。
- 標準的なシーケンス-to-シーケンスのトランスフォーマーモデルで、
generate
メソッドを使用して音声特徴を渡すことで翻訳を生成できます。
📦 インストール
このモデルは、Hugging Faceのトランスフォーマーライブラリを使用して利用できます。必要な依存関係をインストールすることで、簡単に使用できます。
💻 使用例
基本的な使用法
from datasets import load_dataset
from transformers import pipeline
MAPPING = {
"en": 250004,
"de": 250003,
"tr": 250023,
"fa": 250029,
"sv": 250042,
"mn": 250037,
"zh": 250025,
"cy": 250007,
"ca": 250005,
"sl": 250052,
"et": 250006,
"id": 250032,
"ar": 250001,
"ta": 250044,
"lv": 250017,
"ja": 250012,
}
forced_bos_token_id = MAPPING["sv"]
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]
asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-22-to-16", feature_extractor="facebook/wav2vec2-xls-r-2b-22-to-16")
translation = asr(audio_file, forced_bos_token_id=forced_bos_token_id)
高度な使用法
import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset
model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-22-to-16")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-22-to-16")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
forced_bos_token_id = MAPPING["sv"]
inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"], forced_bos_token_id=forced_bos_token)
transcription = processor.batch_decode(generated_ids)
📚 ドキュメント
このモデルは SpeechEncoderDecoderModel です。エンコーダは facebook/wav2vec2-xls-r-2b
のチェックポイントからウォームスタートされ、デコーダは facebook/mbart-large-50
のチェックポイントからウォームスタートされました。
モデルは、以下の話し言葉の言語 {input_lang}
から以下の書き言葉の言語 {output_lang}
に翻訳できます。
{input_lang}
-> {output_lang}
{input_lang}
は以下のいずれか:
{en
, fr
, de
, es
, ca
, it
, ru
, zh-CN
, pt
, fa
, et
, mn
, nl
, tr
, ar
, sv-SE
, lv
, sl
, ta
, ja
, id
, cy
}
{output_lang}
は:
{en
, de
, tr
, fa
, sv-SE
, mn
, zh-CN
, cy
, ca
, sl
, et
, id
, ar
, ta
, lv
, ja
}
🔧 技術詳細
このモデルは、エンコーダとデコーダのペアを使用したエンコーダ - デコーダモデルです。エンコーダは音声特徴をエンコードし、デコーダはそれを翻訳されたテキストに変換します。モデルは、Covost2データセット の {input_lang}
-> {output_lang}
の翻訳ペアでファインチューニングされています。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
関連情報
その他のXLS-Rモデル
データセット
- common_voice
- multilingual_librispeech
- covost2
タグ
- speech
- xls_r
- automatic-speech-recognition
- xls_r_translation
パイプラインタグ
automatic-speech-recognition
ウィジェット
情報テーブル
| 属性 | 详情 |
|------|------|
| モデルタイプ | SpeechEncoderDecoderModel |
| 訓練データ | common_voice、multilingual_librispeech、covost2 |