Wav2Vec2 XLS - Rオープンソース音声翻訳モデル - 無料で多言語音声を英語に翻訳

ホーム

Wav2vec2 Xls R 2b 21 To En

facebookによって開発

FacebookのWav2Vec2 XLS - Rモデルで、多言語音声から英語への翻訳タスクに使用されます。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声翻訳 #21言語から英語への変換 #大規模音声モデル

ダウンロード数 38

リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec2 XLS - Rアーキテクチャに基づく音声翻訳モデルで、21言語の音声入力を英語テキストに翻訳することができます。

モデル特徴

多言語サポート

21種類の異なる言語の音声入力を英語に翻訳することをサポートします

大規模モデル

20億パラメータのWav2Vec2 XLS - Rアーキテクチャに基づき、高品質な翻訳結果を提供します

エンドツーエンド翻訳

音声入力から直接英語テキストへのエンドツーエンド翻訳で、中間の文字起こしステップは必要ありません

モデル能力

音声翻訳

多言語処理

自動音声認識

使用事例

音声翻訳サービス

リアルタイム音声翻訳

会議や会話中の外国語の音声をリアルタイムで英語に翻訳します

音声コンテンツのローカライズ

外国語のポッドキャスト、ビデオなどのコンテンツを英語テキストに翻訳します

支援技術

バリアフリーアプリ

聴覚障害者が外国語の音声コンテンツを理解するのを支援します

🚀 Wav2Vec2-XLS-R-2b-21-EN

FacebookのWav2Vec2 XLS-Rを音声翻訳用にファインチューニングしたモデルです。このモデルは、音声の翻訳タスクに特化しており、様々な言語から英語への翻訳が可能です。

model image

これはSpeechEncoderDecoderModelモデルです。エンコーダはfacebook/wav2vec2-xls-r-2bのチェックポイントからウォームスタートされ、デコーダはfacebook/mbart-large-50のチェックポイントからウォームスタートされました。その結果、エンコーダ - デコーダモデルはCovost2データセットの21の{lang} -> en の翻訳ペアでファインチューニングされました。

このモデルは以下の音声言語から英語 (en) への翻訳が可能です。

{fr, de, es, ca, it, ru, zh-CN, pt, fa, et, mn, nl, tr, ar, sv-SE, lv, sl, ta, ja, id, cy} -> en

詳細については、公式XLS - R論文のセクション 5.1.2 を参照してください。

🚀 クイックスタート

デモ

このモデルは、このモデルカードの音声認識ウィジェットで直接テストすることができます！可能な音声言語のいずれかで音声を録音するか、サンプルの音声ファイルを選択して、チェックポイントが入力をどれだけうまく翻訳できるかを確認してください。

例

これは標準的なシーケンス-to-シーケンスのトランスフォーマーモデルであるため、音声特徴量をモデルに渡して generate メソッドを使用して文字起こしを生成することができます。

このモデルは、ASRパイプラインを介して直接使用することができます。

from datasets import load_dataset
from transformers import pipeline

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")

translation = asr(audio_file)

または、以下のようにステップバイステップで使用することもできます。

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

💻 使用例

基本的な使用法

from datasets import load_dataset
from transformers import pipeline

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-2b-21-to-en")

translation = asr(audio_file)

高度な使用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

🔧 技術詳細

このモデルは、エンコーダがfacebook/wav2vec2-xls-r-2bから、デコーダがfacebook/mbart-large-50からウォームスタートされたエンコーダ - デコーダモデルです。そして、Covost2データセットの21の{lang} -> en の翻訳ペアでファインチューニングされています。

📄 ライセンス

このモデルは apache - 2.0 ライセンスの下で提供されています。

結果 `{lang}` -> `en`

このモデルのCovost2でのパフォーマンスについては、XLS - R (2B) の行を参照してください。

results image

その他の `{lang}` -> `en` 音声翻訳用のXLS - Rモデル

情報テーブル

| 属性 | 详情 |
|------|------|
| サポート言語 | `fr`, `de`, `es`, `ca`, `it`, `ru`, `zh-CN`, `pt`, `fa`, `et`, `mn`, `nl`, `tr`, `ar`, `sv-SE`, `lv`, `sl`, `ta`, `ja`, `id`, `cy` |
| データセット | common_voice、multilingual_librispeech、covost2 |
| パイプラインタグ | automatic-speech-recognition |
| ライセンス | apache-2.0 |

ウィジェットサンプル

言語	サンプル音声
スウェーデン語	サンプル
アラビア語	サンプル
ロシア語	サンプル
ドイツ語	サンプル
フランス語	サンプル
インドネシア語	サンプル
イタリア語	サンプル
日本語	サンプル
モンゴル語	サンプル
オランダ語	サンプル
ロシア語	サンプル
トルコ語	サンプル
カタルーニャ語	サンプル
英語	サンプル
オランダ語	サンプル