Wav2Vec2 XLS - Rオープンソース音声翻訳モデル、英語の口頭語を15の書き言葉に無料で変換

ホーム

Wav2vec2 Xls R 2b En To 15

facebookによって開発

FacebookのWav2Vec2 XLS-Rモデルで、15言語の音声翻訳タスク向けにファインチューニングされており、英語の音声を複数の書き言葉に翻訳できます。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声翻訳 #大規模パラメータモデル #英語から15言語へ

ダウンロード数 27

リリース時間 : 3/2/2022

モデル概要

これはSpeechEncoderDecoderModelをベースにした音声翻訳モデルで、英語の音声を15の異なる書き言葉に翻訳できます。強力な音声エンコーダーとテキストデコーダーを組み合わせており、多言語翻訳シナリオに適しています。

モデル特徴

多言語サポート

英語の音声を15の異なる書き言葉に翻訳することをサポート

大規模事前学習

20億パラメータのWav2Vec2-XLS-R-2Bモデルをベースにしており、強力な音声理解能力を有する

エンドツーエンド翻訳

音声からテキストへの直接翻訳が可能で、中間の書き起こしステップが不要

高品質翻訳

Covost2データセットで優れた性能を発揮し、正確な翻訳結果を提供

モデル能力

英語音声認識

多言語テキスト翻訳

エンドツーエンド音声翻訳

15のターゲット言語をサポート

使用事例

音声翻訳

リアルタイム音声翻訳

英語の音声をリアルタイムでターゲット言語の書き言葉に翻訳

Covost2データセットで優れた性能

多言語会議議事録

英語の会議内容を自動的に複数言語の議事録に翻訳

教育応用

言語学習支援

学習者が英語の音声を理解し、母国語に翻訳するのを支援

🚀 Wav2Vec2-XLS-R-2B-EN-15

FacebookのWav2Vec2 XLS-Rを音声翻訳用にファインチューニングしたモデルです。

model image

これはSpeechEncoderDecoderModelモデルです。エンコーダはfacebook/wav2vec2-xls-r-2bチェックポイントからウォームスタートされ、デコーダはfacebook/mbart-large-50チェックポイントからウォームスタートされました。その結果、エンコーダ - デコーダモデルはCovost2データセットの15のen -> {lang}翻訳ペアでファインチューニングされました。

このモデルは、話されたen（英語）を以下の書かれた言語{lang}に翻訳できます。

en -> {de, tr, fa, sv-SE, mn, zh-CN, cy, ca, sl, et, id, ar, ta, lv, ja}

詳細については、公式のXLS - R論文のセクション5.1.1を参照してください。

🚀 クイックスタート

✨ 主な機能

複数言語に対応した音声翻訳が可能です。
エンコーダとデコーダがそれぞれ強力なチェックポイントからウォームスタートされ、精度が高いです。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションは省略します。

💻 使用例

基本的な使用法

from datasets import load_dataset
from transformers import pipeline

# select correct `forced_bos_token_id`
MAPPING = {
    "de": 250003,
    "tr": 250023,
    "fa": 250029,
    "sv": 250042,
    "mn": 250037,
    "zh": 250025,
    "cy": 250007,
    "ca": 250005,
    "sl": 250052,
    "et": 250006,
    "id": 250032,
    "ar": 250001,
    "ta": 250044,
    "lv": 250017,
    "ja": 250012,
}
forced_bos_token_id = MAPPING["sv"]

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-en-to-15", feature_extractor="facebook/wav2vec2-xls-r-2b-en-to-15")

translation = asr(audio_file, forced_bos_token_id=forced_bos_token_id)

高度な使用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-en-to-15")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-en-to-15")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# select correct `forced_bos_token_id`
MAPPING = {
    "de": 250003,
    "tr": 250023,
    "fa": 250029,
    "sv": 250042,
    "mn": 250037,
    "zh": 250025,
    "cy": 250007,
    "ca": 250005,
    "sl": 250052,
    "et": 250006,
    "id": 250032,
    "ar": 250001,
    "ta": 250044,
    "lv": 250017,
    "ja": 250012,
}
forced_bos_token_id = MAPPING["sv"]

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"], forced_bos_token_id=forced_bos_token)
transcription = processor.batch_decode(generated_ids)

📚 ドキュメント

デモ：このモデルはこのスペースでテストできます。ターゲット言語を選択し、英語で音声を録音すると、チェックポイントが入力をどれだけうまく翻訳できるかを確認できます。
結果：このモデルのCovost2でのパフォーマンスについては、XLS - R (2B) の行を参照してください。

results image

🔧 技術詳細

このREADMEには技術的な詳細が十分に記載されていないため、このセクションは省略します。

📄 ライセンス

このモデルはapache - 2.0ライセンスの下で提供されています。

その他の情報

サポート言語： | Property | Details | |----------|---------| | サポート言語 | en, de, tr, fa, sv, mn, zh, cy, ca, sl, et, id, ar, ta, lv, ja | | データセット | common_voice, multilingual_librispeech, covost2 | | タグ | speech, xls_r, automatic-speech-recognition, xls_r_translation |
その他のXLS - Rモデル：