オープンソースのWav2Vec2 XLS - Rモデル - 21の言語から英語への音声翻訳を無料で実現

ホーム

Wav2vec2 Xls R 300m 21 To En

facebookによって開発

FacebookのWav2Vec2 XLS-Rは21言語から英語への音声翻訳用にファインチューニングされています

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声翻訳 #21言語から英語への変換 #大規模事前学習モデル

ダウンロード数 464

リリース時間 : 3/2/2022

モデル概要

これはSpeechEncoderDecoderModelベースの音声翻訳モデルで、21の話し言葉を英語に翻訳できます。エンコーダーはfacebook/wav2vec2-xls-r-300m、デコーダーはfacebook/mbart-large-50をベースにしており、Covost2データセットでファインチューニングされています。

モデル特徴

多言語サポート

21言語から英語への音声翻訳をサポート

XLS-Rアーキテクチャベース

先進的なWav2Vec2 XLS-R 300Mモデルをエンコーダーとして採用

エンドツーエンド翻訳

中間の書き起こしステップなしで音声入力から直接英語テキストを生成

高品質翻訳

Covost2データセットで優れた性能、特に一般的な言語で良好な結果

モデル能力

音声翻訳

多言語処理

自動音声認識

エンドツーエンド音声からテキスト

使用事例

音声翻訳サービス

リアルタイム音声翻訳

会議や会話中の外国語を英語にリアルタイム翻訳

高品質な翻訳出力、複数言語サポート

マルチメディアコンテンツ翻訳

ポッドキャスト、動画などのマルチメディアコンテンツ内の音声を翻訳

音声内容を正確に捕捉し英語テキストに変換

支援技術

言語学習支援

言語学習者が外国語コンテンツを理解するのを支援

正確な翻訳リファレンスを提供

🚀 Wav2Vec2-XLS-R-300M-21-EN

このモデルは、FacebookによるWav2Vec2 XLS - Rを音声翻訳用にファインチューニングしたものです。音声を特定の言語から英語に翻訳することが可能で、多言語の音声データセットを用いて訓練されています。

model image

🚀 クイックスタート

このモデルはSpeechEncoderDecoderModelです。エンコーダはfacebook/wav2vec2-xls-r-300mのチェックポイントからウォームスタートされ、デコーダはfacebook/mbart-large-50のチェックポイントから初期化されました。その後、Covost2データセットの21の{lang} -> enの翻訳ペアでファインチューニングされました。

このモデルは以下の音声言語から英語への翻訳が可能です。

{fr, de, es, ca, it, ru, zh-CN, pt, fa, et, mn, nl, tr, ar, sv-SE, lv, sl, ta, ja, id, cy} -> en

詳細については、公式XLS - R論文のセクション5.1.2を参照してください。

✨ 主な機能

多言語の音声を英語に翻訳することができます。
エンコーダとデコーダがそれぞれ強力なモデルから初期化され、高精度な翻訳が期待できます。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install datasets transformers

💻 使用例

基本的な使用法

from datasets import load_dataset
from transformers import pipeline

# 任意のオーディオファイルをロードするために以下の行を置き換えます
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-300m-21-to-en", feature_extractor="facebook/wav2vec2-xls-r-300m-21-to-en")

translation = asr(audio_file)

高度な使用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-21-to-en")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-300m-21-to-en")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"])
transcription = processor.batch_decode(generated_ids)

📚 ドキュメント

デモ

このモデルは、モデルカード上の音声認識ウィジェットで直接テストすることができます。可能な音声言語のいずれかで音声を録音するか、サンプルのオーディオファイルを選択して、チェックポイントが入力をどれだけうまく翻訳できるかを確認してください。

🔧 技術詳細

このモデルは、音声エンコーダとデコーダの組み合わせで構成されています。エンコーダは音声信号を特徴ベクトルに変換し、デコーダはその特徴ベクトルを英語のテキストに変換します。エンコーダとデコーダはそれぞれ事前学習されたモデルから初期化され、Covost2データセットを用いてファインチューニングされています。

📄 ライセンス

このモデルはapache-2.0ライセンスの下で提供されています。

その他の情報

属性	详情
サポート言語	`fr`, `de`, `es`, `ca`, `it`, `ru`, `zh-CN`, `pt`, `fa`, `et`, `mn`, `nl`, `tr`, `ar`, `sv-SE`, `lv`, `sl`, `ta`, `ja`, `id`, `cy` から英語への翻訳
データセット	common_voice、multilingual_librispeech、covost2
タグ	speech、xls_r、automatic-speech-recognition、xls_r_translation
パイプラインタグ	automatic-speech-recognition