オープンソースのWav2vec2 - xls - r - 2b - 22 - to - 16モデル - 22種から16種の言語間の相互翻訳をサポートする音声翻訳ツール

ホーム

Wav2vec2 Xls R 2b 22 To 16

facebookによって開発

FacebookのWav2Vec2 XLS-Rモデルは多言語音声翻訳タスク用に微調整されており、22種類の入力言語と16種類の出力言語の相互翻訳をサポートしています。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語音声翻訳 #大規模モデル音声処理 #リアルタイム音声転写

ダウンロード数 38

リリース時間 : 3/2/2022

モデル概要

これはSpeechEncoderDecoderアーキテクチャに基づく音声翻訳モデルで、複数の話し言葉を書き言葉に翻訳できます。エンコーダーはwav2vec2-xls-r-2b、デコーダーはmbart-large-50をベースにしており、Covost2データセットで微調整されています。

モデル特徴

多言語サポート

22種類の入力言語と16種類の出力言語の相互翻訳をサポートし、幅広い言語ニーズに対応

大規模事前学習

20億パラメータのWav2Vec2-XLS-Rモデルをベースとしており、強力な音声特徴抽出能力を有する

エンドツーエンド翻訳

中間の転写ステップを必要とせず、音声から直接対象言語のテキストへ翻訳

モデル能力

音声認識

多言語翻訳

音声からテキストへの変換

使用事例

国際交流

リアルタイム音声翻訳

会議や会話中の音声を他の言語にリアルタイムで翻訳

複数の言語組み合わせの正確な翻訳をサポート

メディア処理

動画字幕生成

外国語の動画に自動的に翻訳字幕を生成

複数の言語ペアの字幕生成をサポート

🚀 Wav2Vec2-XLS-R-2B-22-16 (XLS-R-Any-to-Any)

このモデルは、Facebookによる音声翻訳用にファインチューニングされたものです。音声を入力として受け取り、指定された言語に翻訳することができます。

🚀 クイックスタート

このモデルは、このスペース でテストできます。ターゲット言語を選択し、上記の入力言語のいずれかで音声を録音し、チェックポイントが入力をどれだけうまく翻訳できるかを確認できます。

✨ 主な機能

多言語の音声翻訳が可能で、入力言語と出力言語の組み合わせが豊富です。
標準的なシーケンス-to-シーケンスのトランスフォーマーモデルで、generate メソッドを使用して音声特徴を渡すことで翻訳を生成できます。

📦 インストール

このモデルは、Hugging Faceのトランスフォーマーライブラリを使用して利用できます。必要な依存関係をインストールすることで、簡単に使用できます。

💻 使用例

基本的な使用法

from datasets import load_dataset
from transformers import pipeline

# select correct `forced_bos_token_id`
MAPPING = {
    "en": 250004,
    "de": 250003,
    "tr": 250023,
    "fa": 250029,
    "sv": 250042,
    "mn": 250037,
    "zh": 250025,
    "cy": 250007,
    "ca": 250005,
    "sl": 250052,
    "et": 250006,
    "id": 250032,
    "ar": 250001,
    "ta": 250044,
    "lv": 250017,
    "ja": 250012,
}
forced_bos_token_id = MAPPING["sv"]

# replace following lines to load an audio file of your choice
librispeech_en = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
audio_file = librispeech_en[0]["file"]

asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-xls-r-2b-22-to-16", feature_extractor="facebook/wav2vec2-xls-r-2b-22-to-16")

translation = asr(audio_file, forced_bos_token_id=forced_bos_token_id)

高度な使用法

import torch
from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
from datasets import load_dataset

model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-2b-22-to-16")
processor = Speech2Text2Processor.from_pretrained("facebook/wav2vec2-xls-r-2b-22-to-16")

ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# select correct `forced_bos_token_id`
forced_bos_token_id = MAPPING["sv"]

inputs = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["array"]["sampling_rate"], return_tensors="pt")
generated_ids = model.generate(input_ids=inputs["input_features"], attention_mask=inputs["attention_mask"], forced_bos_token_id=forced_bos_token)
transcription = processor.batch_decode(generated_ids)

📚 ドキュメント

このモデルは SpeechEncoderDecoderModel です。エンコーダは facebook/wav2vec2-xls-r-2b のチェックポイントからウォームスタートされ、デコーダは facebook/mbart-large-50 のチェックポイントからウォームスタートされました。

モデルは、以下の話し言葉の言語 {input_lang} から以下の書き言葉の言語 {output_lang} に翻訳できます。

{input_lang} -> {output_lang}

{input_lang} は以下のいずれか:

{en, fr, de, es, ca, it, ru, zh-CN, pt, fa, et, mn, nl, tr, ar, sv-SE, lv, sl, ta, ja, id, cy}

{output_lang} は:

{en, de, tr, fa, sv-SE, mn, zh-CN, cy, ca, sl, et, id, ar, ta, lv, ja}

🔧 技術詳細

このモデルは、エンコーダとデコーダのペアを使用したエンコーダ - デコーダモデルです。エンコーダは音声特徴をエンコードし、デコーダはそれを翻訳されたテキストに変換します。モデルは、Covost2データセットの {input_lang} -> {output_lang} の翻訳ペアでファインチューニングされています。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

関連情報

その他のXLS-Rモデル

データセット

common_voice
multilingual_librispeech
covost2

パイプラインタグ

automatic-speech-recognition

ウィジェット

スウェーデン語の例: サンプル音声
アラビア語の例: サンプル音声
ロシア語の例: サンプル音声
ドイツ語の例: サンプル音声
フランス語の例: サンプル音声
インドネシア語の例: サンプル音声
イタリア語の例: サンプル音声
日本語の例: サンプル音声
モンゴル語の例: サンプル音声
オランダ語の例: サンプル音声
ロシア語の例: サンプル音声
トルコ語の例: サンプル音声
カタルーニャ語の例: サンプル音声
英語の例: サンプル音声
オランダ語の例: サンプル音声

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | SpeechEncoderDecoderModel |
| 訓練データ | common_voice、multilingual_librispeech、covost2 |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご