W

Wav2vec2 Xls R 2b 22 To 16

facebookによって開発
FacebookのWav2Vec2 XLS-Rモデルは多言語音声翻訳タスク用に微調整されており、22種類の入力言語と16種類の出力言語の相互翻訳をサポートしています。
ダウンロード数 38
リリース時間 : 3/2/2022

モデル概要

これはSpeechEncoderDecoderアーキテクチャに基づく音声翻訳モデルで、複数の話し言葉を書き言葉に翻訳できます。エンコーダーはwav2vec2-xls-r-2b、デコーダーはmbart-large-50をベースにしており、Covost2データセットで微調整されています。

モデル特徴

多言語サポート
22種類の入力言語と16種類の出力言語の相互翻訳をサポートし、幅広い言語ニーズに対応
大規模事前学習
20億パラメータのWav2Vec2-XLS-Rモデルをベースとしており、強力な音声特徴抽出能力を有する
エンドツーエンド翻訳
中間の転写ステップを必要とせず、音声から直接対象言語のテキストへ翻訳

モデル能力

音声認識
多言語翻訳
音声からテキストへの変換

使用事例

国際交流
リアルタイム音声翻訳
会議や会話中の音声を他の言語にリアルタイムで翻訳
複数の言語組み合わせの正確な翻訳をサポート
メディア処理
動画字幕生成
外国語の動画に自動的に翻訳字幕を生成
複数の言語ペアの字幕生成をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase