X

Xlsr Wav2vec2 2

chrisvinsenによって開発
facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、多言語音声からテキストへの変換タスクをサポート
ダウンロード数 20
リリース時間 : 5/25/2022

モデル概要

このモデルはfacebook/wav2vec2-large-xlsr-53を基にファインチューニングしたバージョンで、音声認識タスクに特化しており、音声をテキストに変換可能

モデル特徴

多言語サポート
XLSR-53アーキテクチャに基づき、複数言語の音声認識をサポート可能
効率的なファインチューニング
ベースモデル上でファインチューニングを行い、特定タスクの性能を向上
低単語誤り率
評価データセットで0.4301の単語誤り率(WER)を達成

モデル能力

音声認識
音声からテキストへ
多言語処理

使用事例

音声文字起こし
会議議事録
会議録音を自動的に文字記録に変換
単語誤り率0.4301
音声メモ
音声メモを検索可能なテキストに変換
支援技術
リアルタイム字幕生成
動画やライブコンテンツのためのリアルタイム字幕生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase