W

Wav2vec2 Large Xlsr Catala

ccoreillyによって開発
facebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングしたカタルーニャ語自動音声認識モデル
ダウンロード数 31
リリース時間 : 3/2/2022

モデル概要

このモデルはカタルーニャ語に最適化された自動音声認識(ASR)モデルで、Common VoiceとParlamentParlaデータセットを使用してファインチューニングされており、16kHzサンプリングレートの音声入力をサポートします。

モデル特徴

複数データセットでのファインチューニング
Common VoiceとParlamentParlaデータセットを組み合わせてトレーニングし、モデルの適応性を向上
低い単語誤り率
テストセットで6.92%の単語誤り率(WER)を達成し、優れた性能を発揮
言語モデル不要
追加の言語モデルなしで直接使用可能

モデル能力

音声認識
カタルーニャ語音声からテキストへの変換
16kHzオーディオ処理

使用事例

音声文字起こし
議会発言の文字起こし
カタルーニャ議会の発言内容をテキストに変換
ParlamentParlaデータセットで良好な性能
オーディオブックの文字起こし
カタルーニャ語オーディオブックの内容をテキストに変換
『聖ジョージ伝説』オーディオブックでWER13.23%
音声アシスタント
カタルーニャ語音声コマンド認識
カタルーニャ語音声アシスタントシステム向け
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase