X

Xls R 300m Et

TalTechNLPによって開発
facebook/wav2vec2-xls-r-300mをファインチューニングしたエストニア語自動音声認識モデルで、約800時間の多様なデータでトレーニング
ダウンロード数 58
リリース時間 : 3/2/2022

モデル概要

これは汎用エストニア語ASRモデルで、主に放送対話、インタビュー、講義などのシナリオでの音声認識に使用されます

モデル特徴

多様なトレーニングデータ
約800時間の多様なエストニア語データを使用してトレーニングされており、放送音声、自発音声、高齢者音声など様々なタイプを含みます
優れた性能
Common VoiceなどのテストセットでWERが12.5-13.4%、CERが2.7-3.0%と優れた性能を発揮
エストニア語に特化
エストニア語に特化して最適化されており、汎用多言語モデルと比べてエストニア語認識でより良い性能を発揮

モデル能力

エストニア語音声認識
放送音声文字起こし
講義内容文字起こし

使用事例

メディアコンテンツ処理
放送番組文字起こし
放送対話、インタビューなどをテキストに変換
WER 6.1-7.9%
教育アプリケーション
講義内容記録
講義、スピーチなどを自動的にテキストに変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase