W

Wav2vec2 Xlsr 1b Finnish Lm V2

aapotによって開発
Facebookのwav2vec2-xls-r-1bモデルを基に、フィンランド語の自動音声認識タスクに対して微調整されたバージョンで、275.6時間のフィンランド語のアノテーション付き音声データを使用して訓練されています。
ダウンロード数 61
リリース時間 : 3/2/2022

モデル概要

このモデルは、フィンランド語の音声をテキストに変換する自動音声認識(ASR)モデルで、音響モデルとKenLM言語モデルを含んでおり、Common Voice 7.0のテストセットで4.09%の単語誤り率を達成しています。

モデル特徴

高性能なフィンランド語認識
Common Voice 7.0のテストセットで4.09%の単語誤り率と0.88%の文字誤り率を達成しました。
大規模事前学習の基礎
10億パラメータのwav2vec2-xls-r-1bモデルを基に微調整されており、このモデルは43.6万時間の多言語データで事前学習されています。
統合言語モデル
フィンランド語に特化して最適化されたKenLM 5-gram言語モデルを含んでおり、デコードの効果を大幅に向上させます。
多様な訓練データ
275.6時間のフィンランド語データを使用して微調整されており、データのソースにはCommon Voice、議会会議、ラジオ放送などの様々なシーンが含まれています。

モデル能力

フィンランド語音声認識
短い音声の文字起こし(最大20秒)
言語モデルを用いた音声デコード

使用事例

音声からテキストへの変換
会議記録の文字起こし
フィンランド語の会議録音を自動的に文字記録に変換します。
正式な場面の音声に適しており、精度が高いです。
音声アシスタント
フィンランド語の音声アシスタントに音声認識機能を提供します。
非公式な口語に対する適応性に注意が必要です。
メディア処理
ラジオ放送内容の字幕生成
フィンランド語のラジオ番組に自動的に字幕を生成します。
標準的なラジオ音声に対して良好な結果を得られます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase