W

Wav2vec2 Xlsr 1b Finnish Lm

Finnish-NLPによって開発
facebook/wav2vec2-xls-r-1bをファインチューニングしたフィンランド語自動音声認識モデルで、259.57時間のフィンランド語注釈付き音声データでトレーニングされ、フィンランド語音声からテキストへの変換タスクをサポートします。
ダウンロード数 32
リリース時間 : 3/28/2022

モデル概要

これはフィンランド語に最適化された自動音声認識モデルで、10億パラメータのWav2Vec2 XLS-Rアーキテクチャをベースにファインチューニングされており、短い音声の文字起こしに適しています。フィンランド語KenLM言語モデルを組み合わせることで、デコード効果を向上させます。

モデル特徴

大規模事前学習基盤
43.6万時間の多言語音声で事前学習されたXLS-Rアーキテクチャを採用し、強力な音響特徴抽出能力を有します
ドメイン適応ファインチューニング
259時間のフィンランド語データでファインチューニングされ、特に議会演説や放送音声シーンに最適化されています
言語モデル強化
5-gram KenLM言語モデルを組み合わせ、文字起こし精度を大幅に向上させます
効率的な推論
20秒の短い音声を直接処理可能で、長い音声はチャンク分割方法で処理できます

モデル能力

フィンランド語音声認識
短い音声の文字起こし
言語モデルを組み合わせたデコード

使用事例

音声文字起こし
議会議事録
フィンランド議会の演説内容を文字起こし
アルト議会データセットで優れた性能を発揮
放送コンテンツ転記
フィンランド放送局のプログラム音声を処理
放送コーパスでWER 5.65%を達成
教育応用
言語学習支援
学習者のフィンランド語発音を修正するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase