W

Wav2vec2 Large Xlsr Kyrgyz

aismlvによって開発
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整したキルギス語音声認識モデルで、Common Voiceデータセットで訓練され、単語誤り率は34.08%です。
ダウンロード数 571
リリース時間 : 3/2/2022

モデル概要

これはキルギス語音声認識に特化したモデルで、Wav2Vec2-XLSRアーキテクチャに基づいており、キルギス語の音声をテキストに変換するのに適しています。

モデル特徴

高精度キルギス語認識
キルギス語に特化して最適化された音声認識モデルで、Common Voiceテストセットで34.08%の単語誤り率を達成しました。
XLSRアーキテクチャに基づく
大規模なクロス言語表現学習の事前学習モデルを利用し、強力な音声特徴抽出能力を持っています。
16kHzサンプリングレート対応
16kHzサンプリングレートの音声入力に最適化されており、使用時には音声のサンプリングレートを一致させる必要があります。

モデル能力

キルギス語音声認識
音声をテキストに変換
自動音声文字起こし

使用事例

音声文字起こし
キルギス語音声文字起こし
キルギス語の音声内容を編集可能なテキスト形式に変換します。
単語誤り率34.08%
音声アシスタント
キルギス語音声コマンド認識
キルギス語の音声アシスタントに音声認識能力を提供します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase