W

Wav2vec2 Large Xlsr 53 Tatar

anton-lによって開発
Facebookのwav2vec2-large-xlsr-53モデルをタタール語Common Voiceデータセットで微調整した音声認識モデル
ダウンロード数 25
リリース時間 : 3/2/2022

モデル概要

これはタタール語の自動音声認識(ASR)に使用するモデルで、Facebookのwav2vec2-large-xlsr-53アーキテクチャを微調整して作成され、16kHzのサンプリングレートの音声入力をサポートします。

モデル特徴

タタール語専用音声認識
タタール語に特化して最適化された音声認識モデルで、Common Voiceタタール語テストセットで26.76%のWERを達成します。
XLSRアーキテクチャに基づく
言語横断的な音声表現学習(XLSR)技術を利用し、タタール語の音声特徴を捉えることができます。
言語モデル不要
追加の言語モデルのサポートなしで直接使用できます。

モデル能力

タタール語音声認識
音声からテキストへの変換
16kHzオーディオ処理

使用事例

音声書き起こし
タタール語音声の文字起こし
タタール語の音声内容をテキストに変換します。
Common Voiceテストセットで26.76%の単語誤り率を達成します。
音声アシスタント
タタール語音声コマンド認識
タタール語の音声アシスタントまたは音声制御システムの音声認識モジュールに使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase