X

Xls R Uyghur Cv8

lucioによって開発
facebook/wav2vec2-xls-r-300mをCommon Voice 8ウイグル語データセットでファインチューニングした自動音声認識モデル
ダウンロード数 24
リリース時間 : 3/2/2022

モデル概要

このモデルはウイグル語に最適化された自動音声認識(ASR)モデルで、低精度要求の音声テキスト変換シナリオに適しています

モデル特徴

ウイグル語最適化
ウイグル語のペルシア・アラビア文字に特化して最適化され、句読点を除去しています
段階的学習戦略
2000ステップのウォームアップと9400ステップのクールダウンを含む学習率戦略を採用し、トレーニング効果を最適化
低リソース適応
限られたデータ条件下でも良好な認識効果を達成可能

モデル能力

ウイグル語音声認識
放送録音テキスト変換
動画字幕生成

使用事例

メディア処理
動画字幕ドラフト生成
ウイグル語動画コンテンツの自動字幕生成
単語誤り率30.5%、文字誤り率5.8%
放送録音インデックス
ウイグル語放送内容を検索可能なテキストに変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase