W

Wav2vec2 Large Xls R 300m As

anuragshasによって開発
Facebookのwav2vec2-xls-r-300mモデルをCommon Voice 7アッサム語(AS)データセットでファインチューニングした自動音声認識(ASR)モデル
ダウンロード数 19
リリース時間 : 3/2/2022

モデル概要

このモデルはアッサム語の自動音声認識システムで、アッサム語の音声をテキストに変換できます

モデル特徴

多言語サポート
Facebookの多言語wav2vec2-xls-rモデルを基にしており、アッサム語を含む複数言語をサポート
効率的なトレーニング
勾配蓄積などの技術を使用してトレーニングプロセスを最適化し、限られたリソースで効率的なトレーニングを実現
ロバスト性
Common Voiceデータセットでトレーニングされており、ある程度の音声変動に対するロバスト性を有する

モデル能力

アッサム語音声認識
音声からテキストへの変換
16kHzサンプリングレートの音声処理をサポート

使用事例

音声文字起こし
アッサム語音声文字起こし
アッサム語の音声内容をテキストに変換
単語誤り率56.995%(言語モデル使用)
音声アシスタント
アッサム語音声コマンド認識
アッサム語の音声コマンドを理解するために使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase