wav2vec2-large-xls-r-300m-assamese-cv8オープンソースモデル - 無料でアッサム語の自動音声認識を実現

Wav2vec2 Large Xls R 300m Assamese Cv8

infinitejoyによって開発

これはfacebook/wav2vec2 - xls - r - 300mモデルをアッサム語データセットで微調整した自動音声認識(ASR)モデルです。

ダウンロード数 18

リリース時間 : 3/2/2022

モデル概要

このモデルはMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - ASデータセットで微調整されたバージョンで、アッサム語の音声認識タスクに特化しています。

アッサム語専用

アッサム語に特化して最適化された音声認識モデル

XLS - Rアーキテクチャに基づく

facebookのXLS - R - 300M大規模事前学習モデルをベースに採用しています。

Common Voiceデータセットで微調整

Mozilla Common Voice 8.0のアッサム語データセットを使用して微調整されています。

アッサム語音声認識

音声をテキストに変換

対話音声処理

音声文字起こし

アッサム語音声文字起こし

アッサム語の音声内容をテキストに変換

テストセットでのWERは65.966、CERは22.188です。

音声アシスタント

アッサム語音声インタラクション

アッサム語の音声指令認識をサポート

このモデルは、facebook/wav2vec2-xls-r-300m を MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - AS データセットでファインチューニングしたバージョンです。評価セットでは、以下の成績を達成しています。

このモデルは、音声をテキストに変換する自動音声認識タスクに使用できます。評価セットでの成績が良好であり、特定のデータセットに対して適切に調整されています。

属性	詳細
モデルタイプ	XLS-R-300M - アッサム語
訓練データセット	mozilla-foundation/common_voice_8_0
ラベル	as、自動音声認識、トレーナー生成、hf-asr-leaderboard、対話モデル、mozilla-foundation/common_voice_8_0、ロバスト音声イベント
ライセンス	Apache-2.0

このモデルの評価セットでの具体的な結果は以下の通りです。

タスク	データセット	指標	値
自動音声認識	Common Voice 8（MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - AS）	テスト単語誤り率（Test WER）	65.966
自動音声認識	Common Voice 8（MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - AS）	テスト文字誤り率（Test CER）	22.188