wav2vec2-xlsr-dhivehiオープンソース音声認識モデル - ディベヒ語の音声内容を正確に認識

ホーム

Wav2vec2 Xlsr Dhivehi

sammy786によって開発

これはfacebook/wav2vec2-xls-r-1bモデルをディベヒ語(Dhivehi)音声データセットで微調整した自動音声認識(ASR)モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ディベヒ語音声認識 #低単語誤り率 #多方言適応

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

このモデルはディベヒ語に特化して最適化されており、音声をテキストに変換する自動音声認識タスクに使用されます。

モデル特徴

ディベヒ語最適化

ディベヒ語に特化して微調整されており、より良い音声認識効果を提供します

大規模モデルベース

facebook/wav2vec2-xls-r-1b大規模モデルを基に微調整されており、その強力な音声特徴抽出能力を継承しています

高性能

Common Voice 8テストセットで26.91%のWERと4.02%のCERを達成しました

モデル能力

ディベヒ語音声認識

音声からテキストへの変換

長い音声処理のサポート

使用事例

音声文字起こし

ディベヒ語音声文字起こし

ディベヒ語の音声内容をテキストに変換

73.09%(1-WER)の正確率を達成

音声アシスタント

ディベヒ語音声インタラクション

ディベヒ語音声アシスタントの構築に使用

🚀 sammy786/wav2vec2-xlsr-dhivehi

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - dv データセットで facebook/wav2vec2-xls-r-1b をファインチューニングしたバージョンです。評価セット（トレーニングデータセットの10％を他のデータセットと開発データセットと統合したもの）で以下の結果を達成しています。

損失: 14.86
単語誤り率 (Wer): 29.32

✨ 主な機能

モデルの説明

"facebook/wav2vec2-xls-r-1b" がファインチューニングされています。

想定される用途と制限

詳細情報はありません。

📚 ドキュメント

トレーニングと評価データ

トレーニングデータ - Common voice Finnish の train.tsv、dev.tsv、および other.tsv

トレーニング手順

トレーニングデータセットを作成するために、可能なすべてのデータセットを追加し、90-10の分割を使用しました。

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.000045637994662983496
トレーニングバッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 16
シード (seed): 13
勾配累積ステップ数 (gradient_accumulation_steps): 4
総トレーニングバッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam（ベータ=(0.9,0.999)、イプシロン=1e-08）
学習率スケジューラの種類 (lr_scheduler_type): cosine_with_restarts
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 30
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

ステップ	トレーニング損失	検証損失	単語誤り率 (Wer)
200	4.883800	3.190218	1.000000
400	1.600100	0.497887	0.726159
600	0.928500	0.358781	0.603892
...	...	...	...
11000	0.121100	0.163522	0.372693

フレームワークバージョン

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.17.1.dev0
Tokenizers 0.10.3

評価コマンド

mozilla-foundation/common_voice_8_0 の test スプリットで評価する場合

python eval.py --model_id sammy786/wav2vec2-xlsr-dhivehi --dataset mozilla-foundation/common_voice_8_0 --config dv --split test

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご