wav2vec2-large-xls-r-300m-romansh-sursilvanオープンソースモデル - ロマンシュ語ズルシルバン方言の音声を高精度に識別

ホーム

Wav2vec2 Large Xls R 300m Romansh Sursilvan

infinitejoyによって開発

facebook/wav2vec2-xls-r-300mをベースに、ロマンシュ語スルシルバ方言データセットで微調整された自動音声認識モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ロマンシュ語音声認識 #低単語誤り率 #多言語対応

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

これはロマンシュ語スルシルバ方言に特化した自動音声認識(ASR)モデルで、XLS-R-300Mアーキテクチャを微調整し、Common Voice 7データセットで19.81%の単語誤り率(WER)を達成しました。

モデル特徴

低単語誤り率

ロマンシュ語スルシルバ方言のテストセットで19.81%のWERと4.15%のCERを達成

XLS-Rアーキテクチャに基づく

強力なXLS-R-300Mをベースモデルとして使用し、良好な音声表現能力を持つ

低リソース言語向けに最適化

ロマンシュ語スルシルバ方言のような比較的低リソースの言語に特化して最適化されている

モデル能力

音声からテキストへの変換

ロマンシュ語スルシルバ方言認識

連続音声認識

使用事例

音声文字起こし

ロマンシュ語音声文字起こし

ロマンシュ語スルシルバ方言の音声内容をテキストに変換

単語誤り率19.81%、文字誤り率4.15%

音声アシスタント

ロマンシュ語音声指令認識

ロマンシュ語をサポートする音声アシスタントやスマートデバイスに使用

🚀 wav2vec2-large-xls-r-300m-romansh-sursilvan

このモデルは、facebook/wav2vec2-xls-r-300m をMOZILLA - FOUNDATION/COMMON_VOICE_7_0 - RM - SURSILVデータセットでファインチューニングしたバージョンです。評価セットでは以下の成績を達成しています：

損失値：0.2163
単語誤り率（Wer）：0.1981

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - RM - SURSILVデータセットを用いてファインチューニングされています。

✨ 主な機能

自動音声認識タスクをサポートします。
MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - RM - SURSILVデータセットを基にファインチューニングされています。

📚 ドキュメント

モデル情報

属性	詳細
モデルタイプ	XLS - R - 300M - Romansh Sursilvan
訓練データ	mozilla - foundation/common_voice_7_0（rm - sursilv）

評価結果

このモデルは、Common Voice 7データセット（タイプ：mozilla - foundation/common_voice_7_0，パラメータ：rm - sursilv）で評価され、以下の結果が得られました：

テスト単語誤り率（Test WER）：19.816
テスト文字誤り率（Test CER）：4.153

訓練過程

訓練ハイパーパラメータ

訓練時には以下のハイパーパラメータが使用されました：

学習率（learning_rate）：7e - 05
訓練バッチサイズ（train_batch_size）：32
評価バッチサイズ（eval_batch_size）：1
乱数シード（seed）：42
オプティマイザ（optimizer）：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学習率スケジューラタイプ（lr_scheduler_type）：線形
学習率スケジューラウォームアップステップ数（lr_scheduler_warmup_steps）：2000
訓練エポック数（num_epochs）：120.0
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	エポック数	ステップ数	検証損失	単語誤り率（Wer）
1.1004	23.81	2000	0.3710	0.4191
0.7002	47.62	4000	0.2342	0.2562
0.5573	71.43	6000	0.2175	0.2177
0.4799	95.24	8000	0.2109	0.1987
0.4511	119.05	10000	0.2164	0.1975

フレームワークバージョン

Transformers：4.16.0.dev0
Pytorch：1.10.1 + cu102
Datasets：1.17.1.dev0
Tokenizers：0.11.0

📄 ライセンス

このモデルは、Apache - 2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご