Xtreme S Xlsr Minds14

X

Xtreme S Xlsr Minds14

anton-lによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをファインチューニングして得られた音声処理モデルで、評価セットで高いF1値と精度を達成しました。

オープンソースライセンス:Apache-2.0 #多言語音声認識 #高精度F1 #XLS-Rファインチューニング

ダウンロード数 25

リリース時間 : 3/12/2022

モデル概要

xtreme_s_xlsr_minds14はwav2vec2-xls-r-300mアーキテクチャに基づくファインチューニングモデルで、主に音声関連タスクに使用されます。

モデル特徴

高性能F1スコア

評価セットで0.946の高いF1値を達成し、優れた性能を示しています

マルチGPUトレーニング

マルチGPU分散トレーニングをサポートし、トレーニング効率を向上させます

混合精度トレーニング

ネイティブAMPを使用した混合精度トレーニングにより、トレーニング速度を最適化します

モデル能力

音声認識

音声分類

使用事例

音声処理

音声コマンド認識

音声コマンドの認識と理解に使用できます

高精度な認識効果

音声感情分析

音声中の感情傾向を分析するために使用できます

🚀 xtreme_s_xlsr_minds14

このモデルは、音声認識や音声分類などのタスクに使用されるモデルです。facebook/wav2vec2-xls-r-300m をNoneデータセットでファインチューニングしたバージョンで、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは facebook/wav2vec2-xls-r-300m をNoneデータセットでファインチューニングしたものです。評価セットでは以下の結果を達成しています。

損失: 0.2566
F1: {'f1': 0.9460569664921582, 'accuracy': 0.9468540012217471}

🔧 技術詳細

学習ハイパーパラメータ

学習時には以下のハイパーパラメータが使用されました。

学習率: 0.0003
学習バッチサイズ: 32
評価バッチサイズ: 8
シード: 42
分散タイプ: マルチGPU
デバイス数: 2
総学習バッチサイズ: 64
総評価バッチサイズ: 16
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ: 1500
エポック数: 50.0
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	F1
2.551	2.7	200	2.5921	{'f1': 0.03454307545755678, 'accuracy': 0.1148442272449603}
1.6934	5.41	400	1.5353	{'f1': 0.5831241711045994, 'accuracy': 0.6053756872327428}
0.5914	8.11	600	0.7337	{'f1': 0.7990425247664236, 'accuracy': 0.7947464874770922}
0.3896	10.81	800	0.5076	{'f1': 0.8738199236080776, 'accuracy': 0.872327428222358}
0.5052	13.51	1000	0.4917	{'f1': 0.8744760456867134, 'accuracy': 0.8747709224190593}
0.4806	16.22	1200	0.4751	{'f1': 0.8840798740258787, 'accuracy': 0.8845448992058644}
0.2103	18.92	1400	0.5228	{'f1': 0.8721632556623751, 'accuracy': 0.8729383017715333}
0.4198	21.62	1600	0.5910	{'f1': 0.8755207264572983, 'accuracy': 0.8766035430665852}
0.11	24.32	1800	0.4464	{'f1': 0.896423086249818, 'accuracy': 0.8955406230910201}
0.1233	27.03	2000	0.3760	{'f1': 0.9012283567348968, 'accuracy': 0.9016493585827734}
0.1827	29.73	2200	0.4178	{'f1': 0.9042381720184095, 'accuracy': 0.9059254734270006}
0.1235	32.43	2400	0.4152	{'f1': 0.9063257163259107, 'accuracy': 0.9071472205253512}
0.1873	35.14	2600	0.2903	{'f1': 0.9369340598806323, 'accuracy': 0.9376908979841173}
0.017	37.84	2800	0.3046	{'f1': 0.9300781160576355, 'accuracy': 0.9303604153940135}
0.0436	40.54	3000	0.3111	{'f1': 0.9315034391389341, 'accuracy': 0.9321930360415394}
0.0455	43.24	3200	0.2748	{'f1': 0.9417365311433034, 'accuracy': 0.9425778863775198}
0.046	45.95	3400	0.2800	{'f1': 0.9390712658440112, 'accuracy': 0.9395235186316433}
0.0042	48.65	3600	0.2566	{'f1': 0.9460569664921582, 'accuracy': 0.9468540012217471}

フレームワークバージョン

Transformers 4.18.0.dev0
Pytorch 1.10.2+cu113
Datasets 1.18.4.dev0
Tokenizers 0.11.6

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase