wav2vec2-xls-r-300m音素（フォニーム）オープンソース音声認識モデル

ホーム

Wav2vec2 Xls R 300m Phoneme

vitouphyによって開発

facebook/wav2vec2-xls-r-300mをファインチューニングした音声認識モデルで、音素認識タスクに特化

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #音声から音素への変換 #低CER認識 #XLS-Rアーキテクチャ

ダウンロード数 12.26k

リリース時間 : 5/19/2022

モデル概要

このモデルはwav2vec2-xls-r-300mのファインチューニング版で、音素認識タスク専用です。評価セットで0.1332の文字誤り率(Cer)を達成しました。

モデル特徴

効率的な音素認識

音素認識タスク向けに最適化され、評価セットで低い文字誤り率を達成

大規模事前学習モデルベース

wav2vec2-xls-r-300mモデルをベースにファインチューニングされ、強力な音声特徴抽出能力を継承

最適化されたトレーニング設定

学習率スケジューリングや勾配蓄積戦略など、慎重に調整されたトレーニングパラメータを採用

モデル能力

音声認識

音素認識

音響特徴抽出

使用事例

音声処理

音声から音素への変換

音声信号を音素シーケンスに変換

文字誤り率0.1332

音声分析

音声学研究における音素分析に使用

🚀 wav2vec2-xls-r-300m-phoneme

このモデルは、facebook/wav2vec2-xls-r-300m をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

損失: 0.3327
文字誤り率 (Cer): 0.1332

🚀 クイックスタート

このモデルは、音声データを処理するために使用できます。具体的な使用方法やコード例は、後ほど追加される予定です。

📚 ドキュメント

モデルの説明

詳細な情報は後ほど提供される予定です。

想定される用途と制限事項

詳細な情報は後ほど提供される予定です。

学習と評価データ

詳細な情報は後ほど提供される予定です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました：

学習率 (learning_rate): 3e-05
学習バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 4
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 2000
学習ステップ数 (training_steps): 7000
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	文字誤り率 (Cer)
3.4324	1.32	1000	3.3693	0.9091
2.1751	2.65	2000	1.1382	0.2397
1.3986	3.97	3000	0.4886	0.1452
1.2285	5.3	4000	0.3842	0.1351
1.142	6.62	5000	0.3505	0.1349
1.1075	7.95	6000	0.3323	0.1317
1.0867	9.27	7000	0.3265	0.1315

フレームワークのバージョン

Transformers: 4.17.0.dev0
Pytorch: 1.10.2+cu102
Datasets: 1.18.2.dev0
Tokenizers: 0.11.0

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご