wav2vec2-large-xlsr-53-th-cv8-newmmオープンソースタイ語音声認識モデル

Wav2vec2 Large Xlsr 53 Th Cv8 Newmm

wannaphongによって開発

このモデルはCommonVoice V8データセットでトレーニングされたタイ語自動音声認識モデルで、wav2vec2-large-xlsr-53アーキテクチャを採用し、newmmトークナイザーを使用し、言語モデルを統合することで、タイ語音声認識の精度を大幅に向上させています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #タイ語音声認識 #低い単語誤り率 #複数トークナイザー対応

ダウンロード数 6,486

リリース時間 : 6/6/2022

モデル概要

このモデルはタイ語音声認識タスクに特化して最適化されており、CommonVoice V8データセットと言語モデルを組み合わせることで、単語誤り率(WER)と文字誤り率(CER)において優れた性能を発揮します。

モデル特徴

改良されたデータセット

CommonVoice V8データセットを使用しており、V7バージョンと比べてデータ量が多く、トレーニング効果がより優れています

最適化されたトークン処理

newmmトークナイザーを使用して事前トークン処理を行い、タイ語の特性に合わせて最適化されています

言語モデル統合

言語モデルを組み合わせることで認識精度をさらに向上させています

複数指標評価

単語誤り率(WER)と文字誤り率(CER)を同時に評価し、モデルの性能を包括的に測定します

モデル能力

タイ語音声認識

音声からテキストへの変換

複数指標による性能評価

使用事例

音声書き起こし

タイ語音声文字起こし

タイ語音声コンテンツをテキストに変換します

CommonVoice V8テストセットで12.58% WER(newmmトークン)を達成

音声アシスタント

タイ語音声コマンド認識

タイ語音声アシスタントやスマートデバイスのコマンド認識に使用されます

🚀 コモンボイスV8を用いたタイ語Wav2Vec2（newmmトークナイザ）+ 言語モデル

このモデルは、airesearch/wav2vec2-large-xlsr-53-th で使用されていたCommonVoice V7データセットのデータを増やしたCommonVoice V8データセットを用いて学習されました。wav2vec2-large-xlsr-53 をファインチューニングしたものです。

✨ 主な機能

言語: タイ語
タグ: 自動音声認識
ライセンス: apache-2.0
データセット: CommonVoice
評価指標: WER、CER

📚 ドキュメント

🔍 モデルの説明

技術レポート: Thai Wav2Vec2.0 with CommonVoice V8

📦 データセット

Common Voice V8データセットから新しいデータを追加するか、Common Voice V7データセットのすべてのデータを削除してからCommon Voice V8を分割し、その後CommonVoice V7データセットをデータセットに戻します。 ekapolc/Thai_commonvoice_split スクリプトを使用してCommon Voiceデータセットを分割します。

🤖 モデル

このモデルは、wav2vec2-large-xlsr-53 モデルをタイ語のCommon Voice V8データセットでファインチューニングしたもので、pythainlp.tokenize.word_tokenize を使用して事前トークナイズを行います。

🏋️‍♂️ 学習

vistec-AI/wav2vec2-large-xlsr-53-th の多くのコードを使用し、vistec-AI/wav2vec2-large-xlsr-53-th#2 で学習コードのバグを修正しました。

🧪 評価

CommonVoice V8テストセットでのテスト

モデル	newmmによるWER (%)	deepcutによるWER (%)	CER
AIResearch.in.thとPyThaiNLP	17.414503	11.923089	3.854153
deepcutを使用したwav2vec2	16.354521	11.424476	3.684060
newmmを使用したwav2vec2	16.698299	11.436941	3.737407
deepcut + 言語モデルを使用したwav2vec2	12.630260	9.613886	3.292073
newmm + 言語モデルを使用したwav2vec2	12.583706	9.598305	3.276610

CommonVoice V7テストセットでのテスト（CV V7と同じテスト）

モデル	newmmによるWER (%)	deepcutによるWER (%)	CER
AIResearch.in.thとPyThaiNLP	13.936698	9.347462	2.804787
deepcutを使用したwav2vec2	12.776381	8.773006	2.628882
newmmを使用したwav2vec2	12.750596	8.672616	2.623341
deepcut + 言語モデルを使用したwav2vec2	9.940050	7.423313	2.344940
newmm + 言語モデルを使用したwav2vec2	9.559724	7.339654	2.277071

これは、https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th と同じテストセットを使用しています。

リンク:

GitHubデータセット: https://github.com/wannaphong/thai_commonvoice_dataset
技術レポート: Thai Wav2Vec2.0 with CommonVoice V8

📄 ライセンス

このプロジェクトは、apache-2.0ライセンスの下で公開されています。

📖 BibTeXエントリと引用情報

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}