wav2vec2-large-xlsr-53-th-cv8-deepcutオープンソースタイ語音声認識モデル、高精度な認識で超実用的！

ホーム

Wav2vec2 Large Xlsr 53 Th Cv8 Deepcut

wannaphongによって開発

このモデルはCommonVoice V8データセットで訓練されたタイ語自動音声認識モデルで、deepcut分かち書きと言語モデルを組み合わせて認識精度を向上させています。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #タイ語音声認識 #低単語誤り率 #deepcut分かち書き

ダウンロード数 504

リリース時間 : 6/7/2022

モデル概要

このモデルはタイ語CommonVoice V8データセットを使用してwav2vec2-large-xlsr-53を微調整しており、タイ語音声認識タスク専用で、deepcut分かち書きをサポートし、性能向上のために言語モデルを統合しています。

モデル特徴

言語モデル統合

言語モデルを統合することで認識精度が大幅に向上し、テストセットでWERが約3%低下しました。

複数分かち書きサポート

deepcutとnewmmの2種類のタイ語分かち書きをサポートしており、ニーズに応じて最適な分かち書き方式を選択できます。

複数データセット訓練

CommonVoice V7とV8データセットを組み合わせて訓練することで、モデルの汎化能力を向上させています。

モデル能力

タイ語音声認識

複数分かち書き方式サポート

高精度音声テキスト変換

使用事例

音声書き起こし

タイ語音声転写

タイ語音声コンテンツをテキストに変換

CommonVoice V8テストセットで9.61% WERを達成

音声アシスタント

タイ語音声コマンド認識

タイ語音声アシスタントのコマンド認識システムに使用

🚀 コモンボイスV8を用いたタイ語Wav2Vec2 (deepcutトークナイザ) + 言語モデル

このモデルは、airesearch/wav2vec2-large-xlsr-53-th で使用されていたCommonVoice V7データセットのデータを増やしたCommonVoice V8データセットを用いて学習されました。wav2vec2-large-xlsr-53 をファインチューニングしたものです。

✨ 主な機能

言語: タイ語 (th)
タグ: 自動音声認識 (automatic-speech-recognition)
ライセンス: Apache-2.0
データセット: Common Voice
評価指標: 単語誤り率 (wer)、文字誤り率 (cer)

📚 ドキュメント

モデルの説明

技術レポート: Thai Wav2Vec2.0 with CommonVoice V8

データセット

Common Voice V8データセットから新しいデータを追加し、Common Voice V7データセットに加えるか、Common Voice V7データセット内のすべてのデータを削除してからCommon Voice V8を分割し、その後Common Voice V7データセットをデータセットに戻します。

Common Voiceデータセットの分割には、ekapolc/Thai_commonvoice_split スクリプトを使用しています。

モデル

このモデルは、wav2vec2-large-xlsr-53 モデルをタイ語のCommon Voice V8データセットでファインチューニングし、deepcut.tokenizeを用いた事前トークナイズを行っています。

評価

CommonVoice V8テストセットでのテスト

モデル	newmmによるWER (%)	deepcutによるWER (%)	CER
AIResearch.in.th and PyThaiNLP	17.414503	11.923089	3.854153
wav2vec2 with deepcut	16.354521	11.424476	3.684060
wav2vec2 with newmm	16.698299	11.436941	3.737407
wav2vec2 with deepcut + 言語モデル	12.630260	9.613886	3.292073
wav2vec2 with newmm + 言語モデル	12.583706	9.598305	3.276610

CommonVoice V7テストセットでのテスト (CV V7と同じテスト)

モデル	newmmによるWER (%)	deepcutによるWER (%)	CER
AIResearch.in.th and PyThaiNLP	13.936698	9.347462	2.804787
wav2vec2 with deepcut	12.776381	8.773006	2.628882
wav2vec2 with newmm	12.750596	8.672616	2.623341
wav2vec2 with deepcut + 言語モデル	9.940050	7.423313	2.344940
wav2vec2 with newmm + 言語モデル	9.559724	7.339654	2.277071

これは、https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th と同じテストセットを使用しています。

リンク:

GitHubデータセット: https://github.com/wannaphong/thai_commonvoice_dataset
技術レポート: Thai Wav2Vec2.0 with CommonVoice V8

📄 ライセンス

Apache-2.0

🔧 技術詳細

BibTeXエントリと引用情報

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}