wav2vec2-large-xlsr-53-th-cv8-newmm開源泰語語音識別模型

首頁

Wav2vec2 Large Xlsr 53 Th Cv8 Newmm

由wannaphong開發

該模型是基於CommonVoice V8數據集訓練的泰語自動語音識別模型，採用wav2vec2-large-xlsr-53架構，使用newmm分詞器並整合語言模型，顯著提升了泰語語音識別準確率。

語音識別

Transformers

其他開源協議:Apache-2.0 #泰語語音識別 #低詞錯誤率 #多分詞器支持

下載量 6,486

發布時間 : 6/6/2022

模型概述

該模型專門針對泰語語音識別任務優化，通過結合CommonVoice V8數據集和語言模型，在詞錯誤率(WER)和字符錯誤率(CER)上表現出色。

模型特點

改進的數據集

使用CommonVoice V8數據集，相比V7版本數據量更大，訓練效果更優

優化的分詞處理

採用newmm分詞器進行預分詞處理，針對泰語特性優化

語言模型整合

結合語言模型進一步提升識別準確率

多指標評估

同時評估詞錯誤率(WER)和字符錯誤率(CER)，全面衡量模型性能

模型能力

泰語語音識別

語音轉文本

多指標性能評估

使用案例

語音轉寫

泰語語音轉錄

將泰語語音內容轉換為文本

在CommonVoice V8測試集上達到12.58% WER(newmm分詞)

語音助手

泰語語音指令識別

用於泰語語音助手或智能設備的指令識別

🚀 泰語Wav2Vec2與CommonVoice V8（newmm分詞器）+ 語言模型

本模型利用CommonVoice V8數據集進行訓練，通過從CommonVoice V7數據集中增加數據而來，該數據集曾被用於airesearch/wav2vec2-large-xlsr-53-th。它對wav2vec2-large-xlsr-53進行了微調。

🔍 模型信息

屬性	詳情
語言	泰語
標籤	自動語音識別
許可證	Apache-2.0
數據集	CommonVoice
評估指標	詞錯誤率（WER）、字符錯誤率（CER）

🚀 快速開始

本模型主要用於泰語的自動語音識別任務，通過結合CommonVoice V8數據集和語言模型，提升了識別的準確性。

📚 詳細文檔

模型描述

技術報告：Thai Wav2Vec2.0 with CommonVoice V8

數據集

該模型在Common Voice V7數據集的基礎上增加了Common Voice V8數據集的新數據，或者在分割Common Voice V8之前移除Common Voice V7中的所有數據，然後再將CommonVoice V7數據集添加回數據集中。使用ekapolc/Thai_commonvoice_split腳本對Common Voice數據集進行分割。

模型

該模型對wav2vec2-large-xlsr-53模型進行了微調，使用泰語Common Voice V8數據集，並使用pythainlp.tokenize.word_tokenize進行預分詞。

訓練

訓練過程中使用了vistec-AI/wav2vec2-large-xlsr-53-th中的許多代碼，並修復了vistec-AI/wav2vec2-large-xlsr-53-th#2中的訓練代碼錯誤。

評估

使用CommonVoice V8測試集進行測試

模型	newmm分詞的詞錯誤率（%）	deepcut分詞的詞錯誤率（%）	字符錯誤率
AIResearch.in.th和PyThaiNLP	17.414503	11.923089	3.854153
wav2vec2 with deepcut	16.354521	11.424476	3.684060
wav2vec2 with newmm	16.698299	11.436941	3.737407
wav2vec2 with deepcut + 語言模型	12.630260	9.613886	3.292073
wav2vec2 with newmm + 語言模型	12.583706	9.598305	3.276610

使用CommonVoice V7測試集進行測試（與CV V7測試相同）

模型	newmm分詞的詞錯誤率（%）	deepcut分詞的詞錯誤率（%）	字符錯誤率
AIResearch.in.th和PyThaiNLP	13.936698	9.347462	2.804787
wav2vec2 with deepcut	12.776381	8.773006	2.628882
wav2vec2 with newmm	12.750596	8.672616	2.623341
wav2vec2 with deepcut + 語言模型	9.940050	7.423313	2.344940
wav2vec2 with newmm + 語言模型	9.559724	7.339654	2.277071

此測試使用了與https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th相同的測試集。

鏈接：

GitHub數據集：https://github.com/wannaphong/thai_commonvoice_dataset
技術報告：Thai Wav2Vec2.0 with CommonVoice V8

BibTeX引用信息

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}