wav2vec2-large-xlsr-53-th-cv8-deepcut開源泰語語音識別模型，精準識別超實用！

首頁

Wav2vec2 Large Xlsr 53 Th Cv8 Deepcut

由wannaphong開發

該模型是基於CommonVoice V8數據集訓練的泰語自動語音識別模型，結合了deepcut分詞器和語言模型以提高識別準確率。

語音識別

Transformers

其他開源協議:Apache-2.0 #泰語語音識別 #低詞錯誤率 #deepcut分詞

下載量 504

發布時間 : 6/7/2022

模型概述

該模型使用泰語CommonVoice V8數據集對wav2vec2-large-xlsr-53進行微調，專門用於泰語語音識別任務，支持deepcut分詞器並整合了語言模型以提高性能。

模型特點

結合語言模型

整合語言模型顯著提高了識別準確率，在測試集上WER降低約3%。

支持多種分詞器

支持deepcut和newmm兩種泰語分詞器，可根據需求選擇最佳分詞方式。

多數據集訓練

結合CommonVoice V7和V8數據集進行訓練，提高了模型泛化能力。

模型能力

泰語語音識別

支持多種分詞方式

高準確率語音轉文本

使用案例

語音轉寫

泰語語音轉錄

將泰語語音內容轉換為文本

在CommonVoice V8測試集上達到9.61% WER

語音助手

泰語語音指令識別

用於泰語語音助手的指令識別系統

🚀 泰語Wav2Vec2與CommonVoice V8（deepcut分詞器）+ 語言模型

本模型旨在解決泰語自動語音識別的問題，通過結合CommonVoice V8數據集和語言模型，提升了語音識別的準確性和效率，為泰語語音處理提供了更強大的工具。

✨ 主要特性

基於CommonVoice V8數據集進行訓練，增加了來自CommonVoice V7數據集的數據。
微調了wav2vec2-large-xlsr-53模型。
使用deepcut分詞器進行預分詞。

📦 安裝指南

文檔未提供具體安裝步驟，故跳過此章節。

📚 詳細文檔

模型描述

技術報告：Thai Wav2Vec2.0 with CommonVoice V8

數據集

本模型在Common Voice V7數據集的基礎上增加了Common Voice V8數據集的新數據，或者在分割Common Voice V8數據集之前移除Common Voice V7數據集中的所有數據，然後再將CommonVoice V7數據集添加回數據集中。

使用ekapolc/Thai_commonvoice_split腳本對Common Voice數據集進行分割。

模型

本模型使用泰語Common Voice V8數據集對wav2vec2-large-xlsr-53模型進行微調，並使用deepcut.tokenize進行預分詞。

評估

使用CommonVoice V8測試集進行測試

模型	newmm的WER (%)	deepcut的WER (%)	CER
AIResearch.in.th和PyThaiNLP	17.414503	11.923089	3.854153
帶deepcut的wav2vec2	16.354521	11.424476	3.684060
帶newmm的wav2vec2	16.698299	11.436941	3.737407
帶deepcut + 語言模型的wav2vec2	12.630260	9.613886	3.292073
帶newmm + 語言模型的wav2vec2	12.583706	9.598305	3.276610

使用CommonVoice V7測試集進行測試（與CV V7的測試相同）

模型	newmm的WER (%)	deepcut的WER (%)	CER
AIResearch.in.th和PyThaiNLP	13.936698	9.347462	2.804787
帶deepcut的wav2vec2	12.776381	8.773006	2.628882
帶newmm的wav2vec2	12.750596	8.672616	2.623341
帶deepcut + 語言模型的wav2vec2	9.940050	7.423313	2.344940
帶newmm + 語言模型的wav2vec2	9.559724	7.339654	2.277071

此測試使用了來自https://huggingface.co/airesearch/wav2vec2-large-xlsr-53-th的相同測試集。

鏈接：

GitHub數據集：https://github.com/wannaphong/thai_commonvoice_dataset
技術報告：Thai Wav2Vec2.0 with CommonVoice V8

🔧 技術細節

文檔未提供具體技術細節，故跳過此章節。

📄 許可證

本模型採用Apache 2.0許可證。

📖 BibTeX引用和引用信息

@misc{phatthiyaphaibun2022thai,
      title={Thai Wav2Vec2.0 with CommonVoice V8}, 
      author={Wannaphong Phatthiyaphaibun and Chompakorn Chaksangchaichot and Peerat Limkonchotiwat and Ekapol Chuangsuwanich and Sarana Nutanong},
      year={2022},
      eprint={2208.04799},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}