distill-whisper-th-medium開源泰語語音識別模型

首頁

Distill Whisper Th Medium

由biodatlab開發

基於Whisper架構的蒸餾版自動語音識別模型，專為泰語優化，性能與效率兼備

語音識別

Transformers

開源協議:MIT #泰語語音識別 #蒸餾模型 #方言優化

下載量 303

發布時間 : 1/16/2024

模型概述

這是一個專為泰語語音識別設計的蒸餾版Whisper模型，通過從大型教師模型蒸餾而來，在保持較高識別準確率的同時提升了效率。

模型特點

高效蒸餾架構

採用4層解碼器結構(原教師模型為24層)，在保持性能的同時顯著提升效率

泰語優化

專門針對泰語語音特點進行優化訓練

多源訓練數據

使用包括Common Voice、Gowajee、泰國老年人語音語料庫等多來源數據進行訓練

方言支持

包含泰中方言等方言數據，提升對方言的識別能力

模型能力

泰語語音識別

方言識別

高效語音轉文本

使用案例

語音轉寫

泰語會議記錄

將泰語會議內容即時轉寫為文本

語音筆記

將泰語語音筆記轉換為可搜索的文本

無障礙應用

聽力輔助

為聽力障礙者提供即時字幕

🚀 泰語蒸餾中型Whisper自動語音識別模型

這是一款基於Whisper架構的蒸餾自動語音識別（ASR）模型，專為泰語語音識別量身定製。該模型通過從更大的教師模型中進行蒸餾，擁有4個解碼器層（教師模型為24個），著重提升了性能和效率。

✨ 主要特性

基於Whisper架構，專為泰語語音識別設計。
從大型教師模型蒸餾而來，擁有4個解碼器層，兼顧性能與效率。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

蒸餾詳情

教師模型：中型Whisper ASR模型
蒸餾所用數據集：
- Common Voice v13
- Gowajee
- 泰語老年人語音語料庫
- 自定義爬取數據
- 來自 SLSCU泰語方言語料庫的泰語中部方言

模型性能

Common Voice 13測試集上DeepCut分詞後的字錯率（WER）：
- 蒸餾模型：7.58%
- 教師模型：7.42%

使用更多蒸餾數據集或增加解碼器層數可能會降低字錯率，更多優化敬請期待！

預期用途

本模型適用於需要泰語語音識別的應用程序。

侷限性

該模型專為泰語訓練，對其他語言的識別效果可能不佳。
在不同的泰語方言和口音下，性能可能會有所差異。
與任何ASR系統一樣，背景噪音和語音清晰度會影響識別準確率。

致謝

本模型的開發使用了語音和語言技術社區提供的資源和數據集。特別感謝Common Voice、Gowajee、SLSCU和泰語老年人語音語料庫背後的團隊提供的寶貴數據集。

框架版本

屬性	詳情
模型類型	泰語蒸餾中型Whisper自動語音識別模型
訓練數據	Common Voice v13、Gowajee、泰語老年人語音語料庫、自定義爬取數據、來自 SLSCU泰語方言語料庫的泰語中部方言
Transformers版本	4.35.2
Pytorch版本	2.1.2
Datasets版本	2.16.1
Tokenizers版本	0.15.0

引用

使用Bibtex引用：

@inproceedings{aung-etal-2024-thonburian,
    title = "Thonburian Whisper: Robust Fine-tuned and Distilled Whisper for {T}hai",
    author = "Aung, Zaw Htet  and
      Thavornmongkol, Thanachot  and
      Boribalburephan, Atirut  and
      Tangsriworakan, Vittavas  and
      Pipatsrisawat, Knot  and
      Achakulvisut, Titipat",
    editor = "Abbas, Mourad  and
      Freihat, Abed Alhakim",
    booktitle = "Proceedings of the 7th International Conference on Natural Language and Speech Processing (ICNLSP 2024)",
    month = oct,
    year = "2024",
    address = "Trento",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.icnlsp-1.17",
    pages = "149--156",
}