distill-whisper-th-medium开源泰语语音识别模型

首页

Distill Whisper Th Medium

由 biodatlab 开发

基于Whisper架构的蒸馏版自动语音识别模型，专为泰语优化，性能与效率兼备

语音识别

Transformers

开源协议:MIT #泰语语音识别 #蒸馏模型 #方言优化

下载量 303

发布时间 : 1/16/2024

模型简介

这是一个专为泰语语音识别设计的蒸馏版Whisper模型，通过从大型教师模型蒸馏而来，在保持较高识别准确率的同时提升了效率。

模型特点

高效蒸馏架构

采用4层解码器结构(原教师模型为24层)，在保持性能的同时显著提升效率

泰语优化

专门针对泰语语音特点进行优化训练

多源训练数据

使用包括Common Voice、Gowajee、泰国老年人语音语料库等多来源数据进行训练

方言支持

包含泰中方言等方言数据，提升对方言的识别能力

模型能力

泰语语音识别

方言识别

高效语音转文本

使用案例

语音转写

泰语会议记录

将泰语会议内容实时转写为文本

语音笔记

将泰语语音笔记转换为可搜索的文本

无障碍应用

听力辅助

为听力障碍者提供实时字幕

🚀 泰语蒸馏中型Whisper自动语音识别模型

这是一款基于Whisper架构的蒸馏自动语音识别（ASR）模型，专为泰语语音识别量身定制。该模型通过从更大的教师模型中进行蒸馏，拥有4个解码器层（教师模型为24个），着重提升了性能和效率。

✨ 主要特性

基于Whisper架构，专为泰语语音识别设计。
从大型教师模型蒸馏而来，拥有4个解码器层，兼顾性能与效率。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

蒸馏详情

教师模型：中型Whisper ASR模型
蒸馏所用数据集：
- Common Voice v13
- Gowajee
- 泰语老年人语音语料库
- 自定义爬取数据
- 来自 SLSCU泰语方言语料库的泰语中部方言

模型性能

Common Voice 13测试集上DeepCut分词后的字错率（WER）：
- 蒸馏模型：7.58%
- 教师模型：7.42%

使用更多蒸馏数据集或增加解码器层数可能会降低字错率，更多优化敬请期待！

预期用途

本模型适用于需要泰语语音识别的应用程序。

局限性

该模型专为泰语训练，对其他语言的识别效果可能不佳。
在不同的泰语方言和口音下，性能可能会有所差异。
与任何ASR系统一样，背景噪音和语音清晰度会影响识别准确率。

致谢

本模型的开发使用了语音和语言技术社区提供的资源和数据集。特别感谢Common Voice、Gowajee、SLSCU和泰语老年人语音语料库背后的团队提供的宝贵数据集。

框架版本

属性	详情
模型类型	泰语蒸馏中型Whisper自动语音识别模型
训练数据	Common Voice v13、Gowajee、泰语老年人语音语料库、自定义爬取数据、来自 SLSCU泰语方言语料库的泰语中部方言
Transformers版本	4.35.2
Pytorch版本	2.1.2
Datasets版本	2.16.1
Tokenizers版本	0.15.0

引用

使用Bibtex引用：

@inproceedings{aung-etal-2024-thonburian,
    title = "Thonburian Whisper: Robust Fine-tuned and Distilled Whisper for {T}hai",
    author = "Aung, Zaw Htet  and
      Thavornmongkol, Thanachot  and
      Boribalburephan, Atirut  and
      Tangsriworakan, Vittavas  and
      Pipatsrisawat, Knot  and
      Achakulvisut, Titipat",
    editor = "Abbas, Mourad  and
      Freihat, Abed Alhakim",
    booktitle = "Proceedings of the 7th International Conference on Natural Language and Speech Processing (ICNLSP 2024)",
    month = oct,
    year = "2024",
    address = "Trento",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.icnlsp-1.17",
    pages = "149--156",
}