multilingual-distilwhisper-28k开源多语言自动语音识别模型

首页

Multilingual Distilwhisper 28k

由 naver 开发

基于whisper-small模型改进的多语言自动语音识别模型，通过CLSR模块和知识蒸馏提升目标语言性能

语音识别

Transformers

其他开源协议:MIT #多语言语音识别 #轻量级CLSR模块 #知识蒸馏优化

下载量 47

发布时间 : 11/30/2023

模型简介

该模型在whisper-small基础上添加轻量级CLSR模块，采用交叉熵与知识蒸馏混合训练方式，显著提升加泰罗尼亚语、泰米尔语和泰语的自动语音识别准确率。

模型特点

多语言优化

专门针对加泰罗尼亚语、泰米尔语和泰语进行优化，显著提升这些语言的识别准确率

知识蒸馏

使用whisper-large-v2作为教师模型进行知识蒸馏，保留大模型性能的同时减小模型规模

轻量级CLSR模块

添加的轻量级模块有效提升目标语言性能，同时保持模型效率

模型能力

自动语音识别

多语言语音转文本

特定语言优化处理

使用案例

语音转录

多语言会议记录

将加泰罗尼亚语、泰米尔语或泰语的会议录音转为文字记录

相比原版whisper-small有更高准确率

语音助手

为目标语言地区开发语音助手应用

教育技术

语言学习应用

用于语言学习应用的发音评估和转录功能

属性	详情
模型类型	自动语音识别
训练数据	mozilla-foundation/common_voice_13_0
支持语言	加泰罗尼亚语（ca）、泰米尔语（ta）、泰语（th）

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

Multilingual Distilwhisper 28k

模型简介

模型特点

模型能力

使用案例

🚀 多语言Distilwhisper

项目信息

🚀 快速开始

推理代码

📚 详细文档

📄 许可证

📚 引用信息