Malaysian Distil Whisper Large V3
M
Malaysian Distil Whisper Large V3
Developed by mesolitica
基于马来西亚数据集蒸馏优化的Whisper Large V3语音识别模型,支持马来语等多种语言
Downloads 30
Release Time : 12/30/2023
Model Overview
该模型是Whisper Large V3的蒸馏版本,专门针对马来西亚地区的语音数据进行了优化训练,提高了对马来语等当地语言的识别准确率。
Model Features
马来西亚本地化优化
使用马来西亚本地数据集训练,对马来语等当地语言有更好的识别效果
高效蒸馏模型
通过HuggingFace标准蒸馏流程优化,在保持性能的同时减小模型规模
多源训练数据
整合了IMDA官方数据集、YouTube伪标注数据、会话语料库等多种数据源
Model Capabilities
马来语语音识别
多语言语音转文本
长音频处理
Use Cases
语音转写服务
马来西亚本地媒体内容转录
为马来西亚YouTube视频、播客等内容提供自动转录服务
相比通用Whisper模型,对马来语口音和本地词汇有更好的识别率
教育辅助
马来语学习应用
用于开发马来语发音评估和语音交互学习工具
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 Chinese
R
uer
2,694
98