multilingual-distilwhisper-28k開源多語言自動語音識別模型

首頁

Multilingual Distilwhisper 28k

由naver開發

基於whisper-small模型改進的多語言自動語音識別模型，通過CLSR模塊和知識蒸餾提升目標語言性能

語音識別

Transformers

其他開源協議:MIT #多語言語音識別 #輕量級CLSR模塊 #知識蒸餾優化

下載量 47

發布時間 : 11/30/2023

模型概述

該模型在whisper-small基礎上添加輕量級CLSR模塊，採用交叉熵與知識蒸餾混合訓練方式，顯著提升加泰羅尼亞語、泰米爾語和泰語的自動語音識別準確率。

模型特點

多語言優化

專門針對加泰羅尼亞語、泰米爾語和泰語進行優化，顯著提升這些語言的識別準確率

知識蒸餾

使用whisper-large-v2作為教師模型進行知識蒸餾，保留大模型性能的同時減小模型規模

輕量級CLSR模塊

添加的輕量級模塊有效提升目標語言性能，同時保持模型效率

模型能力

自動語音識別

多語言語音轉文本

特定語言優化處理

使用案例

語音轉錄

多語言會議記錄

將加泰羅尼亞語、泰米爾語或泰語的會議錄音轉為文字記錄

相比原版whisper-small有更高準確率

語音助手

為目標語言地區開發語音助手應用

教育技術

語言學習應用

用於語言學習應用的發音評估和轉錄功能

屬性	詳情
模型類型	自動語音識別
訓練數據	mozilla-foundation/common_voice_13_0
支持語言	加泰羅尼亞語（ca）、泰米爾語（ta）、泰語（th）

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Multilingual Distilwhisper 28k

模型概述

模型特點

模型能力

使用案例

🚀 多語言Distilwhisper

項目信息

🚀 快速開始

推理代碼

📚 詳細文檔

📄 許可證

📚 引用信息