multilingual-distilwhisper-28kオープンソース多言語自動音声認識モデル - 無料でターゲット言語の認識性能を向上させる

ホーム

Multilingual Distilwhisper 28k

naverによって開発

whisper-smallモデルをベースに改良した多言語自動音声認識モデル。CLSRモジュールと知識蒸留により対象言語の性能を向上

音声認識

Transformers

その他オープンソースライセンス:MIT #多言語音声認識 #軽量CLSRモジュール #知識蒸留による最適化

ダウンロード数 47

リリース時間 : 11/30/2023

モデル概要

このモデルはwhisper-smallを基盤に軽量CLSRモジュールを追加し、クロスエントロピーと知識蒸留を組み合わせたトレーニング方式を採用。カタルーニャ語、タミル語、タイ語の自動音声認識精度を大幅に向上させています。

モデル特徴

多言語最適化

カタルーニャ語、タミル語、タイ語に特化して最適化され、これらの言語の認識精度を大幅に向上

知識蒸留

whisper-large-v2を教師モデルとして知識蒸留を実施。大規模モデルの性能を維持しつつモデルサイズを縮小

軽量CLSRモジュール

追加された軽量モジュールが対象言語の性能を効果的に向上させ、モデルの効率性を維持

モデル能力

自動音声認識

多言語音声テキスト変換

特定言語向け最適化処理

使用事例

音声文字起こし

多言語会議議事録

カタルーニャ語、タミル語、タイ語の会議録音を文字記録に変換

オリジナルのwhisper-smallと比較して高い精度を実現

音声アシスタント

対象言語地域向けの音声アシスタントアプリケーション開発

教育技術

言語学習アプリ

言語学習アプリのための発音評価と文字起こし機能に利用

属性	详情
モデルタイプ	自動音声認識（Automatic Speech Recognition）
トレーニングデータ	mozilla-foundation/common_voice_13_0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Multilingual Distilwhisper 28k

モデル概要

モデル特徴

モデル能力

使用事例

🚀 マルチリンガルDistilwhisper

🚀 クイックスタート

✨ 主な機能

📦 インストール

📚 ドキュメント

モデル情報

引用情報

📄 ライセンス