W

Whisper Large V3 Distil It V0.2

bofenghuangによって開発
イタリア語に最適化された2層デコーダー蒸留版Whisper音声テキスト変換モデル、効率向上と精度維持を両立
ダウンロード数 129
リリース時間 : 8/22/2024

モデル概要

OpenAI Whisper-Large-V3を基にしたイタリア語最適化版、2層デコーダー蒸留技術を採用し、音声認識精度を維持しながら推論速度を大幅向上。複数の推論フレームワークに対応、リアルタイム音声テキスト変換アプリケーションに適しています。

モデル特徴

高効率蒸留アーキテクチャ
2層デコーダーのみ保持、パラメーター数51%削減、推論速度5.8倍向上
長文最適化
30秒音声フラグメント訓練を拡張、長文転写能力を維持
マルチフレームワーク互換
transformers、openai-whisper、faster-whisperなど複数の推論フレームワークをサポート
推測デコードサポート
ドラフトモデルとして完全版Whisperと連携可能、2倍加速かつ出力一致を実現

モデル能力

イタリア語音声認識
長音声転写
リアルタイム音声テキスト変換
マルチフレームワーク展開

使用事例

音声転写
会議議録自動化
イタリア語会議録音を自動的に文字記録に変換
単語誤り率(WER)が同類蒸留モデルより優れる
メディア字幕生成
イタリア語動画コンテンツ向けに正確な字幕を生成
30秒までの音声フラグメント処理をサポート
リアルタイムアプリケーション
リアルタイム音声翻訳フロントエンド
音声認識モジュールとしてリアルタイム翻訳システムに統合
5.8倍速度向上でリアルタイムシナリオに適応
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase