W

Whisper Medicalv1

Crystalcareaiによって開発
Distil-WhisperはWhisper large-v3の知識蒸留バージョンで、英語音声認識に特化し、より高速な推論速度を提供しながら、元のモデルに近い精度を維持します。
ダウンロード数 348
リリース時間 : 4/28/2024

モデル概要

これは英語音声認識に最適化された蒸留モデルで、OpenAIのWhisper large-v3を基に、大規模な擬似ラベル知識蒸留技術で訓練され、特に長形式音声の文字起こし精度が最適化されています。

モデル特徴

効率的な推論
元のWhisper large-v3より6.3倍速く、前世代のdistil-large-v2より1.1倍速い
最適化された長形式文字起こし
順序長形式アルゴリズム使用時に、より優れた長形式文字起こし精度を提供するよう特別に調整
主流ライブラリとの互換性
Whisper cpp、Faster-Whisper、OpenAI Whisperなどの人気ライブラリと互換性を持つよう設計
知識蒸留
大規模な擬似ラベル知識蒸留技術で訓練され、元のモデルに近い性能を維持

モデル能力

英語音声認識
短形式音声文字起こし(<30秒)
長形式音声文字起こし(>30秒)
順序とチャンクの2種類の長形式文字起こしアルゴリズムをサポート
セグメントレベルのタイムスタンプを提供

使用事例

音声文字起こし
会議議事録の文字起こし
会議録音を文字記録に変換
高精度で、特に長形式の会議録音に適している
ポッドキャスト文字起こし
ポッドキャスト音声コンテンツを文字に変換
長音声を迅速に処理し、高い精度を維持
メディア処理
動画字幕生成
動画コンテンツに自動的に字幕を生成
長い動画コンテンツを効率的に処理
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase