K

Kotoba Whisper V2.0

kotoba-techによって開発
Kotoba-WhisperはAsahi UshioとKotoba Technologiesが共同開発した日本語自動音声認識蒸留モデルで、Whisper large-v3を蒸留しており、推論速度が6.3倍向上しています。
ダウンロード数 8,108
リリース時間 : 9/17/2024

モデル概要

日本語自動音声認識モデルで、知識蒸留技術によりWhisper large-v3モデルを最適化し、類似のエラー率を維持しながら推論速度を大幅に向上させています。

モデル特徴

効率的な推論
オリジナルのWhisper large-v3と比較して、推論速度が6.3倍向上
高性能
ReazonSpeechなどの日本語データセットでCER/WERがオリジナルモデルを上回る
大規模トレーニング
720万以上の日本語音声-テキストペアを使用してトレーニング

モデル能力

日本語音声からテキストへの変換
長音声のセグメント処理
Flash Attention 2による加速サポート

使用事例

音声文字起こし
テレビ番組字幕生成
日本のテレビ番組音声を処理して正確な字幕を生成
ReazonSpeechテストセットでCER 11.6/WER 55.6
音声アシスタント
日本語音声アシスタントに高速で正確な音声認識能力を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase