K

Kotoba Whisper V2.0

Developed by kotoba-tech
Kotoba-WhisperはAsahi UshioとKotoba Technologiesが共同開発した日本語自動音声認識蒸留モデルで、Whisper large-v3を蒸留しており、推論速度が6.3倍向上しています。
Downloads 8,108
Release Time : 9/17/2024

Model Overview

日本語自動音声認識モデルで、知識蒸留技術によりWhisper large-v3モデルを最適化し、類似のエラー率を維持しながら推論速度を大幅に向上させています。

Model Features

効率的な推論
オリジナルのWhisper large-v3と比較して、推論速度が6.3倍向上
高性能
ReazonSpeechなどの日本語データセットでCER/WERがオリジナルモデルを上回る
大規模トレーニング
720万以上の日本語音声-テキストペアを使用してトレーニング

Model Capabilities

日本語音声からテキストへの変換
長音声のセグメント処理
Flash Attention 2による加速サポート

Use Cases

音声文字起こし
テレビ番組字幕生成
日本のテレビ番組音声を処理して正確な字幕を生成
ReazonSpeechテストセットでCER 11.6/WER 55.6
音声アシスタント
日本語音声アシスタントに高速で正確な音声認識能力を提供
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase