W

Whisper Large V3 Ft Cv16 Mn

sanchit-gandhiによって開発
Common Voice 16.0データセットで微調整されたOpenAI Whisper Large V3モデルに基づく音声認識モデル
ダウンロード数 34
リリース時間 : 1/22/2024

モデル概要

このモデルはOpenAI Whisper Large V3の微調整バージョンで、自動音声認識(ASR)タスクに特化しており、Common Voiceデータセットで35.22%の単語誤り率を達成しました。

モデル特徴

高精度音声認識
Common Voiceテストセットで35.22%の単語誤り率を達成し、優れた性能を発揮
多言語サポート
Whisperアーキテクチャに基づき、複数言語を処理する能力を備える
効率的な微調整
基本モデルに対して特定領域の認識精度向上を目的とした訓練を実施

モデル能力

音声からテキストへ
多言語音声認識
長時間音声処理

使用事例

音声文字起こし
会議議録自動生成
会議録音を自動的に文字記録に変換
約65%の精度(WER指標に基づく推測)
ポッドキャスト字幕生成
ポッドキャストコンテンツの自動字幕生成
支援技術
聴覚障害者支援
リアルタイム音声文字変換による聴覚障害者サポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase