whisper-large-v3-japanese-4k-stepsオープンソース音声認識モデル

Whisper Large V3 Japanese 4k Steps

drewschaubによって開発

openai/whisper-large-v3をベースにCommon Voice 16.1日本語データセットでファインチューニングした音声認識モデル、4000ステップ訓練

ダウンロード数 94

リリース時間 : 2/17/2024

モデル概要

これは日本語音声認識モデルで、特に日本語音声に最適化されています。OpenAIのWhisper-large-v3アーキテクチャを基に、Mozilla Common Voice 16.1日本語データセットで4000ステップのファインチューニング訓練を行いました。

日本語音声認識最適化

特に日本語音声向けにファインチューニングされており、日本語音声の認識精度が向上しています

Whisper-large-v3ベース

強力なWhisper-large-v3アーキテクチャを基盤としており、優れた音声認識能力を継承しています

Common Voiceデータセット訓練

Mozilla Common Voice 16.1日本語データセットを使用して訓練されており、信頼性の高いデータソースです

日本語音声認識

音声からテキストへの変換

音声文字起こし

日本語会議議事録

日本語会議の録音を自動的に文字起こし

日本語ポッドキャスト文字起こし

日本語ポッドキャストの内容をテキスト形式に変換

音声アシスタント

日本語音声コマンド認識

日本語音声アシスタントシステムでの音声コマンド認識に使用

プロパティ	詳細
モデルタイプ	このモデルは、Common Voice 16.1データセットでファインチューニングされた openai/whisper-large-v3 のバージョンです。
学習データ	mozilla-foundation/common_voice_16_1
評価指標	Wer