whisper-large-v3-ft-cv16-mnオープンソース音声認識モデル

ホーム

Whisper Large V3 Ft Cv16 Mn

sanchit-gandhiによって開発

Common Voice 16.0データセットで微調整されたOpenAI Whisper Large V3モデルに基づく音声認識モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #多言語音声認識 #低い単語誤り率 #大規模事前学習

ダウンロード数 34

リリース時間 : 1/22/2024

モデル概要

このモデルはOpenAI Whisper Large V3の微調整バージョンで、自動音声認識(ASR)タスクに特化しており、Common Voiceデータセットで35.22%の単語誤り率を達成しました。

モデル特徴

高精度音声認識

Common Voiceテストセットで35.22%の単語誤り率を達成し、優れた性能を発揮

多言語サポート

Whisperアーキテクチャに基づき、複数言語を処理する能力を備える

効率的な微調整

基本モデルに対して特定領域の認識精度向上を目的とした訓練を実施

モデル能力

音声からテキストへ

多言語音声認識

長時間音声処理

使用事例

音声文字起こし

会議議録自動生成

会議録音を自動的に文字記録に変換

約65%の精度(WER指標に基づく推測)

ポッドキャスト字幕生成

ポッドキャストコンテンツの自動字幕生成

支援技術

聴覚障害者支援

リアルタイム音声文字変換による聴覚障害者サポート

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.1552	4.35	500	0.5883	51.6576
0.007	8.7	1000	0.4691	35.2228

属性	詳情
ベースモデル	openai/whisper-large-v3
データセット	common_voice_16_0
評価指標	wer

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Large V3 Ft Cv16 Mn

モデル概要

モデル特徴

モデル能力

使用事例

🚀 openai/whisper-large-v3

📚 ドキュメント

トレーニング手順

トレーニングハイパーパラメータ

トレーニング結果

フレームワークバージョン

📄 ライセンス

📦 モデル情報