training-v2オープンソース音声認識モデル - 無料でデプロイ可能、ロシア語の音声内容を高精度で認識

ホーム

Training V2

SofiaKによって開発

OpenAI Whisper-baseモデルをCommon Voice 11.0ロシア語データセットでファインチューニングした音声認識モデル

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語音声認識 #低い単語誤り率 #Common Voiceファインチューニング

ダウンロード数 15

リリース時間 : 12/3/2023

モデル概要

これはロシア語に最適化された自動音声認識(ASR)モデルで、ロシア語音声をテキストに変換できます

モデル特徴

ロシア語最適化

Common Voiceロシア語データセットでファインチューニングされ、ロシア語音声認識に最適化されています

高性能

単語誤り率(WER)は25.19%で、ロシア語音声認識タスクで良好な性能を発揮します

Whisperアーキテクチャ採用

OpenAI Whisperの先進的な音声認識アーキテクチャを採用しています

モデル能力

ロシア語音声認識

音声からテキストへの変換

自動音声転写

使用事例

音声転写

ロシア語会議議事録

ロシア語会議録音を自動的に文字記録に変換

25.19%の単語誤り率

音声アシスタント

ロシア語音声アシスタントアプリケーションの音声認識コンポーネントとして使用

メディア処理

ロシア語動画字幕生成

ロシア語動画コンテンツに自動的に字幕を生成

学習損失	エポック	ステップ	検証損失	Wer
0.2994	0.49	1000	0.3700	31.3019
0.2607	0.98	2000	0.3214	27.6778
0.1318	1.48	3000	0.3026	26.1136
0.1249	1.97	4000	0.2903	25.1905

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Training V2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Whisper Base Ru - Swedish

✨ 主な機能

📦 インストール

💻 使用例

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス