whisper-large-khmer-asrオープンソースモデル - 無料でクメール語の自動音声認識を実現！

ホーム

Whisper Large Khmer Asr

ksokyによって開発

OpenAI Whisper Largeモデルをファインチューニングしたクメール語自動音声認識モデル、SLR42データセットでトレーニング済み

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #クメール語音声認識 #低い単語誤り率 #多言語サポート

ダウンロード数 37

リリース時間 : 11/17/2022

モデル概要

本モデルはWhisper Largeのクメール語ファインチューニング版で、クメール語音声認識タスク専用です。SLR42テストセットで29.52%の単語誤り率を達成しました。

モデル特徴

クメール語最適化

クメール語の音声特性に特化してファインチューニングし、認識精度を向上

Whisperアーキテクチャベース

OpenAI Whisperの強力な音声認識能力をベースモデルとして利用

オープンソースライセンス

Apache 2.0ライセンスを採用し、商用・研究利用を許可

モデル能力

クメール語音声認識

音声からテキストへの変換

使用事例

音声書き起こし

クメール語会議議事録

クメール語の会議録音を自動的に文字記録に変換

単語誤り率約29.5%

メディア字幕生成

クメール語動画コンテンツの自動字幕生成

音声アシスタント

クメール語音声コマンド認識

クメール語音声アシスタントシステムでのコマンド認識に使用

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.0102	12.34	1000	0.2228	38.2659
0.0003	24.69	2000	0.2260	30.7900
0.0001	37.04	3000	0.2310	30.0578
0.0	49.38	4000	0.2375	29.5183

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Large Khmer Asr

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Whisper Large Khmer - Kak Soky

📚 ドキュメント

モデルの概要

想定される用途と制限事項

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス