whisper-large-v2-punjabiオープンソースモデル - 無料でパンジャブ語の自動音声認識を実現

ホーム

Whisper Large V2 Punjabi

DrishtiSharmaによって開発

OpenAI Whisper-large-v2をファインチューニングしたパンジャーブ語自動音声認識モデル、Common Voice 11.0データセットでトレーニング

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #パンジャーブ語音声認識 #低単語誤り率 #多言語サポート

ダウンロード数 27

リリース時間 : 12/15/2022

モデル概要

本モデルはパンジャーブ語に最適化された自動音声認識(ASR)モデルで、OpenAIのWhisper-large-v2アーキテクチャを基にファインチューニングされています。パンジャーブ語の音声からテキストへの変換タスクに適しています。

モデル特徴

高精度パンジャーブ語認識

Common Voice 11.0テストセットで19.71%の単語誤り率(WER)を達成

Whisperアーキテクチャ採用

OpenAI Whisper-large-v2の強力なベースモデルをファインチューニング

オープンソースライセンス

Apache 2.0ライセンスを採用し、商用・研究利用が可能

モデル能力

パンジャーブ語音声認識

音声からテキストへの変換

長時間音声処理

使用事例

音声文字起こし

パンジャーブ語コンテンツの文字起こし

パンジャーブ語のポッドキャスト、インタビューなどの音声コンテンツをテキストに変換

約80.29%の精度 (WER計算に基づく)

支援技術

パンジャーブ語字幕生成

パンジャーブ語動画に自動で字幕を生成

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.0004	8.26	1000	0.2846	19.7125

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Large V2 Punjabi

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Whisper Large Punjabi - Drishti Sharma

📚 ドキュメント

モデルの概要

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークバージョン

📄 ライセンス