wav2vec2-large-xls-r-300m-hindi-epochs15-colabオープンソースモデル - 無料でヒンディー語音声認識を実現

ホーム

Wav2vec2 Large Xls R 300m Hindi Epochs15 Colab

vai6havによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをcommon_voiceデータセットで微調整した音声認識モデルで、ヒンディー語をサポートしています。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #低い単語誤り率 #XLS-Rアーキテクチャ

ダウンロード数 17

リリース時間 : 6/18/2022

モデル概要

このモデルはヒンディー語音声認識タスク向けに最適化されたwav2vec2モデルで、common_voiceデータセットで15エポックの微調整を行いました。

モデル特徴

大規模事前学習モデルベース

facebook/wav2vec2-xls-r-300m事前学習モデルを基にしており、強力な音声特徴抽出能力を有しています

ヒンディー語最適化

ヒンディー語に特化して微調整されており、ヒンディー語音声認識タスクに適しています

効率的なトレーニング

Google Colab環境で15エポックのトレーニングを完了し、検証損失は3.5705に達しました

モデル能力

ヒンディー語音声認識

音声からテキストへの変換

使用事例

音声文字起こし

ヒンディー語音声からテキストへ

ヒンディー語の音声内容をテキストに変換します

単語誤り率(WER)は1.0

音声アシスタント

ヒンディー語音声コマンド認識

ヒンディー語音声アシスタントや制御システムの音声コマンド認識に使用できます

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
20.2764	5.53	50	8.1197	1.0
5.2964	11.11	100	3.5705	1.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Xls R 300m Hindi Epochs15 Colab

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-large-xls-r-300m-hindi-epochs15-colab

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習結果

フレームワークバージョン

📄 ライセンス