wav2vec2-large-xls-r-300m-hindi-colabオープンソースモデル - 無料でヒンディー語音声の高精度認識を実現

ホーム

Wav2vec2 Large Xls R 300m Hindi Colab

chaitanya97によって開発

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングしたバージョンで、ヒンディー語音声認識タスク用です。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ヒンディー語音声認識 #XLS-Rアーキテクチャ #低リソース最適化

ダウンロード数 19

リリース時間 : 3/2/2022

モデル概要

これはヒンディー語に最適化された音声認識モデルで、wav2vec2アーキテクチャに基づき、common_voiceデータセットでファインチューニングされています。

モデル特徴

大規模事前学習モデルのファインチューニング

facebook/wav2vec2-xls-r-300mをベースにファインチューニングし、強力な音声特徴抽出能力を継承

ヒンディー語向け最適化

ヒンディー語音声データに特化して訓練・最適化

効率的な訓練

混合精度訓練や勾配蓄積などの技術を使用して訓練効率を向上

モデル能力

ヒンディー語音声認識

音声テキスト変換

使用事例

音声文字起こし

ヒンディー語音声文字起こし

ヒンディー語音声内容をテキストに変換

評価セットで1.0の単語誤り率を達成

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
23.4144	0.8	4	29.5895	1.0
19.1336	1.6	8	18.3354	1.0
12.1562	2.4	12	11.2065	1.0
8.1523	3.2	16	8.8674	1.0
6.807	4.0	20	7.8106	1.0
6.1583	4.8	24	7.2810	1.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Xls R 300m Hindi Colab

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-large-xls-r-300m-hindi-colab

🚀 クイックスタート

📚 ドキュメント

訓練と評価データ

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークバージョン

📄 ライセンス