vakyansh - wav2vec2パンジャブ語音声認識モデル - オープンソースで16kHz音声入力をサポート

Vakyansh Wav2vec2 Punjabi Pam 10

Harveenchadhaによって開発

CLSRIL - 23多言語事前学習モデルを基に微調整されたパンジャブ語自動音声認識モデルで、16kHzサンプリングレートの音声入力に対応しています。

ダウンロード数 96

リリース時間 : 3/2/2022

モデル概要

このモデルはパンジャブ語に最適化された自動音声認識システムで、Wav2Vec2アーキテクチャに基づいており、パンジャブ語の音声をテキストに変換するのに適しています。

多言語事前学習の基礎

CLSRIL - 23多言語事前学習モデルを基に微調整されており、強力な音声特徴抽出能力を持っています。

パンジャブ語の最適化

パンジャブ語に特化して最適化されており、この言語の音声認識タスクに適しています。

言語モデルなしのサポート

現在の結果は言語モデルを使用していませんが、将来的に言語モデルを追加することで認識精度をさらに向上させることができます。

パンジャブ語音声認識

16kHzサンプリングレートの音声処理

音声からテキストへの変換

パンジャブ語音声の文字起こし

パンジャブ語の音声内容をテキスト形式に変換する

単語誤り率(WER)33.17

項目	詳細
モデル名	Wav2Vec2 Vakyansh Punjabi Model by Harveen Chadha
タスク名	音声認識 (Speech Recognition)
タスクタイプ	自動音声認識 (automatic - speech - recognition)
データセット名	Common Voice hi
データセットタイプ	common_voice
データセット引数	pa
評価指標名	Test WER
評価指標タイプ	wer
評価指標値	33.17