wav2vec2-large-xls-r-300m-urオープンソースウルドゥー語音声認識モデル - 正確な認識でコミュニケーションをサポート

ホーム

Wav2vec2 Large Xls R 300m Ur

anuragshasによって開発

wav2vec2-large-xls-r-300mアーキテクチャに基づくウルドゥー語音声認識モデル、common_voiceデータセットでファインチューニング済み

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ウルドゥー語音声認識 #大規模モデルのファインチューニング #低リソース言語

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルはウルドゥー語に最適化された自動音声認識(ASR)システムで、Facebookのwav2vec2アーキテクチャを基に、Common Voiceデータセットでファインチューニングされています。

モデル特徴

大規模事前学習

3億パラメータのwav2vec2-large-xls-rアーキテクチャを基に、強力な音声特徴抽出能力を有する

ウルドゥー語最適化

ウルドゥー語に特化してファインチューニングされ、特定言語の音声特徴に適応

オープンソースライセンス

Apache 2.0ライセンスを採用し、商業利用や研究利用が可能

モデル能力

ウルドゥー語音声からテキストへの変換

連続音声認識

音声活動検出

使用事例

音声書き起こし

ウルドゥー語メディアコンテンツの書き起こし

ウルドゥー語のポッドキャスト、動画などを自動的にテキストに変換

評価セットで0.7328の単語誤り率を達成

支援技術

音声制御アプリケーション

ウルドゥー語ユーザー向けの音声制御インターフェースを開発

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.0719	66.67	400	1.8510	0.7432
0.0284	133.33	800	2.0088	0.7415
0.014	200.0	1200	2.0508	0.7328

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Wav2vec2 Large Xls R 300m Ur

モデル概要

モデル特徴

モデル能力

使用事例

🚀 wav2vec2-large-xls-r-300m-ur

📚 ドキュメント

モデルの説明

想定される用途と制限

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス