wav2vec2-large-xls-r-300m-ur開源烏爾都語語音識別模型

首頁

Wav2vec2 Large Xls R 300m Ur

由anuragshas開發

基於wav2vec2-large-xls-r-300m架構的烏爾都語語音識別模型，在common_voice數據集上微調

語音識別

Transformers

開源協議:Apache-2.0 #烏爾都語語音識別 #大模型微調 #低資源語言

下載量 20

發布時間 : 3/2/2022

模型概述

該模型是針對烏爾都語優化的自動語音識別(ASR)系統，基於Facebook的wav2vec2架構，在Common Voice數據集上進行了微調。

模型特點

大規模預訓練

基於3億參數的wav2vec2-large-xls-r架構，具有強大的語音特徵提取能力

烏爾都語優化

專門針對烏爾都語進行微調，適應特定語言的語音特徵

開源許可

採用Apache 2.0許可證，允許商業和研究使用

模型能力

烏爾都語語音轉文本

連續語音識別

語音活動檢測

使用案例

語音轉錄

烏爾都語媒體內容轉錄

將烏爾都語播客、視頻等內容自動轉錄為文本

在評估集上達到0.7328的詞錯誤率

輔助技術

語音控制應用

為烏爾都語用戶開發語音控制界面

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.0719	66.67	400	1.8510	0.7432
0.0284	133.33	800	2.0088	0.7415
0.014	200.0	1200	2.0508	0.7328

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Large Xls R 300m Ur

模型概述

模型特點

模型能力

使用案例

🚀 wav2vec2-large-xls-r-300m-ur

🚀 快速開始

📄 許可證

🔧 技術細節

訓練超參數

訓練結果

框架版本