wav2vec2-large-xls-r-300m-kyrgyz開源模型 - 精準識別吉爾吉斯語語音內容

首頁

Wav2vec2 Large Xls R 300m Kyrgyz

由infinitejoy開發

這是一個基於facebook/wav2vec2-xls-r-300m模型在吉爾吉斯語語音數據集上微調的自動語音識別(ASR)模型

語音識別

Transformers

其他開源協議:Apache-2.0 #吉爾吉斯語語音識別 #低資源語言ASR #XLS-R架構

下載量 17

發布時間 : 3/2/2022

模型概述

該模型專門針對吉爾吉斯語進行優化，能夠將吉爾吉斯語音頻轉換為文本，適用於語音轉寫等應用場景

模型特點

多語言支持

基於XLS-R架構，具有處理多種語言的能力

高效語音識別

在吉爾吉斯語語音識別任務上表現良好

預訓練+微調架構

利用大規模預訓練模型，通過特定語言數據微調獲得更好性能

模型能力

吉爾吉斯語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉寫

吉爾吉斯語語音轉文字

將吉爾吉斯語的語音內容轉換為可編輯的文本

詞錯誤率(WER)40.9%，字符錯誤率(CER)11.0%

語音助手

吉爾吉斯語語音指令識別

用於構建支持吉爾吉斯語的語音助手系統

屬性	詳情
模型名稱	XLS - R - 300M - Kyrgyz
任務類型	自動語音識別
數據集	Common Voice 7（mozilla - foundation/common_voice_7_0，語言為ky）
測試詞錯誤率（Test WER）	40.908
測試字符錯誤率（Test CER）	10.999

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
1.5412	18.69	2000	0.6161	0.5747
1.311	37.38	4000	0.5707	0.5070
1.1367	56.07	6000	0.5372	0.4664
0.9696	74.77	8000	0.5443	0.4328
0.8163	93.46	10000	0.5916	0.4124

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Large Xls R 300m Kyrgyz

模型概述

模型特點

模型能力

使用案例

🚀 wav2vec2-large-xls-r-300m-kyrgyz

📚 詳細文檔

模型評估結果

模型索引信息

訓練過程

訓練超參數

訓練結果

框架版本

📄 許可證