Fine-Tune-XLSR-Wav2Vec2-Speech2Text-Vietnamese開源模型 - 精準修復越南語語音識別結果

首頁

Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese

由leduytan93開發

這是一個基於MT5架構的越南語自動語音識別(ASR)修復模型，針對越南語語音識別任務進行了微調。

語音識別其他開源協議:Apache-2.0 #越南語語音識別 #XLSR微調 #低詞錯誤率

下載量 25

發布時間 : 3/2/2022

模型概述

該模型主要用於越南語的自動語音識別任務，能夠將越南語語音轉換為文本。模型在Common Voice越南語數據集上進行了微調，詞錯誤率(WER)為25.2%。

模型特點

越南語語音識別

專門針對越南語優化的語音識別能力

基於MT5架構

使用MT5模型架構進行語音識別任務

在Common Voice上微調

使用Common Voice越南語數據集進行微調

模型能力

越南語語音識別

語音轉文本

使用案例

語音轉錄

越南語語音轉錄

將越南語語音內容轉換為文本

詞錯誤率25.2%

語音助手

越南語語音助手

用於構建越南語語音助手系統

屬性	詳情
數據集名稱	Common Voice、FOSD
數據集鏈接	Common Voice；FOSD

屬性	詳情
模型名稱	MT5 Fix Asr Vietnamese by Ontocord
任務類型	自動語音識別
數據集	Common Voice vi
評估指標	測試集詞錯誤率（Test WER）
指標值	25.207182

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese

模型概述

模型特點

模型能力

使用案例

🚀 MT5 Fix Asr Vietnamese by Ontocord

📚 詳細文檔

數據集

評估指標

標籤

模型信息

許可證