wav2vec2-large-xlsr-53-demo-colab開源語音識別模型 - 精準進行魯棒語音事件識別

首頁

Wav2vec2 Large Xlsr 53 Demo Colab

由emre開發

該模型是基於facebook/wav2vec2-large-xlsr-53在common_voice數據集上微調得到的語音識別模型，主要用於魯棒語音事件識別。

語音識別

Transformers

開源協議:Apache-2.0 #多語言語音識別 #魯棒語音處理 #XLSR微調

下載量 16

發布時間 : 3/2/2022

模型概述

這是一個基於wav2vec2架構的語音識別模型，經過微調後適用於common_voice數據集，能夠將語音轉換為文本。

模型特點

基於wav2vec2架構

採用facebook的wav2vec2-large-xlsr-53作為基礎模型，具有強大的語音特徵提取能力。

Common Voice數據集微調

在Common Voice數據集上進行微調，增強了模型的魯棒性和適應性。

相對較低的詞錯誤率

在評估集上取得了0.4834的詞錯誤率(WER)，表現良好。

模型能力

語音識別

語音轉文本

魯棒語音事件檢測

使用案例

語音轉寫

語音轉錄

將語音內容自動轉換為文本格式

詞錯誤率0.4834

語音助手

語音指令識別

識別用戶語音指令並轉換為可執行命令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
5.1516	4.21	400	2.7673	1.0
0.9134	8.42	800	0.4618	0.6418
0.3273	12.63	1200	0.4188	0.5535
0.2252	16.84	1600	0.4144	0.5232
0.1692	21.05	2000	0.3995	0.5030
0.1355	25.26	2400	0.4073	0.4920
0.1172	29.47	2800	0.3966	0.4834

屬性	詳情
模型類型	wav2vec2-large-xlsr-53-demo-colab
訓練數據	common_voice

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Large Xlsr 53 Demo Colab

模型概述

模型特點

模型能力

使用案例

🚀 wav2vec2-large-xlsr-53-demo-colab

🚀 快速開始

🔧 技術細節

訓練超參數

訓練結果

框架版本

📄 許可證