wav2vec2 - 2 - gpt2 - regularisation開源ASR模型 - 免費將英語語音精準轉文本

首頁

Wav2vec2 2 Gpt2 Regularisation

由sanchit-gandhi開發

這是一個基於 LibriSpeech 數據集訓練的自動語音識別(ASR)模型，能夠將英語語音轉換為文本。

語音識別

Transformers

#高詞錯誤率 #英語語音識別 #低訓練損失

下載量 20

發布時間 : 3/17/2022

模型概述

該模型是在 LibriSpeech ASR 數據集上從頭開始訓練的自動語音識別模型，主要用於英語語音轉文本任務。

模型特點

高準確率

在 LibriSpeech 評估集上取得了較低的詞錯誤率(WER)

端到端訓練

模型是從頭開始訓練的，不依賴於預訓練模型

優化訓練

使用了 Adam 優化器和線性學習率調度器進行訓練

模型能力

英語語音識別

連續語音轉文本

大規模語音數據處理

使用案例

語音轉錄

有聲書轉錄

將英語有聲讀物自動轉錄為文本

詞錯誤率約為 0.9977

會議記錄

自動記錄英語會議內容

語音助手

語音命令識別

識別英語語音命令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.5506	2.8	2500	4.4928	1.8772
0.5145	5.61	5000	1.8942	1.1063
0.2736	8.41	7500	1.6550	1.0372
0.0807	11.21	10000	1.7601	1.0004
0.0439	14.01	12500	1.8014	1.0022
0.043	16.82	15000	1.8534	1.0097
0.0434	19.62	17500	1.8529	0.9977

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 2 Gpt2 Regularisation

模型概述

模型特點

模型能力

使用案例

🚀 語音識別模型

🚀 快速開始

🔧 技術細節

訓練超參數

訓練結果

框架版本