wav2vec2-bert-CV16-en開源自動語音識別模型 - 免費實現英文語音精準轉文字

首頁

Wav2vec2 Bert CV16 En

由hf-audio開發

基於w2v-bert-2.0在Common Voice 16.0英文數據集上微調的自動語音識別(ASR)模型

語音識別

Transformers

英語#英語語音識別 #低詞錯誤率 #BERT增強

下載量 1,700

發布時間 : 1/5/2024

模型概述

該模型是用於英語語音識別的自動語音識別系統，在Common Voice 16.0英文數據集上進行了微調，能夠將英語語音轉換為文本

模型特點

高效語音識別

在Common Voice 16.0英文數據集上微調，具有較高的識別準確率

低詞錯誤率

在評估集上取得14.55%的詞錯誤率(WER)和5.8%的字符錯誤率(CER)

多GPU訓練優化

支持多GPU分佈式訓練，採用Adam優化器和線性學習率調度

模型能力

英語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

語音備忘錄轉錄

將英語語音備忘錄自動轉換為文本

準確率約85.45%(1-WER)

會議記錄自動化

自動生成英語會議的文本記錄

輔助技術

即時字幕生成

為英語視頻內容生成即時字幕

訓練損失	輪次	步數	驗證損失	WER	CER
2.9554	0.01	250	3.1731	0.9999	0.9942
2.7058	0.02	500	2.6717	1.0307	0.7486
0.9641	0.02	750	0.9895	0.6091	0.2035
...（後續數據表格完整保留，僅作格式轉換）...
0.0922	3.0	92000	0.2427	0.1455	0.0580

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Bert CV16 En

模型概述

模型特點

模型能力

使用案例

wav2vec2-bert-CV16-en

模型描述

使用場景與限制

訓練與評估數據

訓練流程

訓練超參數

訓練結果

框架版本