wav2vec2-xl-960h-dementiabank開源語音識別模型 - 免費實現高效語音轉文本

Wav2vec2 Xl 960h Dementiabank

由shields開發

該模型是基於facebook/wav2vec2-large-960h在DementiaBank數據集上微調的語音識別模型，主要用於語音轉文本任務。

下載量 20

發布時間 : 3/2/2022

模型概述

這是一個基於wav2vec2架構的語音識別模型，經過微調後可能特別適用於老年痴呆症患者的語音識別場景。

高精度語音識別

基於wav2vec2-xl架構，提供高質量的語音轉文本能力

特定領域微調

在DementiaBank數據集上微調，可能更適合識別老年痴呆症患者的語音特徵

預訓練基礎

基於facebook/wav2vec2-large-960h預訓練模型，具有強大的語音理解能力

英語語音識別

語音轉文本

特定人群語音識別

醫療健康

老年痴呆症患者語音分析

用於識別和分析老年痴呆症患者的語音特徵

語音轉錄

醫療訪談記錄

將醫生與患者的對話自動轉錄為文字

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
13934.5266	0.31	10	71265.4531	1.0
13443.6406	0.62	20	69977.6016	1.0
9336.9562	0.94	30	13763.1484	0.9843
2970.977	1.25	40	17587.7656	0.9860
1916.3354	1.56	50	4328.4521	1.0
1417.5775	1.88	60	4486.8071	0.9860
1841.7689	2.19	70	2988.0303	1.0
1355.0265	2.5	80	2972.6094	0.9860
1359.7979	2.81	90	3483.2146	0.9860