Unispeech Large 1500h Cv Timit

U

Unispeech Large 1500h Cv Timit

由patrickvonplaten開發

該模型是基於microsoft/unispeech-large-1500h-cv在TIMIT_ASR數據集上微調得到的自動語音識別模型，在評估集上取得了21.96%的詞錯誤率(WER)。

#英語語音識別 #TIMIT數據集 #低WER模型

下載量 536

發布時間 : 3/2/2022

模型概述

一個針對英語語音識別任務優化的自動語音識別模型，特別適用於TIMIT數據集類似的語音場景。

模型特點

基於大規模預訓練模型微調

基於1500小時語音數據預訓練的UniSpeech-Large模型進行微調，具有強大的語音特徵提取能力

TIMIT數據集優化

專門針對TIMIT ASR數據集進行優化，在該數據集上表現優異

低詞錯誤率

在評估集上取得了21.96%的詞錯誤率(WER)

模型能力

英語語音識別

連續語音轉文本

音素級別識別

使用案例

語音識別研究

TIMIT數據集語音識別基準測試

可用於語音識別算法的基準測試和比較

WER 21.96%

教育應用

英語發音評估

可用於英語學習者的發音準確度評估

🚀 unispeech-large-1500h-cv-timit

本模型是 microsoft/unispeech-large-1500h-cv 在 TIMIT_ASR - NA 數據集上的微調版本。它在評估集上取得了以下結果：

損失值（Loss）：0.3099
詞錯誤率（Wer）：0.2196

🚀 快速開始

本模型是基於 microsoft/unispeech-large-1500h-cv 在 TIMIT_ASR - NA 數據集上進行微調得到的。在評估集上，它展現出了較好的性能，損失值為 0.3099，詞錯誤率為 0.2196。

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.0001
訓練批次大小（train_batch_size）：32
評估批次大小（eval_batch_size）：1
隨機種子（seed）：42
優化器（optimizer）：Adam，其中 betas=(0.9, 0.999)，epsilon=1e - 08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：1000
訓練輪數（num_epochs）：20.0
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	詞錯誤率
4.64	0.69	100	3.9717	0.9981
2.6793	1.38	200	2.6264	1.0
1.2221	2.07	300	0.9999	0.7167
0.9009	2.76	400	0.6509	0.5570
0.4352	3.45	500	0.4682	0.4332
0.227	4.14	600	0.3661	0.3565
0.2169	4.83	700	0.3244	0.3203
0.2687	5.52	800	0.3137	0.2981
0.127	6.21	900	0.3220	0.2828
0.0922	6.9	1000	0.3075	0.2708
0.0965	7.59	1100	0.2779	0.2576
0.1298	8.28	1200	0.3111	0.2480
0.0855	8.97	1300	0.3021	0.2421
0.0629	9.66	1400	0.3122	0.2511
0.0471	10.34	1500	0.2965	0.2368
0.0871	11.03	1600	0.3247	0.2387
0.0503	11.72	1700	0.3359	0.2363
0.0402	12.41	1800	0.2976	0.2332
0.0336	13.1	1900	0.3139	0.2321
0.0634	13.79	2000	0.3188	0.2309
0.0429	14.48	2100	0.3145	0.2335
0.028	15.17	2200	0.3244	0.2242
0.0255	15.86	2300	0.2914	0.2196
0.0406	16.55	2400	0.3249	0.2202
0.0512	17.24	2500	0.3037	0.2198
0.0269	17.93	2600	0.3218	0.2242
0.0287	18.62	2700	0.3106	0.2185
0.0319	19.31	2800	0.3124	0.2217
0.0494	20.0	2900	0.3099	0.2196

框架版本

Transformers：4.12.0.dev0
Pytorch：1.8.1
Datasets：1.14.1.dev0
Tokenizers：0.10.3

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase