Xls R 300m Npsc Seq2seq

X

Xls R 300m Npsc Seq2seq

由Rolv-Arild開發

該模型是一個自動語音識別(ASR)模型，在未指定數據集上訓練，最終詞錯誤率(WER)為0.3144。

#語音識別 #低詞錯誤率 #線性學習率調度

下載量 18

發布時間 : 3/2/2022

模型概述

這是一個自動語音識別模型，能夠將語音轉換為文本。

模型特點

低詞錯誤率

在評估集上取得了0.3144的詞錯誤率(WER)，表現良好。

優化訓練

使用了Adam優化器和線性學習率調度器進行訓練，訓練過程穩定。

模型能力

語音轉文本

自動語音識別

使用案例

語音轉錄

會議記錄

將會議錄音自動轉換為文字記錄

詞錯誤率0.3144

字幕生成

為視頻內容自動生成字幕

🚀 模型項目

本模型項目聚焦於模型的訓練與評估，旨在通過特定的訓練流程和超參數設置，在指定數據集上訓練出性能優良的模型，並對其進行全面評估。

🚀 快速開始

此模型在 None 數據集上從頭開始訓練，在評估集上取得了以下結果：

損失值（Loss）：0.2965
字錯誤率（Wer）：0.3144

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：0.0001
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：8
總訓練批次大小（total_train_batch_size）：64
優化器（optimizer）：Adam，其中 betas=(0.9, 0.999)，epsilon=1e-08
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：1000
訓練輪數（num_epochs）：20.0
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯誤率
2.888	0.51	400	3.7320	0.9440
3.1636	1.02	800	2.9188	1.1916
2.773	1.53	1200	2.3347	1.0134
0.7198	2.04	1600	0.6678	0.4826
0.5255	2.55	2000	0.4605	0.4135
0.3961	3.06	2400	0.4266	0.3955
0.3424	3.57	2800	0.3786	0.3741
0.3858	4.08	3200	0.3161	0.3552
0.3218	4.59	3600	0.3029	0.3510
0.199	5.1	4000	0.2988	0.3418
0.2054	5.61	4400	0.2873	0.3434
0.1704	6.12	4800	0.3129	0.3432
0.1805	6.63	5200	0.2963	0.3413
0.2091	7.14	5600	0.2755	0.3329
0.1971	7.65	6000	0.2706	0.3309
0.1237	8.16	6400	0.2823	0.3270
0.123	8.67	6800	0.2754	0.3246
0.103	9.18	7200	0.2917	0.3272
0.1143	9.69	7600	0.2885	0.3305
0.156	10.2	8000	0.2810	0.3288
0.167	10.71	8400	0.2689	0.3232
0.0815	11.22	8800	0.2899	0.3236
0.0844	11.73	9200	0.2798	0.3225
0.0775	12.24	9600	0.2894	0.3224
0.0677	12.75	10000	0.2838	0.3204
0.1383	13.27	10400	0.2959	0.3211
0.1233	13.77	10800	0.2922	0.3213
0.0688	14.29	11200	0.2903	0.3209
0.0655	14.8	11600	0.2868	0.3182
0.0449	15.31	12000	0.2959	0.3172
0.0421	15.82	12400	0.2966	0.3180
0.0858	16.33	12800	0.2941	0.3164
0.0859	16.84	13200	0.2980	0.3165
0.0561	17.35	13600	0.2965	0.3165
0.0506	17.86	14000	0.2935	0.3148
0.0312	18.37	14400	0.2964	0.3154
0.0403	18.88	14800	0.2967	0.3160
0.0924	19.39	15200	0.2955	0.3147
0.0585	19.9	15600	0.2965	0.3144

框架版本

Transformers：4.17.0.dev0
Pytorch：1.10.0+cu113
Datasets：1.18.1
Tokenizers：0.11.0

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase