whisper-large-v2-pl-v2開源語音識別模型 - 免費實現波蘭語語音精準轉文本

首頁

Whisper Large V2 Pl V2

由bardsai開發

基於Whisper Large v2在波蘭語數據集上微調的自動語音識別模型，支持波蘭語語音轉文本任務。

語音識別

Transformers

其他#波蘭語語音識別 #低詞錯誤率 #多數據集微調

下載量 217

發布時間 : 12/14/2022

模型概述

這是一個專門針對波蘭語優化的自動語音識別(ASR)模型，在Common Voice 11.0和FLEURS數據集上進行了微調，能夠準確地將波蘭語語音轉換為文本。

模型特點

高精度波蘭語識別

在Common Voice 11.0測試集上達到7.28%的詞錯誤率(WER)，表現優異

多數據集訓練

使用Common Voice 11.0和FLEURS兩個高質量波蘭語數據集進行訓練

優化的訓練流程

採用精心設計的訓練超參數和梯度累積策略，確保訓練效果

模型能力

波蘭語語音識別

語音轉文本

自動語音轉錄

使用案例

語音轉錄

會議記錄自動化

將波蘭語會議錄音自動轉換為文字記錄

高準確率的轉錄文本

媒體字幕生成

為波蘭語視頻內容自動生成字幕

低錯誤率的字幕輸出

語音助手

波蘭語語音指令識別

用於波蘭語語音助手系統中的指令理解

高準確率的指令識別

🚀 Whisper Large v2 PL

本模型是基於 bardsai/whisper-large-v2-pl 在 Common Voice 11.0 和 FLEURS 數據集上進行微調的版本。它在評估集上取得了以下成果：

損失率：0.3684
字錯率（Wer）：7.2802

✨ 主要特性

基於 Whisper Large v2 進行微調，在波蘭語語音識別任務上表現出色。
在多個公開數據集上進行了評估，具有良好的泛化能力。

📚 詳細文檔

模型信息

屬性	詳情
語言	波蘭語（pl）
標籤	whisper-event、generated_from_trainer
數據集	mozilla-foundation/common_voice_11_0、google/fleurs
評估指標	字錯率（wer）

評估結果

模型在不同數據集上的評估結果如下：

Common Voice 11.0

任務類型：自動語音識別
評估指標：
- 損失率：0.3684
- 字錯率（Wer）：7.2802
- 未歸一化字錯率（WER unnormalized）：20.18
- 字符錯誤率（CER）：2.08
- 匹配錯誤率（MER）：7.27

facebook/voxpopuli

任務類型：自動語音識別
評估指標：
- 字錯率（Wer）：9.61
- 未歸一化字錯率（WER unnormalized）：30.33
- 字符錯誤率（CER）：5.5
- 匹配錯誤率（MER）：9.45

google/fleurs

任務類型：自動語音識別
評估指標：
- 字錯率（Wer）：8.68
- 未歸一化字錯率（WER unnormalized）：29.33
- 字符錯誤率（CER）：3.63
- 匹配錯誤率（MER）：8.62

🔧 技術細節

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：1e-05
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：4
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：8
總訓練批次大小（total_train_batch_size）：64
優化器（optimizer）：Adam（betas=(0.9,0.999)，epsilon=1e-08）
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：500
訓練步數（training_steps）：2100
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.0047	1.35	700	0.3428	8.5562
0.0011	2.7	1400	0.3605	7.5505
0.0003	4.05	2100	0.3684	7.2802

框架版本

Transformers 4.26.0.dev0
Pytorch 1.13.0+cu117
Datasets 2.7.1.dev0
Tokenizers 0.13.2

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫