whisper-large-v3-lv-late-cv19開源模型 - 支持拉脫維亞語語音精準轉文本

首頁

Whisper Large V3 Lv Late Cv19

由AiLab-IMCS-UL開發

基於whisper-large-v3微調的拉脫維亞語自動語音識別模型，由AiLab.lv訓練，支持拉脫維亞語語音轉文本任務。

語音識別

Safetensors

其他開源協議:Apache-2.0 #拉脫維亞語音識別 #多領域適配 #低詞錯誤率

下載量 162

發布時間 : 10/15/2024

模型概述

該模型是基於OpenAI的whisper-large-v3架構微調的拉脫維亞語自動語音識別(ASR)模型，專門針對拉脫維亞語優化，能夠準確地將拉脫維亞語音頻轉換為文本。

模型特點

多數據集訓練

結合Common Voice 19.0和LATE-Media 2.0兩個數據集進行訓練，總訓練時長282.4小時。

多種量化版本

提供適用於whisper.cpp的GGML格式4位、5位和8位量化版本，以及CTranslate2的8位量化版本。

低詞錯誤率

在Common Voice 19.0測試集上達到3.2%的詞錯誤率(WER)，表現優異。

模型能力

拉脫維亞語語音識別

音頻轉文本

語音轉錄

使用案例

語音轉錄

廣播內容轉錄

將拉脫維亞廣播內容自動轉錄為文本

在LATE-Media測試集上達到12.8%的詞錯誤率

通用語音轉錄

日常拉脫維亞語語音的轉錄

在Common Voice測試集上達到3.2%的詞錯誤率

🚀 通用拉脫維亞語自動語音識別模型

這是一個針對拉脫維亞語微調的 whisper-large-v3 模型，由 AiLab.lv 使用兩個通用語音數據集進行訓練：Common Voice 19.0 中的拉脫維亞語部分，以及拉脫維亞語廣播數據集 LATE-Media 的最新版本。

此版本的模型取代了之前的 whisper-large-v3-lv-late-cv17 模型。

我們還提供了適用於 whisper.cpp 的 GGML 格式的 4 位、5 位和 8 位量化版本的模型，以及適用於 CTranslate2 的 8 位量化版本。

📚 詳細文檔

訓練

微調使用了 Hugging Face Transformers 庫，並結合了修改後的 seq2seq 腳本。

屬性	詳情
訓練數據	拉脫維亞語 Common Voice 19.0 訓練集（VW 分割）：212.6 小時；LATE-Media 2.0 訓練集：69.8 小時；總計：282.4 小時

評估

測試數據	字錯率 (WER)	字符錯誤率 (CER)
拉脫維亞語 Common Voice 19.0 測試集（VW） - 格式化	4.8	1.6
拉脫維亞語 Common Voice 19.0 測試集（VW） - 歸一化	3.2	1.0
LATE-Media 1.0 測試集 - 格式化	19.2	7.6
LATE-Media 1.0 測試集 - 歸一化	12.8	5.3

拉脫維亞語 CV 19.0 測試集可在此處獲取。 LATE-Media 1.0 測試集可在此處獲取。

引用

如果您在研究中使用了此模型，請引用以下論文：

@inproceedings{dargis-etal-2024-balsutalka-lv,
  author = {Dargis, Roberts and Znotins, Arturs and Auzina, Ilze and Saulite, Baiba and Reinsone, Sanita and Dejus, Raivis and Klavinska, Antra and Gruzitis, Normunds},
  title = {{BalsuTalka.lv - Boosting the Common Voice Corpus for Low-Resource Languages}},
  booktitle = {Proceedings of the Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)},
  publisher = {ELRA and ICCL},
  year = {2024},
  pages = {2080--2085},
  url = {https://aclanthology.org/2024.lrec-main.187}
}