whisper-large-et開源語音識別模型 - 免費實現愛沙尼亞語準確語音識別

首頁

Whisper Large Et

由TalTechNLP開發

基於OpenAI Whisper-large-v2微調的愛沙尼亞語語音識別模型，由塔爾圖理工大學開發，訓練數據約1200小時

語音識別

Transformers

其他#愛沙尼亞語語音識別 #廣播語音優化 #多場景ASR

下載量 245

發布時間 : 4/13/2023

模型概述

這是一個通用型愛沙尼亞語自動語音識別(ASR)模型，適用於廣播對話、訪談、講座等多種場景的語音轉文字任務

模型特點

高精度愛沙尼亞語識別

在Common Voice測試集上達到WER 11.35-12.03的優異表現

多樣化訓練數據

使用約1200小時的多樣化愛沙尼亞語數據訓練，包括廣播、演講、議會記錄等

基於Whisper架構

基於業界領先的Whisper-large-v2模型微調，繼承其優秀架構特性

模型能力

愛沙尼亞語語音轉文字

廣播語音識別

講座內容轉錄

訪談記錄生成

使用案例

媒體內容處理

廣播節目轉錄

將愛沙尼亞語廣播節目自動轉換為文字稿

WER約12%的高精度轉錄

訪談記錄生成

自動生成訪談對話的文字記錄

教育應用

講座內容轉錄

將大學講座內容自動轉換為文字

🚀 愛沙尼亞語語音識別模型 Whisper-large-et

本項目是基於愛沙尼亞語數據微調的語音識別模型，能夠對廣播對話、訪談等通用語音場景進行識別，為愛沙尼亞語的自動語音識別提供了有效的解決方案。

🚀 快速開始

推薦使用 faster-whisper 來使用本模型。

示例步驟：

將HF模型轉換為CT2格式：

ct2-transformers-converter --model TalTechNLP/whisper-large-et --output_dir whisper-large-et.ct2  --copy_files tokenizer.json --quantization float16

解碼：

whisper-ctranslate2 --model_directory whisper-large-et.ct2 --task transcribe --language et --beam_size 5 some_file.mp3

✨ 主要特性

本模型是基於 openai/whisper-large-v2 在約1200小時的多樣化愛沙尼亞語數據上微調得到的通用愛沙尼亞語自動語音識別（ASR）模型。
由塔爾圖工業大學語言技術實驗室訓練。
適用於廣播對話、訪談、演講等通用語音識別場景。

📚 詳細文檔

模型描述

這是一個在塔爾圖工業大學語言技術實驗室訓練的通用愛沙尼亞語ASR模型。

預期用途和侷限性

預期用途

本模型旨在用於通用語音識別，例如廣播對話、訪談、演講等。

侷限性和偏差

由於該模型主要在廣播語音和網絡文本上進行訓練，可能在正確解碼以下語音時存在問題：

包含技術和其他特定領域術語的語音。
兒童語音。
非母語語音。
在非常嘈雜的環境中錄製的語音，或者麥克風離說話者較遠的語音。
非常自然且有重疊的語音。

訓練數據

聲學訓練數據如下：

類型	時長（小時）
廣播語音	991
自然語音	53
老年人語音語料庫	53
講座、演講	49
議會演講	31
總計	1161

訓練過程

使用Espnet進行微調，然後使用此腳本將其轉換為transformers格式。微調過程與此模型類似。微調進行了3個epoch，並在訓練結束時進行了模型平均。

更新：2023年10月3日版本的模型在長片段上進行訓練（與原始Whisper模型類似），因此特別適合與 faster-whisper 一起使用，以“端到端”方式轉錄長語音記錄（即無需任何預先分割）。

評估結果

詞錯誤率（WER）

以下WER結果是使用貪心解碼（即束搜索大小為1）獲得的。

數據集	WER
Common Voice 8.0	11.3
Common Voice 11.0	12.0

📄 許可證

本模型採用CC BY 4.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫