whisper-large-v3開源模型 - 免費部署，專注希伯來語音頻精準轉錄

首頁

Whisper Large V3

由ivrit-ai開發

基於OpenAI Whisper Large v3模型針對希伯來語進行的微調版本，專注於希伯來語音頻轉錄任務

語音識別

Transformers

其他開源協議:Apache-2.0 #希伯來語語音轉錄 #議會會議記錄 #眾包數據訓練

下載量 2,068

發布時間 : 3/4/2025

模型概述

該模型是Whisper Large v3的希伯來語專用版本，經過675小時希伯來語數據微調，優化了希伯來語音頻轉錄性能，但語言檢測和翻譯能力有所下降

模型特點

希伯來語優化

專門針對希伯來語音頻進行微調，轉錄準確率優於原版Whisper

多源訓練數據

融合議會記錄、眾包轉錄和朗讀數據，覆蓋多種希伯來語使用場景

高效訓練

採用檢查點加權平均策略，在有限訓練時間內獲得最佳性能

模型能力

希伯來語音頻轉錄

語音到文本轉換

使用案例

政府記錄

議會會議轉錄

自動轉錄以色列議會全體會議內容

使用325小時議會數據進行訓練

教育

維基百科內容朗讀轉錄

轉錄眾包錄製的希伯來語維基百科內容

使用50小時朗讀數據進行訓練

🚀 希伯來語微調版OpenAI Whisper Large v3模型

本模型是對OpenAI Whisper Large v3模型進行希伯來語微調（持續訓練）後的版本，可用於希伯來語音頻轉錄。

🚀 快速開始

請參考原始的模型卡片獲取使用細節，只需將模型名稱替換為本模型。你還可以在ivrit ai的Hugging Face頁面上找到其他權重格式和量化版本。

我們創建了一些使用該模型和權重的簡單示例腳本，適用於其他推理運行時。你可以在訓練代碼的GitHub倉庫中的"examples"文件夾中找到這些腳本。

✨ 主要特性

基於OpenAI Whisper Large v3模型進行希伯來語微調。
適用於大部分希伯來語音頻轉錄。

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
開發者	ivrit-ai
語言（NLP）	希伯來語
許可證	Apache - 2.0
微調基礎模型	openai/whisper-large-v3

偏差、風險和侷限性

⚠️ 重要提示

該模型的語言檢測能力在訓練過程中有所下降，主要用於希伯來語音頻轉錄，使用時應將語言令牌明確設置為希伯來語。此外，翻譯任務未經過訓練且能力也有所下降，該模型無法進行合理的翻譯。

訓練詳情

訓練數據

該模型在以下數據集上進行訓練：

ivrit-ai/crowd-transcribe-v5 - 公開可訪問的音頻源已逐段進行眾包轉錄，約300小時。
ivrit-ai/crowd-recital-whisper-training - 眾包錄製的維基百科文章片段，約50小時。
ivrit-ai/knesset-plenums-whisper-training - 以色列議會全會協議的一個子集，約325小時。

訓練過程

該模型是同一訓練運行中3個評估損失最低的檢查點的加權平均值。訓練代碼可在ivrit-ai的GitHub倉庫此處找到。

預處理

“Crowd Recital”和“Knesset”數據集包含符合Whisper預期輸入的時間戳和前文信息。這些數據集中40%的樣本使用了時間戳，50%的樣本使用了前文信息。

“Crowd Transcribe”數據集沒有時間戳或前文信息，此預處理僅包括梅爾頻譜特徵提取和文本編碼。

預處理代碼可在訓練代碼倉庫中找到。

數據集以0.15:0.8:0.05的比例（議會:眾包轉錄:眾包朗誦）進行交錯。

訓練超參數

訓練機制：使用sdpa的bf16混合精度
學習率：1e - 5，線性衰減，5個epoch，800步熱身
批量大小：32

訓練硬件/時長

GPU類型：8 x Nvidia A40機器
時長：約10小時，在2.2個epoch時停止

評估

請參考ivrit-ai/hebrew-transcription-leaderboard。

📄 許可證

本模型使用Apache - 2.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫