🚀 NB-Whisper Large Distilled Turbo BETA
NB Whisper Large Distil Turbo BETA 是挪威國家圖書館開發的挪威語自動語音識別(ASR)模型的輕量、快速版本。這個經過蒸餾的模型在優化資源受限環境使用的同時,仍保持了較高的轉錄質量。它通過蒸餾過程從原始的 NB-Whisper Large 模型衍生而來,在減少參數數量的同時,保留了自動語音識別(ASR)任務的性能。
請注意,此項目仍在進行中,該模型僅用於測試目的。我們非常感謝您提供的所有反饋。
🚀 快速開始
本地部署
若要在本地運行該模型,需安裝必要的庫並使用 Transformers 管道:
pip install transformers>=4.35.2
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])
✨ 主要特性
模型概述
關鍵特性
- 速度快:推理速度更快,計算需求更低,適合邊緣設備。
- 輕量級:非常適合對內存使用要求較低的應用程序。
- 精度保留:在單詞錯誤率(WER)和字符錯誤率(CER)基準測試中保持了有競爭力的性能。
📦 安裝指南
請參考上述“快速開始”部分的本地部署步驟。
💻 使用示例
基礎用法
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", "NbAiLab/NB-Whisper-Large-destil-Turbo-beta")
result = asr("example_audio.mp3", generate_kwargs={'task': 'transcribe', 'language': 'no'})
print(result["text"])
📚 詳細文檔
訓練和蒸餾細節
- 蒸餾過程:該模型使用師生框架從 NB-Whisper Large 模型中蒸餾而來,在減少模型大小的同時儘量減少精度損失。
- 使用的數據集:與原始模型使用相同的高質量數據集,包括:
- NbAiLab/ncc_speech
- NbAiLab/NST
- NbAiLab/NPSC
- 訓練步驟:蒸餾過程涉及多次微調迭代,以實現模型大小和性能的最佳平衡。
性能
該蒸餾模型在許多場景下取得了與完整的 NB-Whisper Large 模型相似的結果,但針對速度和資源效率進行了優化。它非常適合即時應用,如即時轉錄或移動設備使用。
示例用例
- 在低資源設備上進行即時轉錄。
- 在需要低延遲響應的應用程序中進行語音分析。
- 在移動或嵌入式系統中進行邊緣部署。
API
通過簡單 API 訪問模型的說明包含在 Spaces 下的演示中。請注意,這些演示是臨時的,僅在幾周內可用。
訓練數據
訓練數據來自 Språkbanken 和挪威國家圖書館的數字館藏,包括:
- NST 挪威語 ASR 數據庫(16 kHz)及其相應的數據集
- Språkbanken 轉錄的挪威議會演講
- 電視廣播(NRK)字幕(挪威國家圖書館數字館藏)
- 有聲讀物(挪威國家圖書館數字館藏)
下游使用
這些模型,尤其是較小的模型,可能偶爾會出現幻覺現象,並且可能會遺漏部分轉錄內容。它們旨在將口語轉換為語法正確的書面句子,可能並非總是逐字翻譯。我們為希望使用不同轉錄風格的用戶提供了兩種額外的模型變體。我們鼓勵用戶親自嘗試這些模型,以獲得更好的理解。
偏差、風險和侷限性
在沒有進行充分風險評估和緩解的情況下使用這些模型可能被認為是不負責任的。它們可能包含偏差或其他不良失真。部署這些模型或將其集成到系統或服務中的用戶有責任減輕風險並遵守適用的人工智能法規。作為模型所有者,挪威國家圖書館對第三方使用這些模型所產生的任何結果不承擔責任。
軟件
該模型使用 Jax/Flax 進行訓練,並轉換為 PyTorch、Tensorflow、whisper.cpp 和 ONXX 格式。這些格式可在 Files and versions
下獲取。我們歡迎將其轉換為其他格式的請求。所有訓練代碼和腳本均在 GitHub 倉庫 nb-whisper 下以 Apache 許可證 2.0 發佈。
引用與貢獻者
NB-Whisper Large 模型是挪威國家圖書館由 Per Egil Kummervold(@pere)領導的 NoSTram 項目的成果。主要貢獻者包括 Javier de la Rosa(@versae)、Freddy Wetjen(@freddyw)和 Rolv-Arild Braaten(@Rolv-Arild)。在 Svein Arne Brygfjeld(@Brygfjeld)的指導下,NB AI-Lab 支持了該項目的成功完成。關於我們的過程和發現的詳細論文即將發佈。
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良失真。當第三方部署或向其他方提供使用這些模型(或基於這些模型的系統)的系統和/或服務,或成為這些模型的用戶時,他們應注意減輕使用這些模型所產生的風險,並在任何情況下遵守適用的法規,包括有關人工智能使用的法規。在任何情況下,模型所有者(挪威國家圖書館)均不對第三方使用這些模型所產生的任何結果承擔責任。
歸屬
該模型根據 Apache-2.0 許可證發佈。請注意,對於在挪威進行的下載,即使 Apache 許可證中未明確提及,挪威版權法中規定的歸屬要求在相關情況下仍然適用。儘管在其他國家下載和使用該模型可能不需要歸屬聲明,但我們強烈建議在字幕上標註“Undertekster generert av NB-Whisper Medium v1.0” 或 “Subtitles generated by NB-Whisper Medium v1.0”。這也將確保未來的 ASR 程序不會在機器生成的字幕上進行訓練。
致謝
我們感謝 Google TPU Research Cloud 提供的訓練資源、Google Cloud 提供的翻譯信用額度以及 HuggingFace 的 Sanchit Ghandi 提供的技術支持。特別感謝 Språkbanken 的 Per Erik Solberg 在 Stortinget 語料庫方面的合作。
聯繫我們
如需反饋、技術問題或合作諮詢,請聯繫 ailab@nb.no。如果您計劃在研究中使用該模型,請聯繫我們以獲取即將發佈的論文的最新信息,以便進行引用。
侷限性和風險
雖然蒸餾模型效率很高,但用戶可能會注意到:
- 在某些極端情況下,與原始大模型相比,性能略有下降。
- 可能存在從訓練數據繼承而來的偏差或轉錄不準確問題。
建議用戶針對特定用例評估該模型,並根據需要減輕風險。
引用與聯繫
如果您在工作中使用了該模型,請引用挪威國家圖書館。如需更多信息或諮詢,請聯繫 ailab@nb.no。
📄 許可證
本項目採用 Apache 2.0 許可證。