🚀 DA-Bert_Old_News_V1 模型卡片
DA-Bert_Old_News_V1 是基於丹麥絕對主義時期(1660 - 1849 年)的歷史文本訓練的 Transformer 模型的首個版本。該模型由奧爾堡大學的研究人員創建,旨在構建一個特定領域的模型,以捕捉那些與現代丹麥語差異較大的歷史文本的含義。
🚀 快速開始
使用以下代碼開始使用該模型:
✨ 主要特性
- 領域特定預測:可進行特定領域的掩碼標記預測。
- 嵌入提取:用於語義搜索的嵌入提取。
- 可微調性:可進行進一步的微調以適應特定用例,也可作為基於歷史 BERT 的丹麥語或斯堪的納維亞語語言模型的基線。
📦 安裝指南
原文未提及安裝步驟,暫無法提供。
💻 使用示例
基礎用法
高級用法
📚 詳細文檔
模型詳情
- 預訓練任務:基於 MLM(掩碼語言建模)任務的預訓練 BERT 模型。
- 訓練數據:ENO(Enevældens Nyheder Online),這是一個包含 1762 年至 1848 年丹麥和挪威報紙上的新聞文章、公告和廣告的語料庫。模型在約 2.6 億個單詞的子集上進行訓練,數據使用定製的 Transkribus Pylaia 模型創建,單詞級錯誤率約為 5%。
屬性 |
詳情 |
模型類型 |
BERT |
訓練數據 |
ENO 語料庫,包含 1762 - 1848 年丹麥和挪威報紙的新聞文章、公告和廣告,約 2.6 億個單詞,單詞級錯誤率約 5% |
模型描述
- 架構:BERT
- 預訓練目標:掩碼語言建模(MLM)
- 序列長度:512 個標記
- 分詞器:自定義 WordPiece 分詞器
模型來源
- 倉庫:https://github.com/CALDISS-AAU/OldNewsBERT
- 論文:正在進行中
使用場景
- 直接使用:可直接用於特定領域的掩碼標記預測,也可用於類似數據的基本平均池化嵌入,但結果可能因模型僅在 MLM 任務上訓練而有所不同。
- 不適用場景:由於模型在 ENO 數據集上訓練,不適合用於現代丹麥語文本。
偏差、風險和侷限性
- 時間侷限性:模型嚴重受限於訓練數據的歷史時期,用於現代丹麥語或其他斯堪的納維亞語言的掩碼標記預測時性能會有所不同,需要進一步微調。
- 數據偏差:訓練數據來自報紙,模型對這類材料和特定寫作方式存在偏差,在處理更多使用比喻性語言的材料時性能也會有所不同。
- 語料錯誤:語料創建過程中的錯誤導致模型存在一些小的偏差和風險,單詞級約有 5% 的錯誤會延續到預訓練模型中。
建議
該模型基於表達各種過時世界觀的歷史文本,包括種族主義、反民主和父權制情緒,這使其不適合許多用例,但可用於研究丹麥歷史中的此類偏差。
訓練詳情
訓練數據
原文未提供詳細信息。
訓練過程
- 預處理:移除長度小於 35 個字符的文本,移除包含預定數量德語、拉丁語或稀有單詞的文本,移除多餘的空格。
- 訓練超參數:
- 訓練機制:原文未提供詳細信息。
- 模型在提供的 HPC 系統上訓練約 45 小時。
- MLM 概率定義為 0.15。
- 訓練參數如原文所示。
速度、大小和時間
原文未提供詳細信息。
評估
測試數據、因素和指標
- 測試數據:原文未提供詳細信息。
- 因素:原文未提供詳細信息。
- 指標:交叉熵損失(BERT 在 MLM 訓練中的標準用法)、測試集平均損失、困惑度(基於損失值計算)。
結果
- 損失:2.08
- 測試集平均損失:2.07
- 困惑度:7.65
技術規格
模型架構和目標
原文未提供詳細信息。
計算基礎設施
- 硬件:硬件類型為 64 核(Intel Xeon Gold 6326),256 GB 內存,4 個 NVIDIA A10;使用時長為 44 小時 34 分鐘;雲服務提供商為 Ucloud SDU;計算區域基於南丹麥大學、奧胡斯大學和奧爾堡大學的雲服務。
- 軟件:Python 3.12.8
引用
原文未提供詳細的引用信息。
模型卡片作者
- Matias Appel (mkap@adm.aau.dk)
- Johan Heinsen (heinsen@dps.aau.dk)
模型卡片聯繫方式
CALDISS, AAU: www.caldiss.aau.dk