DA BERT Old News V1

D

DA BERT Old News V1

由CALDISS-AAU開發

首個基於丹麥專制時期（1660-1849年）歷史文本訓練的變壓器模型，由奧爾堡大學研究人員開發，用於處理與現代丹麥語差異較大的歷史文本語義。

大型語言模型

其他開源協議:MIT #丹麥歷史文本 #領域專用BERT #古語語義分析

下載量 48

發布時間 : 4/1/2025

模型概述

基於MLM任務預訓練的BERT模型，專門針對丹麥專制時期的歷史文本進行優化，能夠更好地理解和處理這些與現代丹麥語有顯著差異的文本。

模型特點

歷史文本優化

專門針對丹麥專制時期（1660-1849年）的歷史文本進行訓練，能夠更好地捕捉與現代丹麥語差異較大的語義。

定製分詞器

使用定製WordPiece分詞器，優化對歷史文本的分詞效果。

高質量訓練數據

訓練數據來自ENO語料庫，包含1762至1848年間丹麥與挪威報紙的新聞、公告及廣告，單詞級錯誤率約為5%。

模型能力

填充掩碼

歷史文本語義理解

使用案例

歷史研究

歷史文本分析

用於分析丹麥專制時期的歷史文本，幫助研究人員理解當時的語言使用和社會背景。

歷史文獻翻譯輔助

輔助翻譯歷史文獻，提供更準確的語義理解。

語言學

語言演變研究

用於研究丹麥語從專制時期到現代的演變過程。

🚀 DA-Bert_Old_News_V1 模型卡片

DA-Bert_Old_News_V1 是基於丹麥絕對主義時期（1660 - 1849 年）的歷史文本訓練的 Transformer 模型的首個版本。該模型由奧爾堡大學的研究人員創建，旨在構建一個特定領域的模型，以捕捉那些與現代丹麥語差異較大的歷史文本的含義。

🚀 快速開始

使用以下代碼開始使用該模型：

# 此處應補充具體代碼，原文未提供

✨ 主要特性

領域特定預測：可進行特定領域的掩碼標記預測。
嵌入提取：用於語義搜索的嵌入提取。
可微調性：可進行進一步的微調以適應特定用例，也可作為基於歷史 BERT 的丹麥語或斯堪的納維亞語語言模型的基線。

📦 安裝指南

原文未提及安裝步驟，暫無法提供。

💻 使用示例

基礎用法

# 此處應補充基礎用法代碼，原文未提供

高級用法

# 此處應補充高級用法代碼及說明，原文未提供

📚 詳細文檔

模型詳情

預訓練任務：基於 MLM（掩碼語言建模）任務的預訓練 BERT 模型。
訓練數據：ENO（Enevældens Nyheder Online），這是一個包含 1762 年至 1848 年丹麥和挪威報紙上的新聞文章、公告和廣告的語料庫。模型在約 2.6 億個單詞的子集上進行訓練，數據使用定製的 Transkribus Pylaia 模型創建，單詞級錯誤率約為 5%。

屬性	詳情
模型類型	BERT
訓練數據	ENO 語料庫，包含 1762 - 1848 年丹麥和挪威報紙的新聞文章、公告和廣告，約 2.6 億個單詞，單詞級錯誤率約 5%

模型描述

架構：BERT
預訓練目標：掩碼語言建模（MLM）
序列長度：512 個標記
分詞器：自定義 WordPiece 分詞器

模型來源

倉庫：https://github.com/CALDISS-AAU/OldNewsBERT
論文：正在進行中

使用場景

直接使用：可直接用於特定領域的掩碼標記預測，也可用於類似數據的基本平均池化嵌入，但結果可能因模型僅在 MLM 任務上訓練而有所不同。
不適用場景：由於模型在 ENO 數據集上訓練，不適合用於現代丹麥語文本。

偏差、風險和侷限性

時間侷限性：模型嚴重受限於訓練數據的歷史時期，用於現代丹麥語或其他斯堪的納維亞語言的掩碼標記預測時性能會有所不同，需要進一步微調。
數據偏差：訓練數據來自報紙，模型對這類材料和特定寫作方式存在偏差，在處理更多使用比喻性語言的材料時性能也會有所不同。
語料錯誤：語料創建過程中的錯誤導致模型存在一些小的偏差和風險，單詞級約有 5% 的錯誤會延續到預訓練模型中。

建議

該模型基於表達各種過時世界觀的歷史文本，包括種族主義、反民主和父權制情緒，這使其不適合許多用例，但可用於研究丹麥歷史中的此類偏差。

訓練詳情

訓練數據

原文未提供詳細信息。

訓練過程

預處理：移除長度小於 35 個字符的文本，移除包含預定數量德語、拉丁語或稀有單詞的文本，移除多餘的空格。
訓練超參數：
- 訓練機制：原文未提供詳細信息。
- 模型在提供的 HPC 系統上訓練約 45 小時。
- MLM 概率定義為 0.15。
- 訓練參數如原文所示。

速度、大小和時間

原文未提供詳細信息。

評估

測試數據、因素和指標

測試數據：原文未提供詳細信息。
因素：原文未提供詳細信息。
指標：交叉熵損失（BERT 在 MLM 訓練中的標準用法）、測試集平均損失、困惑度（基於損失值計算）。

結果

損失：2.08
測試集平均損失：2.07
困惑度：7.65

技術規格

模型架構和目標

原文未提供詳細信息。

計算基礎設施

硬件：硬件類型為 64 核（Intel Xeon Gold 6326），256 GB 內存，4 個 NVIDIA A10；使用時長為 44 小時 34 分鐘；雲服務提供商為 Ucloud SDU；計算區域基於南丹麥大學、奧胡斯大學和奧爾堡大學的雲服務。
軟件：Python 3.12.8

引用

原文未提供詳細的引用信息。

模型卡片作者

Matias Appel (mkap@adm.aau.dk)
Johan Heinsen (heinsen@dps.aau.dk)

模型卡片聯繫方式

CALDISS, AAU: www.caldiss.aau.dk

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase