DA BERT Old News V1
首個基於丹麥專制時期(1660-1849年)歷史文本訓練的變壓器模型,由奧爾堡大學研究人員開發,用於處理與現代丹麥語差異較大的歷史文本語義。
Downloads 48
Release Time : 4/1/2025
Model Overview
基於MLM任務預訓練的BERT模型,專門針對丹麥專制時期的歷史文本進行優化,能夠更好地理解和處理這些與現代丹麥語有顯著差異的文本。
Model Features
歷史文本優化
專門針對丹麥專制時期(1660-1849年)的歷史文本進行訓練,能夠更好地捕捉與現代丹麥語差異較大的語義。
定製分詞器
使用定製WordPiece分詞器,優化對歷史文本的分詞效果。
高質量訓練數據
訓練數據來自ENO語料庫,包含1762至1848年間丹麥與挪威報紙的新聞、公告及廣告,單詞級錯誤率約為5%。
Model Capabilities
填充掩碼
歷史文本語義理解
Use Cases
歷史研究
歷史文本分析
用於分析丹麥專制時期的歷史文本,幫助研究人員理解當時的語言使用和社會背景。
歷史文獻翻譯輔助
輔助翻譯歷史文獻,提供更準確的語義理解。
語言學
語言演變研究
用於研究丹麥語從專制時期到現代的演變過程。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98