🚀 DA-Bert_Old_News_V1 模型卡片
DA-Bert_Old_News_V1 是基于丹麦绝对主义时期(1660 - 1849 年)的历史文本训练的 Transformer 模型的首个版本。该模型由奥尔堡大学的研究人员创建,旨在构建一个特定领域的模型,以捕捉那些与现代丹麦语差异较大的历史文本的含义。
🚀 快速开始
使用以下代码开始使用该模型:
✨ 主要特性
- 领域特定预测:可进行特定领域的掩码标记预测。
- 嵌入提取:用于语义搜索的嵌入提取。
- 可微调性:可进行进一步的微调以适应特定用例,也可作为基于历史 BERT 的丹麦语或斯堪的纳维亚语语言模型的基线。
📦 安装指南
原文未提及安装步骤,暂无法提供。
💻 使用示例
基础用法
高级用法
📚 详细文档
模型详情
- 预训练任务:基于 MLM(掩码语言建模)任务的预训练 BERT 模型。
- 训练数据:ENO(Enevældens Nyheder Online),这是一个包含 1762 年至 1848 年丹麦和挪威报纸上的新闻文章、公告和广告的语料库。模型在约 2.6 亿个单词的子集上进行训练,数据使用定制的 Transkribus Pylaia 模型创建,单词级错误率约为 5%。
属性 |
详情 |
模型类型 |
BERT |
训练数据 |
ENO 语料库,包含 1762 - 1848 年丹麦和挪威报纸的新闻文章、公告和广告,约 2.6 亿个单词,单词级错误率约 5% |
模型描述
- 架构:BERT
- 预训练目标:掩码语言建模(MLM)
- 序列长度:512 个标记
- 分词器:自定义 WordPiece 分词器
模型来源
- 仓库:https://github.com/CALDISS-AAU/OldNewsBERT
- 论文:正在进行中
使用场景
- 直接使用:可直接用于特定领域的掩码标记预测,也可用于类似数据的基本平均池化嵌入,但结果可能因模型仅在 MLM 任务上训练而有所不同。
- 不适用场景:由于模型在 ENO 数据集上训练,不适合用于现代丹麦语文本。
偏差、风险和局限性
- 时间局限性:模型严重受限于训练数据的历史时期,用于现代丹麦语或其他斯堪的纳维亚语言的掩码标记预测时性能会有所不同,需要进一步微调。
- 数据偏差:训练数据来自报纸,模型对这类材料和特定写作方式存在偏差,在处理更多使用比喻性语言的材料时性能也会有所不同。
- 语料错误:语料创建过程中的错误导致模型存在一些小的偏差和风险,单词级约有 5% 的错误会延续到预训练模型中。
建议
该模型基于表达各种过时世界观的历史文本,包括种族主义、反民主和父权制情绪,这使其不适合许多用例,但可用于研究丹麦历史中的此类偏差。
训练详情
训练数据
原文未提供详细信息。
训练过程
- 预处理:移除长度小于 35 个字符的文本,移除包含预定数量德语、拉丁语或稀有单词的文本,移除多余的空格。
- 训练超参数:
- 训练机制:原文未提供详细信息。
- 模型在提供的 HPC 系统上训练约 45 小时。
- MLM 概率定义为 0.15。
- 训练参数如原文所示。
速度、大小和时间
原文未提供详细信息。
评估
测试数据、因素和指标
- 测试数据:原文未提供详细信息。
- 因素:原文未提供详细信息。
- 指标:交叉熵损失(BERT 在 MLM 训练中的标准用法)、测试集平均损失、困惑度(基于损失值计算)。
结果
- 损失:2.08
- 测试集平均损失:2.07
- 困惑度:7.65
技术规格
模型架构和目标
原文未提供详细信息。
计算基础设施
- 硬件:硬件类型为 64 核(Intel Xeon Gold 6326),256 GB 内存,4 个 NVIDIA A10;使用时长为 44 小时 34 分钟;云服务提供商为 Ucloud SDU;计算区域基于南丹麦大学、奥胡斯大学和奥尔堡大学的云服务。
- 软件:Python 3.12.8
引用
原文未提供详细的引用信息。
模型卡片作者
- Matias Appel (mkap@adm.aau.dk)
- Johan Heinsen (heinsen@dps.aau.dk)
模型卡片联系方式
CALDISS, AAU: www.caldiss.aau.dk