guwenbert-large开源模型 - 助力古文处理任务，免费实现文言文智能应用

首页

Guwenbert Large

由 ethanyt 开发

基于文言文预训练的RoBERTa模型，适用于古文处理任务

大型语言模型中文开源协议:Apache-2.0 #文言文预训练 #古籍命名实体识别 #古文断句标点

下载量 217

发布时间 : 3/2/2022

模型简介

这是一个专门针对文言文预训练的RoBERTa模型，可用于古文相关的下游任务如断句、标点、命名实体识别等。

模型特点

文言文专用预训练

专门针对文言文进行预训练，能更好地理解古文语义和语法结构

两阶段训练策略

采用先训练词嵌入层再训练全部参数的两阶段策略，提高训练效果

大规模训练数据

使用殆知阁古代文献数据集，包含15,694本文言文书籍，17亿字符

模型能力

古文语义理解

古文填充掩码预测

古文断句

古文标点

古文命名实体识别

使用案例

古籍处理

古籍命名实体识别

识别古籍中的书名、人名等实体

在'古联杯'古籍命名实体识别评测中获得第二名，F1值84.63

古文断句标点

为无标点古文自动添加标点符号

🚀 GuwenBERT

GuwenBERT是一个在文言文上预训练的RoBERTa模型。它可以针对下游任务进行微调，例如断句、标点标注、命名实体识别等，为文言文相关的自然语言处理任务提供了强大的支持。

🚀 快速开始

你可以按照以下代码示例来使用GuwenBERT：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("ethanyt/guwenbert-large")

model = AutoModel.from_pretrained("ethanyt/guwenbert-large")

✨ 主要特性

基于RoBERTa架构，在大量文言文数据上进行预训练。
可针对多种下游任务进行微调，如断句、标点标注、命名实体识别等。

📦 安装指南

文档中未提及具体安装命令，若需使用可参考transformers库的安装方式。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("ethanyt/guwenbert-large")

model = AutoModel.from_pretrained("ethanyt/guwenbert-large")

📚 详细文档

模型描述

GuwenBERT是一个在文言文上预训练的RoBERTa模型。你可以对GuwenBERT进行微调以用于下游任务，如断句、标点标注、命名实体识别等。关于RoBERTa的更多信息，请查看RoBERTa的官方仓库。

训练数据

训练数据为殆知阁古代文献数据集，包含15,694本文言文书籍，涵盖佛教、儒家、医学、历史、子部、易部、经藏、史藏、道教和集藏等领域。其中76%的书籍带有标点。总字符数为17亿（1,743,337,673）。所有繁体字都已转换为简体字。词汇表由此数据集构建而成，大小为23,292。

训练过程

模型使用hfl/chinese-roberta-wwm-ext-large进行初始化，然后采用两步策略进行预训练。第一步，模型仅更新词嵌入进行掩码语言模型（MLM）学习，直至收敛。第二步，在训练过程中更新所有参数。模型在4块V100 GPU上训练了120K步（第一步20K步，第二步100K步），批次大小为2,048，序列长度为512。使用的优化器是Adam，学习率为1e - 4，adam - betas为(0.9, 0.98)，adam - eps为1e - 6，权重衰减为0.01，学习率在5K步内进行热身，之后线性衰减。