🚀 RobeCzech模型卡片
RobeCzech是一个基于捷克语数据训练的单语RoBERTa语言表示模型,可用于填空任务以及形态标注、词性还原、依存句法分析等下游任务。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")
✨ 主要特性
- 单语模型:专门针对捷克语进行训练,能更好地处理捷克语相关任务。
- 多任务支持:可直接用于填空任务,也适用于形态标注、词性还原、依存句法分析、命名实体识别和语义分析等下游任务。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("ufal/robeczech-base")
model = AutoModelForMaskedLM.from_pretrained("ufal/robeczech-base")
📚 详细文档
版本历史
- 版本1.1:于2024年1月发布,对分词器进行了如下修改;模型参数基本保持不变,但(a)通过复制合适的行来扩大嵌入层,以对应更新后的分词器,(b)去掉了池化层(最初它只是随机初始化的)。
初始版本的分词器(a)存在一个空洞(ID 51959不对应任何标记),(b)将几个标记(在训练期间未出现但BBPE分词器需要)映射到与
[UNK]
标记相同的ID(3)。这有时会导致问题,如此处所示。更多信息请见这里。
在版本1.1中,分词器进行了如下修改:(a)移除了空洞,(b)将所有标记映射到唯一的ID。这也需要增加词汇表大小和嵌入层权重(通过复制[UNK]
标记的嵌入)。在不进行微调的情况下,版本1.1和版本1.0在任何输入上给出的嵌入完全相同(除了版本1.1中缺少池化层),并且版本1.0中映射到与[UNK]
标记不同ID的标记在版本1.1中映射到相同的ID。
然而,嵌入层(以及语言模型头部的权重和偏差)的大小不同,因此版本1.1的权重与版本1.0的配置不兼容,反之亦然。
- 版本1.0:于2021年5月发布的初始版本(存在上述分词问题)。
如果您想加载版本1.0的预训练模型、配置或分词器,可以使用以下代码创建
AutoModel
、AutoConfig
或AutoTokenizer
:
from_pretrained("ufal/robeczech-base", revision="v1.0")
模型详情
- 模型描述:RobeCzech是一个基于捷克语数据训练的单语RoBERTa语言表示模型。
- 开发者:布拉格查理大学形式与应用语言研究所(UFAL)
- 共享方:Hugging Face和LINDAT/CLARIAH - CZ
- 模型类型:填空模型
- 语言:捷克语(cs)
- 许可证:cc - by - nc - sa - 4.0
- 模型架构:RoBERTa
- 更多信息资源:
使用场景
直接使用
填空任务。
下游使用
形态标注和词性还原、依存句法分析、命名实体识别和语义分析。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,见Sheng等人(2021)和Bender等人(2021))。模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(直接用户和下游用户)应该了解模型的风险、偏差和局限性。需要更多信息以提供进一步的建议。
训练详情
训练数据
模型创建者在相关论文中指出:
我们在以下公开可用文本的集合上训练了RobeCzech:
- SYN v4,一个大型当代书面捷克语语料库,包含41.88亿个标记;
- Czes,捷克报纸和杂志文章的集合,包含4.32亿个标记;
- 从网络语料库W2C的捷克部分中提取的至少包含400个标记的文档,使用MorphoDiTa进行分词,包含1600万个标记;
- 使用WikiEx - tractor从2020年10月20日的捷克维基百科转储中提取的纯文本,使用MorphoDiTa进行分词,包含1.23亿个标记。
所有这些语料库都包含完整的文档,即使SYN v4是块打乱的(在文档中,最多包含100个单词且尊重句子边界的块被打乱),总共包含49.17亿个标记。
训练过程
预处理
文本使用字节级BPE(BBPE)分词器分词为子词,该分词器在整个语料库上进行训练,我们将其词汇表大小限制为52000个条目。
速度、大小、时间
模型创建者在相关论文中指出:
训练批次大小为8192,每个训练批次由连续采样的句子组成,即使跨越文档边界,使得每个样本的总长度最多为512个标记(全句子设置)。我们使用Adam优化器,β1 = 0.9,β2 = 0.98,以最小化掩码语言建模目标。
所用软件
使用Fairseq实现进行训练。
评估
测试数据、因素和指标
测试数据
模型创建者在相关论文中指出:
我们在五个自然语言处理任务中评估RobeCzech,其中三个利用冻结的上下文词嵌入,两个采用微调方法:
- 形态分析和词性还原:冻结的上下文词嵌入
- 依存句法分析:冻结的上下文词嵌入
- 命名实体识别:冻结的上下文词嵌入
- 语义分析:微调
- 情感分析:微调
结果
模型 |
形态句法PDT3.5 (POS) (LAS) |
形态句法UD2.3 (XPOS) (LAS) |
命名实体识别CNEC1.1 (嵌套) (扁平) |
语义分析PTG (平均) (F1) |
RobeCzech |
98.50 91.42 |
98.31 93.77 |
87.82 87.47 |
92.36 80.13 |
环境影响
- 硬件类型:8块QUADRO P5000 GPU
- 使用时长:2190小时(约3个月)
引用
@InProceedings{10.1007/978-3-030-83527-9_17,
author={Straka, Milan and N{\'a}plava, Jakub and Strakov{\'a}, Jana and Samuel, David},
editor={Ek{\v{s}}tein, Kamil and P{\'a}rtl, Franti{\v{s}}ek and Konop{\'i}k, Miloslav},
title={{RobeCzech: Czech RoBERTa, a Monolingual Contextualized Language Representation Model}},
booktitle="Text, Speech, and Dialogue",
year="2021",
publisher="Springer International Publishing",
address="Cham",
pages="197--209",
isbn="978-3-030-83527-9"
}
🔧 技术细节
暂未提供相关技术细节。
📄 许可证
本模型采用cc - by - nc - sa - 4.0许可证。