🚀 基于清理后的荷兰语mC4预训练的GPT2-Large 🇳🇱
这是一个基于荷兰语从头开始训练的GPT2大模型(7.62亿参数),在清理后的荷兰语mC4数据集上的困惑度为15.1。该模型可以有效处理荷兰语文本生成任务,为荷兰语相关的自然语言处理应用提供强大支持。
🚀 快速开始
你可以直接使用此GPT2模型搭配文本生成管道。
基础用法
MODEL_DIR='yhavinga/gpt2-large-dutch'
from transformers import pipeline, GPT2Tokenizer, GPT2LMHeadModel
tokenizer = GPT2Tokenizer.from_pretrained(MODEL_DIR)
model = GPT2LMHeadModel.from_pretrained(MODEL_DIR)
generator = pipeline('text-generation', model, tokenizer=tokenizer)
generated_text = generator('Het eiland West-', max_length=100, do_sample=True, top_k=40, top_p=0.95, repetition_penalty=2.0)
示例输出
"Het eiland West-" - "Terschelling wordt sinds jaar en dag bewoond door de mens. De mensen die in het huidige Terherne wonen doen er alles aan om hun dorp te behouden voor deze diersoort, namelijk; een natuurreservaat dat vooral bestaat uit hoge duinen met lage begroeing waar planten van vroeger worden afgewisseld (zoals wilde hyacinten)en waarop grassen groeien waarvan sommige soorten zeldzame vormen hebben ontwikkeld: duinlelie of blauwe bosbes zijn bijvoorbeeld bekend vanwege onder andere kleurmole"
✨ 主要特性
分词器
- 使用Huggingface Transformers Flax示例 中的脚本,基于清理后的荷兰语mC4数据集为荷兰语从头开始训练的BPE分词器。
数据集
该模型在 清理后的荷兰语mC4 的 full
配置(330亿个标记)上进行训练,清理规则如下:
- 移除包含荷兰语和英语 不文明词汇列表 中词汇的文档。
- 移除单词数少于3个的句子。
- 移除包含超过1000个字符的单词的句子。
- 移除句子数少于5个的文档。
- 移除包含 "javascript"、"lorum ipsum"、"terms of use"、"privacy policy"、"cookie policy"、"uses cookies"、"use of cookies"、"use cookies"、"elementen ontbreken"、"deze printversie" 的文档。
模型对比
TL;DR: yhavinga/gpt2-medium-dutch 是最佳模型。
- 步骤列中带有
a
/b
的模型已训练到总共 b
步中的第 a
步。
属性 |
详情 |
模型类型 |
包括gpt neo和gpt2类型 |
训练数据 |
清理后的荷兰语mC4的 full 配置(33B tokens) |
📄 许可证
文档未提及相关信息。
致谢
如果没有Google通过 TPU研究云 慷慨提供的计算资源,这个项目是不可能完成的。HuggingFace 🤗 生态系统在训练的大部分(如果不是全部)环节也起到了重要作用。以下仓库在设置TPU-VM和训练模型方面提供了帮助:
由 Yeb Havinga 创建。