🚀 杰佩托(GePpeTto)GPT2 模型 🇮🇹
这是一个为意大利语预训练的 GPT2 117M 模型。
你可以在以下论文中找到更多详细信息:
Lorenzo De Mattei、Michele Cafagna、Felice Dell’Orletta、Malvina Nissim、Marco Guerini 所著的 “GePpeTto Carves Italian into a Language Model”,arXiv 预印本。可在以下链接获取 PDF:https://arxiv.org/abs/2004.14253
🚀 快速开始
加载预训练模型
你可以通过安装 Huggingface 库 transformers
来使用这个模型。可以按照如下方式直接初始化使用:
from transformers import GPT2Tokenizer, GPT2Model
model = GPT2Model.from_pretrained('LorenzoDeMattei/GePpeTto')
tokenizer = GPT2Tokenizer.from_pretrained(
'LorenzoDeMattei/GePpeTto',
)
使用示例
以下是使用 GPT2LMHeadModel
的示例代码:
from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, GPT2Tokenizer
tokenizer = AutoTokenizer.from_pretrained("LorenzoDeMattei/GePpeTto")
model = AutoModelWithLMHead.from_pretrained("LorenzoDeMattei/GePpeTto")
text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
prompts = [
"Wikipedia Geppetto",
"Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso"
]
samples_outputs = text_generator(
prompts,
do_sample=True,
max_length=50,
top_k=50,
top_p=0.95,
num_return_sequences=3
)
for i, sample_outputs in enumerate(samples_outputs):
print(100 * '-')
print("Prompt:", prompts[i])
for sample_output in sample_outputs:
print("Sample:", sample_output['generated_text'])
print()
输出结果如下:
----------------------------------------------------------------------------------------------------
Prompt: Wikipedia Geppetto
Sample: Wikipedia Geppetto rosso (film 1920)
Geppetto rosso ("The Smokes in the Black") è un film muto del 1920 diretto da Henry H. Leonard.
Il film fu prodotto dalla Selig Poly
Sample: Wikipedia Geppetto
Geppetto ("Geppetto" in piemontese) è un comune italiano di 978 abitanti della provincia di Cuneo in Piemonte.
L'abitato, che si trova nel versante valtellinese, si sviluppa nella
Sample: Wikipedia Geppetto di Natale (romanzo)
Geppetto di Natale è un romanzo di Mario Caiano, pubblicato nel 2012.
----------------------------------------------------------------------------------------------------
Prompt: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso. Il burattino riesce a scappare. Dopo aver trovato un prezioso sacchetto si reca
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso, e l'unico che lo possiede, ma, di fronte a tutte queste prove
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso: - A voi gli occhi, le guance! A voi il mio pezzo!
📚 详细文档
预训练语料库
预训练集主要包含两个来源。第一个是 2019 年 11 月的意大利维基百科转储,包含 2.8GB 的文本。第二个是 ItWac 语料库(Baroni 等人,2009 年),包含 11GB 的网络文本。这个集合提供了标准和不太标准的意大利语混合,时间跨度相当广泛,包含比维基百科转储更古老的文本(维基百科转储仅涵盖到 2000 年代后期)。
预训练细节
该模型使用 GPT2 的 Hugging Face 实现,在 4 个 NVIDIA Tesla T4 GPU 上进行了 620k 步的训练。
训练参数如下:
- GPT - 2 小模型配置
- 词汇量大小:30k
- 批量大小:32
- 块大小:100
- Adam 优化器
- 初始学习率:5e - 5
- 热身步数:10k
困惑度得分
领域 |
困惑度 |
维基百科 |
26.1052 |
ItWac |
30.3965 |
法律 |
37.2197 |
新闻 |
45.3859 |
社交媒体 |
84.6408 |
更多详细信息、定性分析和人工评估请查看:https://arxiv.org/abs/2004.14253
📄 引用
请使用以下 BibTeX 条目进行引用:
@misc{mattei2020geppetto,
title={GePpeTto Carves Italian into a Language Model},
author={Lorenzo De Mattei and Michele Cafagna and Felice Dell'Orletta and Malvina Nissim and Marco Guerini},
year={2020},
eprint={2004.14253},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📚 参考文献
Marco Baroni、Silvia Bernardini、Adriano Ferraresi 和 Eros Zanchetta. 2009. The WaCky wide web: a collection of very large linguistically processed web - crawled corpora. Language resources and evaluation, 43(3):209–226.