GePpeTto: An Open-Source Italian GPT-2 Model - Trained on Rich Corpora to Aid Language Processing

Geppetto

Developed by LorenzoDeMattei

GPT2 model pre-trained for Italian language, 117M parameters, trained on Italian Wikipedia and ItWac corpus

Large Language Model Other#Italian text generation #Multi-domain text generation #Wikipedia optimization

Downloads 78.22k

Release Time : 3/2/2022

Model Overview

This is a GPT-2 language model specifically optimized for Italian, suitable for Italian text generation and comprehension tasks.

Model Features

Italian language optimization

Specifically pre-trained for Italian, excelling in Italian text performance

Mixed corpus training

Combines standard Italian (Wikipedia) and non-standard Italian (web text) corpora

Strong domain adaptability

Exhibits varying perplexity across different domains of Italian text, adaptable to multiple application scenarios

Model Capabilities

Italian text generation

Italian text completion

Italian language understanding

Use Cases

Content creation

Italian article generation

Generate Italian articles or paragraphs based on prompts

Examples demonstrate Wikipedia-style article generation

Story continuation

Continue writing based on given Italian story openings

Examples show continuation effects based on 'Pinocchio' excerpts

Education

Italian learning assistance

Generate Italian learning materials or exercises

🚀 GePpeTto GPT2 Model

A pretrained GPT2 117M model tailored for the Italian language.

You can find further details in the paper:

Lorenzo De Mattei, Michele Cafagna, Felice Dell’Orletta, Malvina Nissim, Marco Guerini "GePpeTto Carves Italian into a Language Model", arXiv preprint. Pdf available at: https://arxiv.org/abs/2004.14253

📚 Pretraining Corpus

The pretraining dataset is sourced from two main areas. The first is a dump of Italian Wikipedia (November 2019), which contains 2.8GB of text. The second is the ItWac corpus (Baroni et al., 2009), a collection of 11GB of web text. This combination offers a blend of standard and non - standard Italian over a wide time frame, including older texts compared to the Wikipedia dump (which only dates back to the late 2000s).

🔧 Pretraining details

This model was trained using GPT2's Hugging Face implementation on 4 NVIDIA Tesla T4 GPUs for 620k steps.

Training parameters:

GPT - 2 small configuration
Vocabulary size: 30k
Batch size: 32
Block size: 100
Adam Optimizer
Initial learning rate: 5e - 5
Warm - up steps: 10k

📊 Perplexity scores

Domain	Perplexity
Wikipedia	26.1052
ItWac	30.3965
Legal	37.2197
News	45.3859
Social Media	84.6408

For more details, qualitative analysis, and human evaluation, visit: https://arxiv.org/abs/2004.14253

📦 Load Pretrained Model

You can use this model by installing the Huggingface library transformers. Initialize it as follows:

from transformers import GPT2Tokenizer, GPT2Model

model = GPT2Model.from_pretrained('LorenzoDeMattei/GePpeTto')
tokenizer = GPT2Tokenizer.from_pretrained(
    'LorenzoDeMattei/GePpeTto',
)

💻 Usage Examples

Basic Usage

from transformers import GPT2Tokenizer, GPT2Model

model = GPT2Model.from_pretrained('LorenzoDeMattei/GePpeTto')
tokenizer = GPT2Tokenizer.from_pretrained(
    'LorenzoDeMattei/GePpeTto',
)

Advanced Usage

from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, GPT2Tokenizer

tokenizer = AutoTokenizer.from_pretrained("LorenzoDeMattei/GePpeTto")
model = AutoModelWithLMHead.from_pretrained("LorenzoDeMattei/GePpeTto")

text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer)
prompts = [
    "Wikipedia Geppetto",
    "Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso"]


samples_outputs = text_generator(
    prompts,
    do_sample=True,
    max_length=50,
    top_k=50,
    top_p=0.95,
    num_return_sequences=3
)


for i, sample_outputs in enumerate(samples_outputs):
    print(100 * '-')
    print("Prompt:", prompts[i])
    for sample_output in sample_outputs:
        print("Sample:", sample_output['generated_text'])
        print()

Output

----------------------------------------------------------------------------------------------------
Prompt: Wikipedia Geppetto
Sample: Wikipedia Geppetto rosso (film 1920)

Geppetto rosso ("The Smokes in the Black") è un film muto del 1920 diretto da Henry H. Leonard.

Il film fu prodotto dalla Selig Poly

Sample: Wikipedia Geppetto

Geppetto ("Geppetto" in piemontese) è un comune italiano di 978 abitanti della provincia di Cuneo in Piemonte.

L'abitato, che si trova nel versante valtellinese, si sviluppa nella

Sample: Wikipedia Geppetto di Natale (romanzo)

Geppetto di Natale è un romanzo di Mario Caiano, pubblicato nel 2012.

----------------------------------------------------------------------------------------------------
Prompt: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso
Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso. Il burattino riesce a scappare. Dopo aver trovato un prezioso sacchetto si reca

Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso, e l'unico che lo possiede, ma, di fronte a tutte queste prove

Sample: Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, il quale lo prende per fabbricarsi un burattino maraviglioso: - A voi gli occhi, le guance! A voi il mio pezzo!

📖 Citation

Please use the following BibTeX entry for citation:

@misc{mattei2020geppetto,
    title={GePpeTto Carves Italian into a Language Model},
    author={Lorenzo De Mattei and Michele Cafagna and Felice Dell'Orletta and Malvina Nissim and Marco Guerini},
    year={2020},
    eprint={2004.14253},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

📚 References

Marco Baroni, Silvia Bernardini, Adriano Ferraresi, and Eros Zanchetta. 2009. The WaCky wide web: a collection of very large linguistically processed web - crawled corpora. Language resources and evaluation, 43(3):209–226.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご