🚀 GlórIA 1.3B
GlórIA 1.3B 是一个专注于欧洲葡萄牙语的大型生成式语言模型,基于GPTNeo架构,拥有13亿参数,在葡萄牙语相关任务上有着出色的表现。
🚀 快速开始
基础推理示例
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
推荐参数和使用方法(更灵活)
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
✨ 主要特性
- 专注欧洲葡萄牙语:GlórIA特别关注欧洲葡萄牙语,在该语言的处理上表现出色。
- 基于GPTNeo架构:该模型基于GPTNeo,拥有24层和2048的隐藏层大小。
- 可复现研究:你可以查看我们发表在PROPOR 2024上的论文。
📦 安装指南
文档未提及安装步骤,故跳过。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
高级用法
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
📚 详细文档
模型描述
GlórIA 是一个大型生成式语言模型,特别专注于欧洲葡萄牙语。它是一个拥有13亿参数的模型,基于GPTNeo,有24层,隐藏层大小为2048。你可以查看我们被PROPOR 2024接收的论文。
训练数据
GlórIA 1.3B 在一个约350亿标记的大型语料库上进行训练。这个语料库由多个葡萄牙语来源组成:
评估 - CALAME-PT
在CALAME-PT上评估了GlórIA 1.3B的生成能力。CALAME-PT是一个新的葡萄牙语基准,旨在根据给定上下文预测句子的最后一个单词。
模型及规模 |
精确匹配率 |
Gervasio-PTPT (1B) |
44.01 |
mGPT (1.3B) |
47.14 |
GlórIA (1.3B) |
52.79 |
🔧 技术细节
文档未提及技术实现细节,故跳过。
📄 许可证
GlórIA的使用仅限于研究目的,需遵循ClueWeb22数据集的许可证,该许可证可从此处免费获取。
📖 引用
请使用以下BibTeX引用我们的论文:
@inproceedings{lopes-etal-2024-gloria,
title = "{G}l{\'o}r{IA}: A Generative and Open Large Language Model for {P}ortuguese",
author = "Lopes, Ricardo and
Magalhaes, Joao and
Semedo, David",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.propor-1.45",
pages = "441--453",
}
🙏 致谢
我们要感谢Arquivo.pt团队在内容保存方面的努力,以及在大规模访问存档网页方面提供的所有帮助和指导。这项工作部分由FCT项目NOVA LINCS(编号UIDP/04516/2020)、CMU|Portugal项目iFetch(编号CMUP LISBOA - 01 - 0247 - FEDER - 045920)和FCT项目(编号CPCA - IAC/AV/594875/2023)资助。