GlorIA-1.3B开源语言模型 - 专注欧洲葡萄牙语的文本生成助手

Home

Gloria 1.3B

Developed by NOVA-vision-language

GlórIA 是一个专注于欧洲葡萄牙语的大规模生成式语言模型，基于GPTNeo架构，具有13亿参数。

大型语言模型

Transformers

Other#欧洲葡萄牙语生成 #大语言模型 #GPTNeo架构

Downloads 332

Release Time : 9/26/2023

Model Overview

该模型专门针对欧洲葡萄牙语优化，适用于文本生成任务，在CALAME-PT基准测试中表现出色。

Model Features

欧洲葡萄牙语优化

专门针对欧洲葡萄牙语训练，在葡萄牙语文本生成任务中表现优异

大规模训练数据

使用约350亿标记的多样化葡萄牙语语料库训练

开源研究友好

专注于研究用途，提供完整的模型架构和训练细节

Model Capabilities

葡萄牙语文本生成

上下文预测

语言模型推理

Use Cases

自然语言处理

葡萄牙语文本补全

根据给定的葡萄牙语文本片段生成连贯的后续内容

在CALAME-PT基准测试中达到52.79%的精确匹配率

葡萄牙文学分析

生成关于葡萄牙文学的分析和评论

🚀 GlórIA 1.3B

GlórIA 1.3B 是一个专注于欧洲葡萄牙语的大型生成式语言模型，基于GPTNeo架构，拥有13亿参数，在葡萄牙语相关任务上有着出色的表现。

🚀 快速开始

基础推理示例

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]

✨ 主要特性

专注欧洲葡萄牙语：GlórIA特别关注欧洲葡萄牙语，在该语言的处理上表现出色。
基于GPTNeo架构：该模型基于GPTNeo，拥有24层和2048的隐藏层大小。
可复现研究：你可以查看我们发表在PROPOR 2024上的论文。

📦 安装指南

文档未提及安装步骤，故跳过。

💻 使用示例

基础用法

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]

高级用法

from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
        max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
        no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
        output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
                                    tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]

📚 详细文档

模型描述

GlórIA 是一个大型生成式语言模型，特别专注于欧洲葡萄牙语。它是一个拥有13亿参数的模型，基于GPTNeo，有24层，隐藏层大小为2048。你可以查看我们被PROPOR 2024接收的论文。

训练数据

GlórIA 1.3B 在一个约350亿标记的大型语料库上进行训练。这个语料库由多个葡萄牙语来源组成：

ArquivoPT News PT-PT Dataset：来自Arquivo.pt的140万条欧洲葡萄牙语存档新闻和期刊的集合。
ClueWeb-Large PT-PT：多语言语料库，类似于OSCAR。使用元数据仅过滤出葡萄牙语网页。
Europarl PT-PT：一个平行语料库，包含欧洲议会的会议记录等文件（我们仅使用了葡萄牙语文件）。
OpenSubtitles PT-PT：一个包含来自OpenSubtitles的葡萄牙语字幕的语料库。
OSCAR PT-PT：通过过滤Common Crawl语料库获得的多语言语料库。我们使用元数据仅过滤出葡萄牙语网页。
PT WIKI：葡萄牙语维基百科，2022年6月20日的转储。

评估 - CALAME-PT

在CALAME-PT上评估了GlórIA 1.3B的生成能力。CALAME-PT是一个新的葡萄牙语基准，旨在根据给定上下文预测句子的最后一个单词。

模型及规模	精确匹配率
Gervasio-PTPT (1B)	44.01
mGPT (1.3B)	47.14
GlórIA (1.3B)	52.79

🔧 技术细节

文档未提及技术实现细节，故跳过。

📄 许可证

GlórIA的使用仅限于研究目的，需遵循ClueWeb22数据集的许可证，该许可证可从此处免费获取。

📖 引用

请使用以下BibTeX引用我们的论文：

@inproceedings{lopes-etal-2024-gloria,
    title = "{G}l{\'o}r{IA}: A Generative and Open Large Language Model for {P}ortuguese",
    author = "Lopes, Ricardo  and
      Magalhaes, Joao  and
      Semedo, David",
    editor = "Gamallo, Pablo  and
      Claro, Daniela  and
      Teixeira, Ant{\'o}nio  and
      Real, Livy  and
      Garcia, Marcos  and
      Oliveira, Hugo Gon{\c{c}}alo  and
      Amaro, Raquel",
    booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
    month = mar,
    year = "2024",
    address = "Santiago de Compostela, Galicia/Spain",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.propor-1.45",
    pages = "441--453",
}

🙏 致谢

我们要感谢Arquivo.pt团队在内容保存方面的努力，以及在大规模访问存档网页方面提供的所有帮助和指导。这项工作部分由FCT项目NOVA LINCS（编号UIDP/04516/2020）、CMU|Portugal项目iFetch（编号CMUP LISBOA - 01 - 0247 - FEDER - 045920）和FCT项目（编号CPCA - IAC/AV/594875/2023）资助。