Gloria 1.3B
GlórIA 是一个专注于欧洲葡萄牙语的大规模生成式语言模型,基于GPTNeo架构,具有13亿参数。
下载量 332
发布时间 : 9/26/2023
模型简介
该模型专门针对欧洲葡萄牙语优化,适用于文本生成任务,在CALAME-PT基准测试中表现出色。
模型特点
欧洲葡萄牙语优化
专门针对欧洲葡萄牙语训练,在葡萄牙语文本生成任务中表现优异
大规模训练数据
使用约350亿标记的多样化葡萄牙语语料库训练
开源研究友好
专注于研究用途,提供完整的模型架构和训练细节
模型能力
葡萄牙语文本生成
上下文预测
语言模型推理
使用案例
自然语言处理
葡萄牙语文本补全
根据给定的葡萄牙语文本片段生成连贯的后续内容
在CALAME-PT基准测试中达到52.79%的精确匹配率
葡萄牙文学分析
生成关于葡萄牙文学的分析和评论
🚀 GlórIA 1.3B
GlórIA 1.3B 是一个专注于欧洲葡萄牙语的大型生成式语言模型,基于GPTNeo架构,拥有13亿参数,在葡萄牙语相关任务上有着出色的表现。
🚀 快速开始
基础推理示例
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
推荐参数和使用方法(更灵活)
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
✨ 主要特性
- 专注欧洲葡萄牙语:GlórIA特别关注欧洲葡萄牙语,在该语言的处理上表现出色。
- 基于GPTNeo架构:该模型基于GPTNeo,拥有24层和2048的隐藏层大小。
- 可复现研究:你可以查看我们发表在PROPOR 2024上的论文。
📦 安装指南
文档未提及安装步骤,故跳过。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
高级用法
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
📚 详细文档
模型描述
GlórIA 是一个大型生成式语言模型,特别专注于欧洲葡萄牙语。它是一个拥有13亿参数的模型,基于GPTNeo,有24层,隐藏层大小为2048。你可以查看我们被PROPOR 2024接收的论文。
训练数据
GlórIA 1.3B 在一个约350亿标记的大型语料库上进行训练。这个语料库由多个葡萄牙语来源组成:
- ArquivoPT News PT-PT Dataset:来自Arquivo.pt的140万条欧洲葡萄牙语存档新闻和期刊的集合。
- ClueWeb-Large PT-PT:多语言语料库,类似于OSCAR。使用元数据仅过滤出葡萄牙语网页。
- Europarl PT-PT:一个平行语料库,包含欧洲议会的会议记录等文件(我们仅使用了葡萄牙语文件)。
- OpenSubtitles PT-PT:一个包含来自OpenSubtitles的葡萄牙语字幕的语料库。
- OSCAR PT-PT:通过过滤Common Crawl语料库获得的多语言语料库。我们使用元数据仅过滤出葡萄牙语网页。
- PT WIKI:葡萄牙语维基百科,2022年6月20日的转储。
评估 - CALAME-PT
在CALAME-PT上评估了GlórIA 1.3B的生成能力。CALAME-PT是一个新的葡萄牙语基准,旨在根据给定上下文预测句子的最后一个单词。
模型及规模 | 精确匹配率 |
---|---|
Gervasio-PTPT (1B) | 44.01 |
mGPT (1.3B) | 47.14 |
GlórIA (1.3B) | 52.79 |
🔧 技术细节
文档未提及技术实现细节,故跳过。
📄 许可证
GlórIA的使用仅限于研究目的,需遵循ClueWeb22数据集的许可证,该许可证可从此处免费获取。
📖 引用
请使用以下BibTeX引用我们的论文:
@inproceedings{lopes-etal-2024-gloria,
title = "{G}l{\'o}r{IA}: A Generative and Open Large Language Model for {P}ortuguese",
author = "Lopes, Ricardo and
Magalhaes, Joao and
Semedo, David",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.propor-1.45",
pages = "441--453",
}
🙏 致谢
我们要感谢Arquivo.pt团队在内容保存方面的努力,以及在大规模访问存档网页方面提供的所有帮助和指导。这项工作部分由FCT项目NOVA LINCS(编号UIDP/04516/2020)、CMU|Portugal项目iFetch(编号CMUP LISBOA - 01 - 0247 - FEDER - 045920)和FCT项目(编号CPCA - IAC/AV/594875/2023)资助。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98