Gloria 1.3B
GlórIA 是一個專注於歐洲葡萄牙語的大規模生成式語言模型,基於GPTNeo架構,具有13億參數。
下載量 332
發布時間 : 9/26/2023
模型概述
該模型專門針對歐洲葡萄牙語優化,適用於文本生成任務,在CALAME-PT基準測試中表現出色。
模型特點
歐洲葡萄牙語優化
專門針對歐洲葡萄牙語訓練,在葡萄牙語文本生成任務中表現優異
大規模訓練數據
使用約350億標記的多樣化葡萄牙語語料庫訓練
開源研究友好
專注於研究用途,提供完整的模型架構和訓練細節
模型能力
葡萄牙語文本生成
上下文預測
語言模型推理
使用案例
自然語言處理
葡萄牙語文本補全
根據給定的葡萄牙語文本片段生成連貫的後續內容
在CALAME-PT基準測試中達到52.79%的精確匹配率
葡萄牙文學分析
生成關於葡萄牙文學的分析和評論
🚀 GlórIA 1.3B
GlórIA 1.3B 是一個專注於歐洲葡萄牙語的大型生成式語言模型,基於GPTNeo架構,擁有13億參數,在葡萄牙語相關任務上有著出色的表現。
🚀 快速開始
基礎推理示例
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
推薦參數和使用方法(更靈活)
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
✨ 主要特性
- 專注歐洲葡萄牙語:GlórIA特別關注歐洲葡萄牙語,在該語言的處理上表現出色。
- 基於GPTNeo架構:該模型基於GPTNeo,擁有24層和2048的隱藏層大小。
- 可復現研究:你可以查看我們發表在PROPOR 2024上的論文。
📦 安裝指南
文檔未提及安裝步驟,故跳過。
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
高級用法
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
📚 詳細文檔
模型描述
GlórIA 是一個大型生成式語言模型,特別專注於歐洲葡萄牙語。它是一個擁有13億參數的模型,基於GPTNeo,有24層,隱藏層大小為2048。你可以查看我們被PROPOR 2024接收的論文。
訓練數據
GlórIA 1.3B 在一個約350億標記的大型語料庫上進行訓練。這個語料庫由多個葡萄牙語來源組成:
- ArquivoPT News PT-PT Dataset:來自Arquivo.pt的140萬條歐洲葡萄牙語存檔新聞和期刊的集合。
- ClueWeb-Large PT-PT:多語言語料庫,類似於OSCAR。使用元數據僅過濾出葡萄牙語網頁。
- Europarl PT-PT:一個平行語料庫,包含歐洲議會的會議記錄等文件(我們僅使用了葡萄牙語文件)。
- OpenSubtitles PT-PT:一個包含來自OpenSubtitles的葡萄牙語字幕的語料庫。
- OSCAR PT-PT:通過過濾Common Crawl語料庫獲得的多語言語料庫。我們使用元數據僅過濾出葡萄牙語網頁。
- PT WIKI:葡萄牙語維基百科,2022年6月20日的轉儲。
評估 - CALAME-PT
在CALAME-PT上評估了GlórIA 1.3B的生成能力。CALAME-PT是一個新的葡萄牙語基準,旨在根據給定上下文預測句子的最後一個單詞。
模型及規模 | 精確匹配率 |
---|---|
Gervasio-PTPT (1B) | 44.01 |
mGPT (1.3B) | 47.14 |
GlórIA (1.3B) | 52.79 |
🔧 技術細節
文檔未提及技術實現細節,故跳過。
📄 許可證
GlórIA的使用僅限於研究目的,需遵循ClueWeb22數據集的許可證,該許可證可從此處免費獲取。
📖 引用
請使用以下BibTeX引用我們的論文:
@inproceedings{lopes-etal-2024-gloria,
title = "{G}l{\'o}r{IA}: A Generative and Open Large Language Model for {P}ortuguese",
author = "Lopes, Ricardo and
Magalhaes, Joao and
Semedo, David",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.propor-1.45",
pages = "441--453",
}
🙏 致謝
我們要感謝Arquivo.pt團隊在內容保存方面的努力,以及在大規模訪問存檔網頁方面提供的所有幫助和指導。這項工作部分由FCT項目NOVA LINCS(編號UIDP/04516/2020)、CMU|Portugal項目iFetch(編號CMUP LISBOA - 01 - 0247 - FEDER - 045920)和FCT項目(編號CPCA - IAC/AV/594875/2023)資助。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98