🚀 GlórIA 1.3B
GlórIAは大規模生成型言語モデルで、特にヨーロッパ・ポルトガル語に焦点を当てています。このモデルは、GPTNeoをベースに構築され、自然言語処理タスクにおいて高い性能を発揮します。
🚀 クイックスタート
GlórIA 1.3Bの基本的な使い方を紹介します。以下のコード例を参考に、モデルを利用してみてください。
✨ 主な機能
- ヨーロッパ・ポルトガル語に特化:ヨーロッパ・ポルトガル語のコーパスで学習されたため、この言語に特化した高精度なテキスト生成が可能です。
- 大規模パラメータモデル:13億個のパラメータを持つ大規模モデルで、複雑な言語パターンを学習しています。
📦 インストール
このモデルはtransformers
ライブラリを使用しています。インストールには以下のコマンドを実行します。
pip install transformers
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("A culinária portuguesa é rica em aromas e", do_sample=True, min_length=50)
[{'generated_text': 'A culinária portuguesa é rica em aromas e'}]
高度な使用法
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["Fernando Pessoa foi um dos poetas mais relevantes de"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': 'Fernando Pessoa foi um dos poetas mais relevantes de toda a literatura portuguesa, autor de uma obra que se estende por mais de quatro dezenas de livros, entre os quais "Mensagem", "O Guardador de Rebanhos", "Livro do desassossego", "Odes",'}]]
📚 ドキュメント
モデルの説明
GlórIAは大規模生成型言語モデルで、特にヨーロッパ・ポルトガル語に焦点を当てています。これは13億個のパラメータを持つモデルで、GPTNeoをベースに構築されており、24層と2048の隠れサイズを持っています。
論文はこちらで確認できます。この論文はPROPOR 2024で採択されています。
学習データ
GlórIA 1.3Bは約350億トークンの大規模コーパスで学習されました。このコーパスは複数のポルトガル語ソースを集めて構築されました。
評価 - CALAME-PT
GlórIA 1.3Bの生成能力はCALAME-PTで評価されました。これは与えられた文脈に基づいて文の最後の単語を予測することを目的とした新しいポルトガル語のベンチマークです。
モデルとサイズ |
完全一致率 |
Gervasio-PTPT (1B) |
44.01 |
mGPT (1.3B) |
47.14 |
GlórIA (1.3B) |
52.79 |
📄 ライセンス
GlórIAの使用は研究目的のみに制限されており、ClueWeb22データセットのライセンスに従います。このライセンスはこちらから無料で取得できます。
引用
以下のBibTeXを使用して論文を引用してください。
@inproceedings{lopes-etal-2024-gloria,
title = "{G}l{\'o}r{IA}: A Generative and Open Large Language Model for {P}ortuguese",
author = "Lopes, Ricardo and
Magalhaes, Joao and
Semedo, David",
editor = "Gamallo, Pablo and
Claro, Daniela and
Teixeira, Ant{\'o}nio and
Real, Livy and
Garcia, Marcos and
Oliveira, Hugo Gon{\c{c}}alo and
Amaro, Raquel",
booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese",
month = mar,
year = "2024",
address = "Santiago de Compostela, Galicia/Spain",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.propor-1.45",
pages = "441--453",
}
謝辞
Arquivo.ptのチームがコンテンツの保存に努め、大規模なアーカイブウェブページへのアクセスに関するすべての支援とガイダンスを提供してくれたことに感謝します。この研究はFCTプロジェクトNOVA LINCS Ref. UIDP/04516/2020、CMU|PortugalプロジェクトiFetch、Ref. CMUP LISBOA-01-0247-FEDER-045920、およびFCTプロジェクトRef. Nº CPCA-IAC/AV/594875/2023によって部分的に資金提供されています。