🚀 熱爾瓦西奧 7B PTPT
熱爾瓦西奧 7B PTPT 是一款面向葡萄牙語的完全開源的解碼器模型。它基於 Transformer 架構,在 LLaMA-2 7B 模型基礎上開發,有針對葡萄牙歐洲變體和巴西變體的不同版本,且所有版本都在開放許可下免費分發,可在消費級硬件上運行。
🚀 快速開始
你可以使用以下代碼直接調用該模型進行因果語言建模:
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
>>> generator("A comida portuguesa é", max_new_tokens=10)
✨ 主要特性
- 完全開源:熱爾瓦西奧 PT* 是面向葡萄牙語的完全開源解碼器。
- 多版本適配:有針對葡萄牙歐洲變體和巴西變體的不同版本。
- 免費分發:所有版本都在開放許可下免費分發,可用於研究和商業目的。
- 硬件友好:由於模型規模,可在消費級硬件上運行。
📦 安裝指南
文檔未提供安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
# 直接使用管道進行因果語言建模
from transformers import pipeline
generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
generator("A comida portuguesa é", max_new_tokens=10)
📚 詳細文檔
模型描述
此模型卡針對熱爾瓦西奧 7B PTPT,擁有 70 億參數,隱藏層大小為 4096 個單元,中間層大小為 11008 個單元,32 個注意力頭,32 個隱藏層,分詞器使用 SentencePiece 實現的字節對編碼(BPE)算法,詞彙量為 32000。該模型根據 MIT 許可證 分發。
訓練數據
熱爾瓦西奧 7B PTPT 在標準監督微調下進行訓練,為了與英語主流基準保持一定對齊,採用了 GLUE 和 SuperGLUE 集合中的任務和相應數據集。從 GLUE 中選取了 MRPC(釋義檢測)、RTE(文本蘊含識別)、STS - B(語義文本相似度)、WNLI(共指和自然語言推理)四個任務;從 SuperGLUE 中選取了 BoolQ(是/否問答)、CB(三標籤推理)、COPA(推理)、MultiRC(問答)四個任務。這些數據集被機器翻譯成歐洲葡萄牙語,並來自 extraGLUE 數據集。此外,還為每個任務手動製作了指令模板,收集到 extraGLUE - instruct 數據集中。同時,採用了數據增強技術來擴大和豐富數據集。
訓練細節
在微調過程中,應用了帶有因果語言建模訓練目標的監督微調,並採用了歸零技術。具體而言,在微調期間整個提示都會被關注,但只有響應令牌會進行反向傳播。在超參數方面,模型以 2 * 10^-5 的學習率、0.1 的權重衰減進行訓練,採用兩週期無熱身訓練制度。為確保每一步反向傳播的令牌數量相同,使用了 512 個令牌的輸入序列,批量大小為 16,累積步數為 16。由於硬件限制,輸入序列長度為 512(基礎模型為 4096),因此每個示例單獨佔用完整的輸入序列長度。
性能
在測試中,保留了來自 GLUE 的翻譯數據集 MRPC(相似度)和 RTE(推理),以及來自 SuperGLUE 的 COPA(推理/問答),這些數據集在訓練期間未被使用。具體性能指標如下:
模型 |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
熱爾瓦西奧 7B PTPT |
0.7273 |
0.8291 |
0.5459 |
LLaMA - 2 (英語) |
0.0328 |
0.0482 |
0.3844 |
LLaMA - 2 Chat (英語) |
0.5703 |
0.4697 |
0.4737 |
🔧 技術細節
熱爾瓦西奧 7B PTPT 是 LLaMA 家族的解碼器,基於 Transformer 神經架構,在 LLaMA - 2 7B 模型基礎上開發。通過額外訓練進一步改進,使用了專門為葡萄牙語準備的新指令數據集。
📄 許可證
熱爾瓦西奧 7B PTPT 根據 MIT 許可證 分發。
引用信息
請在使用或引用此模型時使用以下規範引用:
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
致謝
本研究部分得到以下機構支持:
- PORTULAN CLARIN — 語言科學與技術研究基礎設施,由 Lisboa 2020、Alentejo 2020 和 FCT — Fundação para a Ciência e Tecnologia 資助,資助編號 PINFRA/22117/2016。
- 研究項目 GPT - PT - 基於 Transformer 的葡萄牙語解碼器,由 FCT — Fundação para a Ciência e Tecnologia 資助,資助編號 CPCA - IAC/AV/478395/2022。
- 創新項目 ACCELERAT.AI - 多語言智能客服中心,由 IAPMEI, I.P. - Agência para a Competitividade e Inovação 資助,資助編號 C625734525 - 00462629,屬於 Plano de Recuperação e Resiliência 項目,招標編號 RE - C05 - i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização。