🚀 熱爾瓦西奧 7B PTBR 解碼器
熱爾瓦西奧 7B PTBR 是一款面向葡萄牙語的全開源解碼器。它基於 Transformer 架構,在 LLaMA-2 7B 模型基礎上開發而來,可在消費級硬件上運行,適用於研究和商業用途。
🚀 快速開始
你可以直接使用以下代碼通過因果語言建模管道來使用該模型:
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
✨ 主要特性
- 全開源:熱爾瓦西奧 PT* 是面向葡萄牙語的全開源解碼器。
- 多版本支持:有針對葡萄牙歐洲變體和巴西美洲變體的不同版本。
- 免費使用:所有版本均在開放許可證下免費分發,可用於研究和商業目的。
- 硬件友好:由於模型規模,可在消費級硬件上運行。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
📚 詳細文檔
模型描述
本模型卡片針對熱爾瓦西奧 7B PTBR,它有 70 億個參數,隱藏層大小為 4096 個單元,中間層大小為 11008 個單元,32 個注意力頭,32 個隱藏層,分詞器使用 SentencePiece 實現的字節對編碼(BPE)算法,詞彙量為 32000。該模型根據 MIT 許可證 分發。
訓練數據
熱爾瓦西奧 7B PTBR 通過標準的監督微調進行訓練。為了與英語主流基準保持一定的一致性,採用了 GLUE 和 SuperGLUE 集合中的任務和相應數據集。從 GLUE 中選取了 MRPC(釋義檢測)、RTE(文本蘊含識別)、STS - B(語義文本相似度)、WNLI(共指和自然語言推理);從 SuperGLUE 中選取了 BoolQ(是非問答)、CB(三標籤推理)、COPA(推理)、MultiRC(問答)。這些數據集被機器翻譯成巴西葡萄牙語,並結合 extraGLUE 數據集。此外,還為每個任務手動製作了指令模板,並收集到 extraGLUE - instruct 數據集中。同時,採用了數據增強技術,如從 MultiRC 生成答案、從 BoolQ 生成問題等。
訓練細節
在微調過程中,應用了監督微調,以因果語言建模為訓練目標,並採用了零輸出技術。具體來說,在微調時整個提示都會被關注,但只有響應令牌會進行反向傳播。超參數方面,模型以 2 * 10^-5 的學習率、0.1 的權重衰減進行訓練,訓練兩個週期且無預熱。為確保每步反向傳播的令牌數量相同,採用 512 個令牌的輸入序列,批量大小為 16,累積步數為 16。由於硬件限制,輸入序列長度為 512(基礎模型為 4096),每個示例單獨佔用完整的輸入序列長度。
性能
測試時,預留了 GLUE 中的 MRPC(相似度)和 RTE(推理)、SuperGLUE 中的 COPA(推理/問答)作為代表三種主要任務類型的數據集,且這些數據集在訓練時未使用。
模型 |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
熱爾瓦西奧 7B PTBR |
0.7822 |
0.8321 |
0.2134 |
LLaMA - 2 (英語) |
0.0369 |
0.0516 |
0.4867 |
LLaMA - 2 Chat (英語) |
0.5432 |
0.3807 |
0.5493 |
此外,還使用了原本基於葡萄牙語文本開發的數據集進行測試,如 ASSIN2 RTE(蘊含)、ASSIN2 STS(相似度)、BLUEX(問答)、ENEM 2022(問答)和 FaQuAD(抽取式問答)。
模型 |
ENEM 2022 (準確率) |
BLUEX (準確率) |
RTE (F1) |
STS (皮爾遜係數) |
熱爾瓦西奧 7B PTBR |
0.1977 |
0.2640 |
0.7469 |
0.2136 |
LLaMA - 2 (英語) |
0.2458 |
0.2903 |
0.0913 |
0.1034 |
LLaMA - 2 Chat (英語) |
0.2231 |
0.2959 |
0.5546 |
0.1750 |
與同維度的其他解碼器相比,熱爾瓦西奧在巴西葡萄牙語任務上表現出色或具有競爭力,並且是葡萄牙語歐洲變體 1.5B 維度的唯一編碼器。更多評估數據可參考 相關出版物。
🔧 技術細節
訓練目標和技術
應用監督微調,以因果語言建模為訓練目標,採用零輸出技術。微調時整個提示被關注,但僅響應令牌進行反向傳播。
超參數設置
學習率為 2 * 10^-5,權重衰減為 0.1,訓練兩個週期無預熱。輸入序列 512 個令牌,批量大小 16,累積步數 16。
數據處理
因硬件限制,輸入序列長度為 512(基礎模型 4096),每個示例單獨佔用完整輸入序列長度。
📄 許可證
該模型根據 MIT 許可證 分發。
引用信息
如需使用或引用此模型,請使用以下規範引用:
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}