🚀 GAIA (Gemma-3-Gaia-PT-BR-4b-it) 模型卡片
GAIA 是一款面向巴西葡萄牙語的開源、先進語言模型。它基於 google/gemma-3-4b-pt
模型,在大量高質量的葡萄牙語語料庫上進行持續預訓練而開發。
GAIA 的目標是讓巴西的開發者、研究人員和組織能夠在強大可靠的技術基礎上,更廣泛地使用前沿人工智能技術,構建創新解決方案。
✨ 主要特性
- 高質量語料訓練:在約 130 億葡萄牙語標記的語料庫上進行持續預訓練,涵蓋科學文章和葡萄牙語維基百科等多種領域,確保對語言及其上下文有深入理解。
- 指令跟隨能力:通過權重合並操作恢復指令跟隨能力,無需傳統的監督微調(SFT),能在聊天格式中交互並遵循指令。
- 多領域應用:適用於文本生成和對話任務,可直接用於聊天、問答、摘要、創意內容生成等,也可作為特定任務微調的基礎模型。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
模型描述
GAIA 由巴西人工智能協會(ABRIA)、戈亞斯聯邦大學人工智能卓越中心(CEIA-UFG)、初創公司 Nama 和 Amadeus AI 以及 Google DeepMind 合作開發。
開發過程基於基礎模型 google/gemma-3-4b-pt
,主要分為兩個階段:
- 持續預訓練:在約 130 億葡萄牙語標記的大型高質量數據集上進行訓練,語料庫涵蓋科學文章和葡萄牙語維基百科等多種領域,確保模型對語言及其上下文有深入理解。
- 指令跟隨能力恢復:為使模型無需傳統監督微調(SFT)即可遵循指令,應用了權重合並操作。該技術在論文 “Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs” 中有詳細描述,使模型能夠將持續預訓練中獲得的知識與聊天交互和遵循指令的能力相結合。
屬性 |
詳情 |
開發者 |
巴西人工智能協會(ABRIA)、戈亞斯聯邦大學人工智能卓越中心(CEIA-UFG)、Nama、Amadeus AI 和 Google DeepMind |
模型 |
GAIA |
模型類型 |
基於因果解碼器的 Transformer 語言模型 |
語言 |
巴西葡萄牙語(pt-BR) |
許可證 |
Gemma |
基礎模型 |
google/gemma-3-4b-pt |
團隊
本項目由以下人員的貢獻得以實現:
- 塞爾索·貢薩爾維斯·卡米洛 - 儒尼奧爾博士
- 薩維奧·薩爾瓦里諾·特萊斯·德·奧利維拉博士
- 盧卡斯·阿勞霍·佩雷拉先生
- 馬塞盧斯·阿馬德烏斯
- 丹尼爾·法齊奧尼
- 阿圖爾·馬託斯·安德拉德·諾瓦斯
- 薩拉蒂埃爾·阿布拉昂·阿韋拉爾·若爾丹
模型來源
使用場景
直接使用
GAIA 可直接用於聊天、問答、摘要、創意內容生成等需要葡萄牙語自然語言理解和生成的任務。
下游使用
GAIA 是特定任務微調的優秀基礎模型,例如:
- 葡萄牙語情感分析
- 企業知識庫的檢索增強生成(RAG)系統
- 文檔分類
- 專業客戶服務聊天機器人
超出適用範圍的使用
該模型在沒有人工監督的情況下,不應用於高風險、關鍵決策。生成惡意、冒犯性或非法內容,或欺騙性地模仿人類,均超出了模型的預期使用範圍。在非葡萄牙語語言中的性能將顯著下降。
偏差、風險和侷限性
與任何語言模型一樣,GAIA 反映了其訓練數據中存在的偏差。儘管訓練語料庫經過精心挑選,但可能包含來自維基百科和科學文章等來源的社會和文化偏差,因此模型可能生成延續現有刻板印象的內容。
此外,模型可能會“幻覺”,即生成看似真實但實際上並不正確的信息。強烈建議在使用模型生成的關鍵事實之前進行驗證。
建議
用戶(直接用戶和下游用戶)應瞭解模型的風險、偏差和侷限性。建議實施安全措施和內容審核,特別是在面向公眾的應用中。對於敏感用例,人工監督至關重要。
訓練詳情
訓練數據
持續預訓練在約 130 億葡萄牙語標記的語料庫上進行。數據選擇優先考慮高質量和多樣性,包括以下來源:
- 葡萄牙語科學文章:為模型提供更正式和專業的知識。
- 葡萄牙語維基百科:涵蓋廣泛的一般知識。
為確保數據質量,應用了嚴格的清理和過濾流程。
訓練過程
訓練在配備 NVIDIA H100 GPU 的 DGX 基礎設施上進行,並行使用 3 到 5 個 GPU。
訓練超參數
- 訓練模式:混合精度(bf16)
- 全局批量大小:400 萬標記
評估
模型在一組葡萄牙語多項選擇題基準測試中進行評估,與基礎模型 google/gemma-3-4b-it
進行性能比較。基準測試包括 BlueX(多項選擇題彙編)、巴西高中全國考試(ENEM)和巴西律師考試(OAB)的問題。
結果
基準測試 |
google/gemma-3-4b-it (基線) |
GAIA(我們的模型) |
BlueX |
0.6630 |
0.6575 |
ENEM 2024 |
0.6556 |
0.7000 |
ENEM(通用) |
0.7416 |
0.7486 |
OAB(律師考試) |
0.4502 |
0.4416 |
總結
結果表明,在葡萄牙語數據上進行持續預訓練對模型性能有顯著影響。GAIA 在 ENEM 2024 基準測試中表現明顯優於 Google 基礎模型。在 BlueX 和 OAB 等其他基準測試中,其性能具有競爭力,與原始模型非常接近,表明額外的訓練過程在增強模型特定葡萄牙語領域知識的同時,保持了其通用能力。
🔧 技術細節
訓練數據
持續預訓練在約 130 億葡萄牙語標記的語料庫上進行。數據選擇優先考慮高質量和多樣性,包括葡萄牙語科學文章和維基百科等來源。應用了嚴格的清理和過濾流程,以確保數據質量。
訓練過程
訓練在配備 NVIDIA H100 GPU 的 DGX 基礎設施上進行,並行使用 3 到 5 個 GPU。訓練採用混合精度(bf16)模式,全局批量大小為 400 萬標記。
📄 許可證
模型許可證為 Gemma。
引用
如果您在研究或應用中使用此模型,請引用我們的工作。
BibTeX:
@misc{gaia-gemma-3-4b-2025,
title={GAIA: An Open Language Model for Brazilian Portuguese},
author={CAMILO-JUNIOR, C. G.; OLIVEIRA, S. S. T.; PEREIRA, L. A.; AMADEUS, M.; FAZZIONI, D.; NOVAIS, A. M. A.; JORDÃO, S. A. A.},
year={2025},
publisher={Hugging Face},
journal={Hugging Face repository},
howpublished={\url{[https://huggingface.co/CEIA-UFG/Gemma-3-Gaia-PT-BR-4b-it](https://huggingface.co/CEIA-UFG/Gemma-3-Gaia-PT-BR-4b-it)}}
}