🚀 GAIA (Gemma-3-Gaia-PT-BR-4b-it) 模型卡片
GAIA 是一款面向巴西葡萄牙语的开源、先进语言模型。它基于 google/gemma-3-4b-pt
模型,在大量高质量的葡萄牙语语料库上进行持续预训练而开发。
GAIA 的目标是让巴西的开发者、研究人员和组织能够在强大可靠的技术基础上,更广泛地使用前沿人工智能技术,构建创新解决方案。
✨ 主要特性
- 高质量语料训练:在约 130 亿葡萄牙语标记的语料库上进行持续预训练,涵盖科学文章和葡萄牙语维基百科等多种领域,确保对语言及其上下文有深入理解。
- 指令跟随能力:通过权重合并操作恢复指令跟随能力,无需传统的监督微调(SFT),能在聊天格式中交互并遵循指令。
- 多领域应用:适用于文本生成和对话任务,可直接用于聊天、问答、摘要、创意内容生成等,也可作为特定任务微调的基础模型。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型详情
模型描述
GAIA 由巴西人工智能协会(ABRIA)、戈亚斯联邦大学人工智能卓越中心(CEIA-UFG)、初创公司 Nama 和 Amadeus AI 以及 Google DeepMind 合作开发。
开发过程基于基础模型 google/gemma-3-4b-pt
,主要分为两个阶段:
- 持续预训练:在约 130 亿葡萄牙语标记的大型高质量数据集上进行训练,语料库涵盖科学文章和葡萄牙语维基百科等多种领域,确保模型对语言及其上下文有深入理解。
- 指令跟随能力恢复:为使模型无需传统监督微调(SFT)即可遵循指令,应用了权重合并操作。该技术在论文 “Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs” 中有详细描述,使模型能够将持续预训练中获得的知识与聊天交互和遵循指令的能力相结合。
属性 |
详情 |
开发者 |
巴西人工智能协会(ABRIA)、戈亚斯联邦大学人工智能卓越中心(CEIA-UFG)、Nama、Amadeus AI 和 Google DeepMind |
模型 |
GAIA |
模型类型 |
基于因果解码器的 Transformer 语言模型 |
语言 |
巴西葡萄牙语(pt-BR) |
许可证 |
Gemma |
基础模型 |
google/gemma-3-4b-pt |
团队
本项目由以下人员的贡献得以实现:
- 塞尔索·贡萨尔维斯·卡米洛 - 儒尼奥尔博士
- 萨维奥·萨尔瓦里诺·特莱斯·德·奥利维拉博士
- 卢卡斯·阿劳霍·佩雷拉先生
- 马塞卢斯·阿马德乌斯
- 丹尼尔·法齐奥尼
- 阿图尔·马托斯·安德拉德·诺瓦斯
- 萨拉蒂埃尔·阿布拉昂·阿韦拉尔·若尔丹
模型来源
使用场景
直接使用
GAIA 可直接用于聊天、问答、摘要、创意内容生成等需要葡萄牙语自然语言理解和生成的任务。
下游使用
GAIA 是特定任务微调的优秀基础模型,例如:
- 葡萄牙语情感分析
- 企业知识库的检索增强生成(RAG)系统
- 文档分类
- 专业客户服务聊天机器人
超出适用范围的使用
该模型在没有人工监督的情况下,不应用于高风险、关键决策。生成恶意、冒犯性或非法内容,或欺骗性地模仿人类,均超出了模型的预期使用范围。在非葡萄牙语语言中的性能将显著下降。
偏差、风险和局限性
与任何语言模型一样,GAIA 反映了其训练数据中存在的偏差。尽管训练语料库经过精心挑选,但可能包含来自维基百科和科学文章等来源的社会和文化偏差,因此模型可能生成延续现有刻板印象的内容。
此外,模型可能会“幻觉”,即生成看似真实但实际上并不正确的信息。强烈建议在使用模型生成的关键事实之前进行验证。
建议
用户(直接用户和下游用户)应了解模型的风险、偏差和局限性。建议实施安全措施和内容审核,特别是在面向公众的应用中。对于敏感用例,人工监督至关重要。
训练详情
训练数据
持续预训练在约 130 亿葡萄牙语标记的语料库上进行。数据选择优先考虑高质量和多样性,包括以下来源:
- 葡萄牙语科学文章:为模型提供更正式和专业的知识。
- 葡萄牙语维基百科:涵盖广泛的一般知识。
为确保数据质量,应用了严格的清理和过滤流程。
训练过程
训练在配备 NVIDIA H100 GPU 的 DGX 基础设施上进行,并行使用 3 到 5 个 GPU。
训练超参数
- 训练模式:混合精度(bf16)
- 全局批量大小:400 万标记
评估
模型在一组葡萄牙语多项选择题基准测试中进行评估,与基础模型 google/gemma-3-4b-it
进行性能比较。基准测试包括 BlueX(多项选择题汇编)、巴西高中全国考试(ENEM)和巴西律师考试(OAB)的问题。
结果
基准测试 |
google/gemma-3-4b-it (基线) |
GAIA(我们的模型) |
BlueX |
0.6630 |
0.6575 |
ENEM 2024 |
0.6556 |
0.7000 |
ENEM(通用) |
0.7416 |
0.7486 |
OAB(律师考试) |
0.4502 |
0.4416 |
总结
结果表明,在葡萄牙语数据上进行持续预训练对模型性能有显著影响。GAIA 在 ENEM 2024 基准测试中表现明显优于 Google 基础模型。在 BlueX 和 OAB 等其他基准测试中,其性能具有竞争力,与原始模型非常接近,表明额外的训练过程在增强模型特定葡萄牙语领域知识的同时,保持了其通用能力。
🔧 技术细节
训练数据
持续预训练在约 130 亿葡萄牙语标记的语料库上进行。数据选择优先考虑高质量和多样性,包括葡萄牙语科学文章和维基百科等来源。应用了严格的清理和过滤流程,以确保数据质量。
训练过程
训练在配备 NVIDIA H100 GPU 的 DGX 基础设施上进行,并行使用 3 到 5 个 GPU。训练采用混合精度(bf16)模式,全局批量大小为 400 万标记。
📄 许可证
模型许可证为 Gemma。
引用
如果您在研究或应用中使用此模型,请引用我们的工作。
BibTeX:
@misc{gaia-gemma-3-4b-2025,
title={GAIA: An Open Language Model for Brazilian Portuguese},
author={CAMILO-JUNIOR, C. G.; OLIVEIRA, S. S. T.; PEREIRA, L. A.; AMADEUS, M.; FAZZIONI, D.; NOVAIS, A. M. A.; JORDÃO, S. A. A.},
year={2025},
publisher={Hugging Face},
journal={Hugging Face repository},
howpublished={\url{[https://huggingface.co/CEIA-UFG/Gemma-3-Gaia-PT-BR-4b-it](https://huggingface.co/CEIA-UFG/Gemma-3-Gaia-PT-BR-4b-it)}}
}