🚀 ClimateGPT-7B
ClimateGPT是一系列旨在综合气候变化跨学科研究的人工智能模型。ClimateGPT-7B是一个拥有70亿参数的Transformer解码器模型,它基于Llama - 2,通过对伊拉斯谟人工智能(Erasmus AI)精心挑选的气候文档中的42亿个标记进行持续预训练,将其应用于气候科学领域。该模型还在AppTek与气候科学家合作手动收集的指令 - 完成对数据集上进行了指令微调。在我们特定的气候基准测试中,ClimateGPT-7B的表现优于Llama - 2 - 70B Chat。该模型旨在与检索增强技术结合使用,以扩展知识、提高模型的事实性,并通过级联机器翻译来扩大语言覆盖范围。
🚀 快速开始
本部分暂未提供快速开始的相关内容,你可以参考后续章节了解模型的详细信息。
✨ 主要特性
- 专业适配:基于Llama - 2进行持续预训练,专门适配气候科学领域。
- 性能卓越:在气候特定基准测试中,表现优于Llama - 2 - 70B Chat。
- 可扩展性:可与检索增强技术结合使用,扩展知识并提高事实性。
- 多语言支持:可通过级联机器翻译扩大语言覆盖范围。
📦 安装指南
文档未提及安装相关内容,暂无法提供安装指南。
📚 详细文档
模型详情
你可以点击此处探索模型谱系。
使用场景
- 专业问答:可直接作为气候领域的问答模型使用。
- 辅助决策:为参与气候讨论的决策者、科学家和记者提供有用反馈。
- 开发基础:可供有兴趣的开发者作为进一步微调的起点。
- 注意事项:该模型并非通用聊天机器人(尽管具备聊天能力)。如需使用包含级联机器翻译、检索增强等功能的完整系统,建议访问我们的演示网站:eci.io。
下游应用
ClimateGPT - 7B是一个经过指令微调的模型,可直接用于特定气候问答应用。它在训练时考虑了检索增强,支持上下文中最多5个参考。
模型使用ChatML进行训练,因此在提示时应遵循以下格式,包括 <|im_start|>
、<|im_end|>
标签,system
、user
、context
和 assistant
标识符,以及 [[0]]
、[[1]]
等标记来表示参考。
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>context
[[0]] "{reference1_title}", {reference1_year}
{reference1_text}
[[1]] "{reference2_title}", {reference2_year}
{reference2_text}
[...]<|im_end|>
<|im_start|>assistant
训练信息
- Llama - 2训练数据:请参考https://huggingface.co/meta - llama/Llama - 2 - 7b - hf。
- 持续预训练:使用了42亿个特定气候标记(由Llama分词器进行分词)。
- 指令微调:使用了约27.2万个指令 - 完成对(包括气候领域和通用领域)。
评估
详细的评估结果请参考我们发表在arXiv:2401.09646上的论文,以及我们的模型卡片网站:[eci.io/model - card](https://eci.io/model - card)。
环境影响
属性 |
详情 |
硬件类型 |
8x NVIDIA H100 HBM |
每GPU功耗 |
775W |
使用时长 |
157小时 |
云服务提供商 |
MLFoundry |
计算区域 |
美国华盛顿 |
能源结构 |
100%水电(根据IPCC 2014,每千瓦时24克二氧化碳当量) |
碳排放 |
2.9千克二氧化碳当量 |
🔧 技术细节
文档未提供足够详细的技术实现细节,暂无法展示。
📄 许可证
本模型使用的许可证为ClimateGPT社区许可证,你可以点击此处查看具体许可协议。
📖 引用
如果你发现ClimateGPT在你的工作中很有用,请使用以下格式进行引用:
@misc{thulke2024climategpt,
title={ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on Climate Change},
author={David Thulke and Yingbo Gao and Petrus Pelser and Rein Brune and Rricha Jalota and Floris Fok and Michael Ramos and Ian van Wyk and Abdallah Nasir and Hayden Goldstein and Taylor Tragemann and Katie Nguyen and Ariana Fowler and Andrew Stanco and Jon Gabriel and Jordan Taylor and Dean Moro and Evgenii Tsymbalov and Juliette de Waal and Evgeny Matusov and Mudar Yaghi and Mohammad Shihadah and Hermann Ney and Christian Dugast and Jonathan Dotan and Daniel Erasmus},
year={2024},
eprint={2401.09646},
archivePrefix={arXiv},
primaryClass={cs.LG}
}