🚀 ClimateGPT-7B
ClimateGPT是一系列旨在綜合氣候變化跨學科研究的人工智能模型。ClimateGPT-7B是一個擁有70億參數的Transformer解碼器模型,它基於Llama - 2,通過對伊拉斯謨人工智能(Erasmus AI)精心挑選的氣候文檔中的42億個標記進行持續預訓練,將其應用於氣候科學領域。該模型還在AppTek與氣候科學家合作手動收集的指令 - 完成對數據集上進行了指令微調。在我們特定的氣候基準測試中,ClimateGPT-7B的表現優於Llama - 2 - 70B Chat。該模型旨在與檢索增強技術結合使用,以擴展知識、提高模型的事實性,並通過級聯機器翻譯來擴大語言覆蓋範圍。
🚀 快速開始
本部分暫未提供快速開始的相關內容,你可以參考後續章節瞭解模型的詳細信息。
✨ 主要特性
- 專業適配:基於Llama - 2進行持續預訓練,專門適配氣候科學領域。
- 性能卓越:在氣候特定基準測試中,表現優於Llama - 2 - 70B Chat。
- 可擴展性:可與檢索增強技術結合使用,擴展知識並提高事實性。
- 多語言支持:可通過級聯機器翻譯擴大語言覆蓋範圍。
📦 安裝指南
文檔未提及安裝相關內容,暫無法提供安裝指南。
📚 詳細文檔
模型詳情
你可以點擊此處探索模型譜系。
使用場景
- 專業問答:可直接作為氣候領域的問答模型使用。
- 輔助決策:為參與氣候討論的決策者、科學家和記者提供有用反饋。
- 開發基礎:可供有興趣的開發者作為進一步微調的起點。
- 注意事項:該模型並非通用聊天機器人(儘管具備聊天能力)。如需使用包含級聯機器翻譯、檢索增強等功能的完整系統,建議訪問我們的演示網站:eci.io。
下游應用
ClimateGPT - 7B是一個經過指令微調的模型,可直接用於特定氣候問答應用。它在訓練時考慮了檢索增強,支持上下文中最多5個參考。
模型使用ChatML進行訓練,因此在提示時應遵循以下格式,包括 <|im_start|>
、<|im_end|>
標籤,system
、user
、context
和 assistant
標識符,以及 [[0]]
、[[1]]
等標記來表示參考。
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>context
[[0]] "{reference1_title}", {reference1_year}
{reference1_text}
[[1]] "{reference2_title}", {reference2_year}
{reference2_text}
[...]<|im_end|>
<|im_start|>assistant
訓練信息
- Llama - 2訓練數據:請參考https://huggingface.co/meta - llama/Llama - 2 - 7b - hf。
- 持續預訓練:使用了42億個特定氣候標記(由Llama分詞器進行分詞)。
- 指令微調:使用了約27.2萬個指令 - 完成對(包括氣候領域和通用領域)。
評估
詳細的評估結果請參考我們發表在arXiv:2401.09646上的論文,以及我們的模型卡片網站:[eci.io/model - card](https://eci.io/model - card)。
環境影響
屬性 |
詳情 |
硬件類型 |
8x NVIDIA H100 HBM |
每GPU功耗 |
775W |
使用時長 |
157小時 |
雲服務提供商 |
MLFoundry |
計算區域 |
美國華盛頓 |
能源結構 |
100%水電(根據IPCC 2014,每千瓦時24克二氧化碳當量) |
碳排放 |
2.9千克二氧化碳當量 |
🔧 技術細節
文檔未提供足夠詳細的技術實現細節,暫無法展示。
📄 許可證
本模型使用的許可證為ClimateGPT社區許可證,你可以點擊此處查看具體許可協議。
📖 引用
如果你發現ClimateGPT在你的工作中很有用,請使用以下格式進行引用:
@misc{thulke2024climategpt,
title={ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on Climate Change},
author={David Thulke and Yingbo Gao and Petrus Pelser and Rein Brune and Rricha Jalota and Floris Fok and Michael Ramos and Ian van Wyk and Abdallah Nasir and Hayden Goldstein and Taylor Tragemann and Katie Nguyen and Ariana Fowler and Andrew Stanco and Jon Gabriel and Jordan Taylor and Dean Moro and Evgenii Tsymbalov and Juliette de Waal and Evgeny Matusov and Mudar Yaghi and Mohammad Shihadah and Hermann Ney and Christian Dugast and Jonathan Dotan and Daniel Erasmus},
year={2024},
eprint={2401.09646},
archivePrefix={arXiv},
primaryClass={cs.LG}
}