Qwen2.5-72B-GeoGPT開源模型 - 免費助力地球科學研究的實用工具

首頁

Qwen2.5 72B GeoGPT

由GeoGPT-Research-Project開發

Qwen2.5-72B-GeoGPT是基於大語言模型開發的、用於推動地球科學研究的工具。它在先進基礎模型之上，通過一系列後訓練過程，增強了在地球科學專業領域的能力。

大型語言模型

Transformers

開源協議:其他 #地球科學專用 #多語言地質分析 #科研協作支持

下載量 1,756

發布時間 : 3/6/2025

模型概述

GeoGPT系列模型是用於推動地球科學研究的大語言模型，通過持續預訓練、監督微調和人類偏好對齊增強地球科學專業能力。

模型特點

地球科學專業增強

通過持續預訓練、監督微調和人類偏好對齊，專門增強地球科學領域能力

開放科學原則

秉持協作、共享和共建的開放科學原則，支持全球地球科學研究社區

高質量訓練數據

使用來自CommonCrawl的地球科學子集和開放獲取論文的精選數據

模型能力

地球科學文本生成

地球科學問答

多輪對話

專業領域知識解答

使用案例

科學研究

地質成分分析

回答關於岩石成分的專業問題

準確識別花崗岩等岩石的主要成分

學術研究輔助

幫助地球科學家快速獲取專業領域知識

提供權威可靠的地球科學信息

教育

地球科學教學

作為教學輔助工具解釋複雜的地球科學概念

幫助學生理解專業概念

🚀 Qwen2.5-72B-GeoGPT

Qwen2.5-72B-GeoGPT 是基於大語言模型開發的、用於推動地球科學研究的工具。它在先進基礎模型之上，通過一系列後訓練過程，增強了在地球科學專業領域的能力。

✨ 主要特性

GeoGPT 系列模型是用於推動地球科學研究的大語言模型。它基於先進的基礎模型，通過持續預訓練（CPT）、監督微調（SFT）和人類偏好對齊等一系列後訓練過程，增強了在地球科學專業領域的能力。該模型秉持協作、共享和共建的開放科學原則，致力於支持全球地球科學研究社區。

📚 詳細文檔

模型信息

訓練數據

GeoGPT 尊重知識產權，高度重視作者、研究人員和出版商的版權及正確歸屬。為維護科學研究的可信度和完整性，GeoGPT 僅依賴來自可靠來源的權威公正數據。用於訓練 GeoGPT 的數據來自以下來源：

CommonCrawl 的地球科學特定子集。CommonCrawl 是通過爬取開放網站整理的公開網頁集合，被廣泛用於訓練領先的大語言模型。我們應用數據挖掘算法從原始 CommonCrawl 數據集中提取與地球科學相關的內容。更多詳細信息，請參閱 GeoGPT Training Data from Geoscience Subset of CommonCrawl。元數據信息可在 Hugging Face 上獲取。
遵循 CC BY 或 CC BY - NC 許可的開放獲取出版物。通過嚴格的許可過濾，我們從 15 家出版商和 182 種期刊中精心挑選了約 280,000 篇論文。完整列表見 GeoGPT Training Data from Open Access Papers。

訓練過程

GeoGPT 模型的訓練分為三個階段：

持續預訓練（CPT）：此階段利用多樣化的地球科學相關語料庫，以獲得堅實的地球科學專業模型。
監督微調（SFT）：此階段通過納入地球科學家標註的問答對以及在 CPT 階段從訓練語料庫生成的問答對，增強模型遵循地球科學特定指令的能力。
人類偏好對齊：此階段使用由大語言模型標註的偏好數據進行直接偏好優化（DPO），使模型的響應符合人類期望和偏好。

模型下載

GeoGPT 模型可以從 Hugging Face 和 ModelScope 下載。

模型	總參數	支持語言	基礎模型	Hugging Face	ModelScope
Qwen2.5-72B-GeoGPT	72B	主要為英語和中文	Qwen2.5-72B	🤗 Hugging Face	🤖 ModelScope

許可證和使用範圍

許可證

Qwen2.5-72B-GeoGPT 遵循 Qwen2.5-72B-GeoGPT License Agreement 許可協議。請注意：Qwen2.5-72B-GeoGPT 基於 Qwen2.5-72B 進行訓練，因此您對 Qwen2.5-72B-GeoGPT 的使用應遵守 Qwen LICENSE AGREEMENT。

主要預期用途

GeoGPT 模型的主要用途是支持地球科學研究，為地球科學家提供由大語言模型增強的創新工具和能力。它專門用於非商業研究和教育目的。

超出範圍的使用

GeoGPT 模型不應用於任何違反適用法律法規的方式，也不應用於許可協議禁止的任何活動。此外，如本模型卡片所述，它不應用於明確支持語言以外的語言。

倫理考量和侷限性

價值觀

GeoGPT 倡導協作、共享和共建的開放科學原則。通過促進跨學科和跨地域的合作，GeoGPT 旨在為專家和創新者提供應對複雜全球挑戰所需的工具。我們歡迎來自不同背景、經驗和觀點的個人加入我們，共同探索人工智能和大規模模型帶來的機遇和挑戰。

侷限性

與其他語言模型類似，GeoGPT 模型偶爾可能會出現潛在風險的行為。這些模型可能會對用戶輸入生成不準確、有偏見或其他令人反感的響應。因此，在部署基於 GeoGPT 模型構建的應用程序之前，開發人員應進行全面的安全測試，並根據預期用例、文化和語言背景實施措施以降低風險。

聯繫我們

如果您有任何問題，請提出問題或通過 support.geogpt@zhejianglab.org 聯繫我們。

🚀 快速開始

Qwen2.5-72B-GeoGPT

要使用 Transformers 加載 Qwen2.5-72B-GeoGPT 模型，請使用以下代碼片段：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "GeoGPT-Research-Project/Qwen2.5-72B-GeoGPT"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "What are the main components of granite?"
messages = [
    {"role": "system", "content": "You are a helpful assistant named GeoGPT."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4096
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]