Qwen2.5 - 72B - GeoGPTオープンソースモデル - 地球科学研究を無料で支援する実用的なツール

ホーム

Qwen2.5 72B GeoGPT

GeoGPT-Research-Projectによって開発

Qwen2.5-72B-GeoGPTは大規模言語モデルを基に開発された、地球科学研究を推進するためのツールです。先進的な基礎モデルの上に、一連の事後学習プロセスを通じて、地球科学の専門分野での能力を強化しています。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #地球科学専用 #多言語地質分析 #科研協力サポート

ダウンロード数 1,756

リリース時間 : 3/6/2025

モデル概要

GeoGPTシリーズのモデルは地球科学研究を推進するための大規模言語モデルで、継続的な事前学習、監督微調整、人間の嗜好のアライメントによって地球科学の専門能力を強化しています。

モデル特徴

地球科学専門能力強化

継続的な事前学習、監督微調整、人間の嗜好のアライメントによって、地球科学分野の能力を特別に強化します

オープンサイエンス原則

協力、共有、共同構築のオープンサイエンス原則を持ち、世界の地球科学研究コミュニティをサポートします

高品質の学習データ

CommonCrawlの地球科学サブセットとオープンアクセス論文の選択されたデータを使用します

モデル能力

地球科学テキスト生成

地球科学質問応答

複数回の対話

専門分野の知識解答

使用事例

科学研究

地質成分分析

岩石成分に関する専門的な質問に答えます

花崗岩などの岩石の主要成分を正確に識別します

学術研究支援

地球科学者が専門分野の知識を迅速に取得するのを支援します

信頼できる地球科学情報を提供します

教育

地球科学教育

教育支援ツールとして複雑な地球科学概念を説明します

学生が専門概念を理解するのを助けます

🚀 Qwen2.5-72B-GeoGPT

Qwen2.5-72B-GeoGPTは、大規模言語モデルを基に開発された、地球科学研究を推進するためのツールです。このモデルは、先進的な基礎モデルに対して一連の事後学習プロセスを行い、地球科学の専門分野における能力を強化しています。

✨ 主な機能

GeoGPTシリーズのモデルは、地球科学研究を推進するための大規模言語モデルです。これらのモデルは、先進的な基礎モデルに基づき、持続的事前学習（CPT）、教師付き微調整（SFT）、人間嗜好のアライメントなどの一連の事後学習プロセスを通じて、地球科学の専門分野における能力を強化しています。このモデルは、協力、共有、共同構築というオープンサイエンスの原則を持ち、世界中の地球科学研究コミュニティをサポートすることを目指しています。

📚 ドキュメント

モデル情報

学習データ

GeoGPTは知的財産権を尊重し、著者、研究者、出版社の著作権と適切な帰属を非常に重視しています。科学研究の信頼性と完全性を維持するために、GeoGPTは信頼できるソースからの信頼できる公正なデータのみに依存しています。GeoGPTの学習に使用されるデータは、以下のソースから取得されています。

CommonCrawl の地球科学特定サブセット。CommonCrawlは、オープンウェブサイトをクロールして整理された公開ウェブページの集合であり、主要な大規模言語モデルの学習に広く使用されています。私たちはデータマイニングアルゴリズムを適用して、元のCommonCrawlデータセットから地球科学関連の内容を抽出しています。詳細については、GeoGPT Training Data from Geoscience Subset of CommonCrawl を参照してください。メタデータ情報は Hugging Face で入手できます。
CC BYまたはCC BY - NCライセンスに従うオープンアクセス出版物。厳格なライセンスフィルタリングを通じて、15の出版社と182の雑誌から約280,000本の論文を厳選しています。完全なリストは GeoGPT Training Data from Open Access Papers を参照してください。

学習過程

GeoGPTモデルの学習は3つの段階に分けられます。

持続的事前学習（CPT）：この段階では、多様な地球科学関連のコーパスを利用して、堅実な地球科学専門モデルを構築します。
教師付き微調整（SFT）：この段階では、地球科学者によってアノテーションされた質問と回答のペア、およびCPT段階で学習コーパスから生成された質問と回答のペアを組み込むことで、モデルが地球科学特定の指示に従う能力を強化します。
人間嗜好のアライメント：この段階では、大規模言語モデルによってアノテーションされた嗜好データを使用して直接嗜好最適化（DPO）を行い、モデルの応答が人間の期待と嗜好に合致するようにします。

モデルのダウンロード

GeoGPTモデルは、Hugging Face と ModelScope からダウンロードできます。

モデル	総パラメータ	サポート言語	基礎モデル	Hugging Face	ModelScope
Qwen2.5-72B-GeoGPT	72B	主に英語と中国語	Qwen2.5-72B	🤗 Hugging Face	🤖 ModelScope

ライセンスと使用範囲

ライセンス

Qwen2.5-72B-GeoGPTは Qwen2.5-72B-GeoGPT License Agreement のライセンス契約に従っています。なお、Qwen2.5-72B-GeoGPTはQwen2.5-72Bを基に学習されているため、Qwen2.5-72B-GeoGPTの使用には Qwen LICENSE AGREEMENT も遵守する必要があります。

主な予想される用途

GeoGPTモデルの主な用途は、地球科学研究をサポートし、地球科学者に大規模言語モデルによって強化された革新的なツールと能力を提供することです。このモデルは、非商業的な研究と教育目的に専用されています。

範囲外の使用

GeoGPTモデルは、適用される法律や規制に違反する方法で使用してはならず、ライセンス契約で禁止されている活動に使用してもいけません。また、このモデルカードに記載されているように、明示的にサポートされている言語以外の言語での使用は避けてください。

倫理的な考慮事項と制限事項

価値観

GeoGPTは、協力、共有、共同構築というオープンサイエンスの原則を提唱しています。学際的かつ地域を超えた協力を促進することで、GeoGPTは専門家と革新者に複雑なグローバルな課題に対処するために必要なツールを提供することを目指しています。私たちは、さまざまな背景、経験、見解を持つ個人が私たちに参加し、人工知能と大規模モデルがもたらす機会と課題を共同で探求することを歓迎します。

制限事項

他の言語モデルと同様に、GeoGPTモデルは時々潜在的なリスクのある行動を示す可能性があります。これらのモデルは、ユーザー入力に対して不正確、偏見がある、またはその他不快な応答を生成することがあります。したがって、GeoGPTモデルを基に構築されたアプリケーションをデプロイする前に、開発者は全面的なセキュリティテストを行い、予想されるユースケース、文化、言語背景に基づいてリスクを低減するための対策を実施する必要があります。

お問い合わせ

何か質問がある場合は、質問を投稿するか、support.geogpt@zhejianglab.org までご連絡ください。

🚀 クイックスタート

Qwen2.5-72B-GeoGPT

Transformersを使用してQwen2.5-72B-GeoGPTモデルをロードするには、以下のコードスニペットを使用してください。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "GeoGPT-Research-Project/Qwen2.5-72B-GeoGPT"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "What are the main components of granite?"
messages = [
    {"role": "system", "content": "You are a helpful assistant named GeoGPT."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4096
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]