🚀 AstroSage-Llama-3.1-8B
AstroSage-Llama-3.1-8Bは、天文学、天体物理学、宇宙論の研究に特化したドメイン特化型自然言語AIアシスタントです。2007年から2024年までの天文学関連のarXiv論文の全コレクション、数百万の合成生成された質問と回答のペア、およびその他の天文学文献を用いて学習されており、幅広い質問に対して優れた能力を発揮します。この成果は、AIにおけるドメイン特化の可能性を示しており、焦点を絞った学習が、はるかに大規模な汎用モデルを超える能力を生み出すことができることを示唆しています。
論文リンク: https://arxiv.org/abs/2411.09012
🚀 クイックスタート
AstroSage-Llama-3.1-8Bは、天文学、天体物理学、宇宙論の研究に役立つドメイン特化型の自然言語AIアシスタントです。以下に、モデルの使用方法を示します。
💻 使用例
基本的な使用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("AstroMLab/AstroSage-8b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("AstroMLab/AstroSage-8b")
def generate_response(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
)
response = outputs[0][inputs['input_ids'].shape[-1]:]
decoded = tokenizer.decode(response, skip_special_tokens=True)
return decoded
prompt = """
You are an expert in general astrophysics. Your task is to answer the following question:
What are the main components of a galaxy?
"""
response = generate_response(prompt)
print(response)
✨ 主な機能
- 高度な天文学知識: 天文学、天体物理学、宇宙論の研究に特化した知識を持ち、幅広い質問に対して回答できます。
- 多様な用途: 好奇心に基づく質問応答、新しいアイデアのブレインストーミング、天文学研究の支援、天文学教育のサポート、文献レビューと要約、科学的概念の説明など、様々な用途に利用できます。
- 優れた性能: 多くのモデルと比較して、高い性能を示しています。
📦 インストール
コード例に記載されているように、transformers
ライブラリを使用してモデルとトークナイザーをロードすることができます。
model = AutoModelForCausalLM.from_pretrained("AstroMLab/AstroSage-8b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("AstroMLab/AstroSage-8b")
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
ベースアーキテクチャ |
Meta-Llama-3.1-8B |
ベースモデル |
Meta-Llama-3.1-8B |
パラメータ数 |
80億 |
学習の焦点 |
天文学、天体物理学、宇宙論、天文学機器 |
ライセンス |
Llama 3.1 Community License |
開発プロセス |
1. 天文学文献での継続的事前学習(CPT) 2. QAペアと命令セットでの教師付き微調整(SFT) 3. Meta-Llama-3.1-8B-Instructとのモデルマージ(75% CPT+SFT / 25% Meta-Instruct) |
モデルの改善と性能
AstroSage-Llama-3.1-8Bは、顕著な性能改善を示しています。
モデル |
スコア (%) |
AstroSage-Llama-3.1-8B |
80.9 |
GPT-4o |
80.4 |
LLaMA-3.1-8B |
73.7 |
Gemma-2-9B |
71.5 |
Qwen-2.5-7B |
70.4 |
Yi-1.5-9B |
68.4 |
InternLM-2.5-7B |
64.5 |
Mistral-7B-v0.3 |
63.9 |
ChatGLM3-6B |
50.4 |
このモデルは以下の特徴を持ちます。
- すべての80億パラメータモデルを上回る性能
- GPT-4o(80.4%)と同等の性能
- プロプライエタリモデルよりも約1000倍コスト効率が高い
- ベースのLlama-3.1-8bモデルよりも7パーセンテージポイントの改善
学習データ
- 継続的事前学習(CPT):
- 2007 - 2024年の天文学関連の約250,000件のarXivプレプリント(astro - phとgr - qc)
- 天文学関連のウィキペディア記事
- 選択された天文学の教科書
- 合計: 33億トークン、19.9GBの平文
- 教師付き微調整(SFT):
- 880万件の精選されたQAペア
- フィルタリングされたInfinity - Instruct - 7Mデータセット
- 論文のメタデータと要約
- 合計: 20億トークン、9.8GBの平文
想定される用途
- 好奇心に基づく質問応答
- 新しいアイデアのブレインストーミング
- 天文学研究の支援
- 天文学教育のサポート
- 文献レビューと要約
- 科学的概念の説明
制限事項
- 学習データの期限: 2024年1月
- 幻覚の可能性: すべての大規模言語モデルと同様に、幻覚が発生する可能性があります。
- 複雑な推論の制限: 80億パラメータのサイズにより、複雑な推論には制限があります。
- メタデータの不完全性: 論文のメタデータが完全に記憶されていない場合があります。
- 性能検証の制限: 主に選択肢問題で性能が検証されています。
- 言語の制限: 主に英語での使用を目的として学習されています。
🔧 技術詳細
- アーキテクチャ: Meta-Llama 3.1に基づく
- 学習インフラストラクチャ: ORNL OLCF Frontier
- ホスティング: Hugging Face Hub (AstroMLab/AstroSage-8B)
📄 ライセンス
Llama 3.1 Community License
🔐 倫理的な考慮事項
このモデルは科学的な使用を目的として設計されていますが、以下の点に注意する必要があります。
- 重要な研究決定の単一情報源として使用しないでください: 重要な研究決定には、このモデルの出力を唯一の情報源として使用しないでください。
- 出力の検証: 出力は一次情報源と照合して検証する必要があります。
- バイアスの可能性: 天文学文献に存在するバイアスを反映する可能性があります。
📖 引用と連絡先
- 担当者: Tijmen de Haan (tijmen dot dehaan at gmail dot com)
- AstroMLab: astromachinelearninglab at gmail dot com
- このモデルを参照する際は、AstroMLab 3の論文を引用してください。
@preprint{dehaan2024astromlab3,
title={AstroMLab 3: Achieving GPT-4o Level Performance in Astronomy with a Specialized 8B-Parameter Large Language Model},
author={Tijmen de Haan and Yuan-Sen Ting and Tirthankar Ghosal and Tuan Dung Nguyen and Alberto Accomazzi and Azton Wells and Nesar Ramachandra and Rui Pan and Zechang Sun},
year={2024},
eprint={2411.09012},
archivePrefix={arXiv},
primaryClass={astro-ph.IM},
url={https://arxiv.org/abs/2411.09012},
}