🚀 AstroSage-Llama-3.1-8B
AstroSage-Llama-3.1-8B是一款針對天文學、天體物理學和宇宙學研究的領域專用自然語言AI助手。它基於2007 - 2024年天文學相關的arXiv論文全集、數百萬個合成問答對以及其他天文學文獻進行訓練,在廣泛的問題上展現出了卓越的能力。這一成果展示了AI領域專業化的潛力,表明有針對性的訓練可以產生超越更大規模通用模型的能力。
論文鏈接:https://arxiv.org/abs/2411.09012
🚀 快速開始
以下是使用AstroSage-Llama-3.1-8B模型的示例代碼:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("AstroMLab/AstroSage-8b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("AstroMLab/AstroSage-8b")
def generate_response(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
)
response = outputs[0][inputs['input_ids'].shape[-1]:]
decoded = tokenizer.decode(response, skip_special_tokens=True)
return decoded
prompt = """
你是一位天體物理學專家。你的任務是回答以下問題:
星系的主要組成部分有哪些?
"""
response = generate_response(prompt)
print(response)
✨ 主要特性
- 領域專業化:針對天文學、天體物理學和宇宙學領域進行了專門訓練,能夠更好地處理該領域的問題。
- 性能卓越:在相關問題上的表現優於眾多80億參數模型,與GPT - 4o相當,且性價比比專有模型高約1000倍。
- 訓練數據豐富:使用了2007 - 2024年的arXiv預印本、天文學相關維基百科文章、精選天文學教科書等進行持續預訓練,以及880萬個精選問答對等進行監督微調。
📦 安裝指南
文檔未提供具體安裝步驟,可參考代碼中使用transformers
庫的from_pretrained
方法加載模型和分詞器。
💻 使用示例
基礎用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("AstroMLab/AstroSage-8b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("AstroMLab/AstroSage-8b")
def generate_response(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
)
response = outputs[0][inputs['input_ids'].shape[-1]:]
decoded = tokenizer.decode(response, skip_special_tokens=True)
return decoded
prompt = """
你是一位天體物理學專家。你的任務是回答以下問題:
星系的主要組成部分有哪些?
"""
response = generate_response(prompt)
print(response)
📚 詳細文檔
模型詳情
屬性 |
詳情 |
基礎架構 |
Meta-Llama-3.1-8B |
基礎模型 |
Meta-Llama-3.1-8B |
參數數量 |
80億 |
訓練重點 |
天文學、天體物理學、宇宙學和天文儀器 |
許可證 |
Llama 3.1社區許可證 |
開發過程 |
1. 在天文學文獻上進行持續預訓練(CPT);2. 在問答對和指令集上進行監督微調(SFT);3. 與Meta-Llama-3.1-8B-Instruct進行模型合併(75% CPT+SFT / 25% Meta-Instruct) |
模型改進與性能
AstroSage-Llama-3.1-8B在性能上有顯著提升:
模型 |
得分 (%) |
AstroSage-Llama-3.1-8B |
80.9 |
GPT-4o |
80.4 |
LLaMA-3.1-8B |
73.7 |
Gemma-2-9B |
71.5 |
Qwen-2.5-7B |
70.4 |
Yi-1.5-9B |
68.4 |
InternLM-2.5-7B |
64.5 |
Mistral-7B-v0.3 |
63.9 |
ChatGLM3-6B |
50.4 |
該模型表現出:
- 超越所有80億參數模型
- 與GPT-4o(80.4%)性能相當
- 性價比比專有模型高約1000倍
- 比基礎Llama-3.1-8B模型提高了7個百分點
訓練數據
- 持續預訓練:
- 約250,000篇來自astro - ph和gr - qc的arXiv預印本(2007 - 2024年)
- 天文學相關維基百科文章
- 精選天文學教科書
- 總計:33億個標記,19.9GB純文本
- 監督微調:
- 880萬個精選問答對
- 過濾後的Infinity - Instruct - 7M數據集
- 論文摘要和元數據
- 總計:20億個標記,9.8GB純文本
預期用途
- 滿足好奇心的問答
- 頭腦風暴新想法
- 天文學研究輔助
- 天文學教育支持
- 文獻綜述和總結
- 科學概念解釋
侷限性
- 訓練數據截止日期:2024年1月
- 與所有大語言模型一樣,可能會產生幻覺
- 受80億參數規模限制,複雜推理能力有限
- 論文元數據記憶不完全準確
- 性能主要在選擇題上進行驗證
- 主要以英語進行訓練
技術規格
- 架構:基於Meta-Llama 3.1
- 訓練基礎設施:ORNL OLCF Frontier
- 託管平臺:Hugging Face Hub(AstroMLab/AstroSage-8B)
倫理考量
雖然該模型專為科學用途設計:
- 不應作為關鍵研究決策的唯一依據
- 輸出應與原始來源進行驗證
- 可能反映天文學文獻中存在的偏差
📄 許可證
模型使用Llama 3.1社區許可證。
📖 引用與聯繫
- 通訊作者:Tijmen de Haan(tijmen dot dehaan at gmail dot com)
- AstroMLab:astromachinelearninglab at gmail dot com
- 引用此模型時,請引用AstroMLab 3論文:
@preprint{dehaan2024astromlab3,
title={AstroMLab 3: Achieving GPT-4o Level Performance in Astronomy with a Specialized 8B-Parameter Large Language Model},
author={Tijmen de Haan and Yuan-Sen Ting and Tirthankar Ghosal and Tuan Dung Nguyen and Alberto Accomazzi and Azton Wells and Nesar Ramachandra and Rui Pan and Zechang Sun},
year={2024},
eprint={2411.09012},
archivePrefix={arXiv},
primaryClass={astro-ph.IM},
url={https://arxiv.org/abs/2411.09012},
}