🚀 AstroSage-Llama-3.1-8B
AstroSage-Llama-3.1-8B是一款针对天文学、天体物理学和宇宙学研究的领域专用自然语言AI助手。它基于2007 - 2024年天文学相关的arXiv论文全集、数百万个合成问答对以及其他天文学文献进行训练,在广泛的问题上展现出了卓越的能力。这一成果展示了AI领域专业化的潜力,表明有针对性的训练可以产生超越更大规模通用模型的能力。
论文链接:https://arxiv.org/abs/2411.09012
🚀 快速开始
以下是使用AstroSage-Llama-3.1-8B模型的示例代码:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("AstroMLab/AstroSage-8b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("AstroMLab/AstroSage-8b")
def generate_response(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
)
response = outputs[0][inputs['input_ids'].shape[-1]:]
decoded = tokenizer.decode(response, skip_special_tokens=True)
return decoded
prompt = """
你是一位天体物理学专家。你的任务是回答以下问题:
星系的主要组成部分有哪些?
"""
response = generate_response(prompt)
print(response)
✨ 主要特性
- 领域专业化:针对天文学、天体物理学和宇宙学领域进行了专门训练,能够更好地处理该领域的问题。
- 性能卓越:在相关问题上的表现优于众多80亿参数模型,与GPT - 4o相当,且性价比比专有模型高约1000倍。
- 训练数据丰富:使用了2007 - 2024年的arXiv预印本、天文学相关维基百科文章、精选天文学教科书等进行持续预训练,以及880万个精选问答对等进行监督微调。
📦 安装指南
文档未提供具体安装步骤,可参考代码中使用transformers
库的from_pretrained
方法加载模型和分词器。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("AstroMLab/AstroSage-8b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("AstroMLab/AstroSage-8b")
def generate_response(prompt):
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=128,
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
)
response = outputs[0][inputs['input_ids'].shape[-1]:]
decoded = tokenizer.decode(response, skip_special_tokens=True)
return decoded
prompt = """
你是一位天体物理学专家。你的任务是回答以下问题:
星系的主要组成部分有哪些?
"""
response = generate_response(prompt)
print(response)
📚 详细文档
模型详情
属性 |
详情 |
基础架构 |
Meta-Llama-3.1-8B |
基础模型 |
Meta-Llama-3.1-8B |
参数数量 |
80亿 |
训练重点 |
天文学、天体物理学、宇宙学和天文仪器 |
许可证 |
Llama 3.1社区许可证 |
开发过程 |
1. 在天文学文献上进行持续预训练(CPT);2. 在问答对和指令集上进行监督微调(SFT);3. 与Meta-Llama-3.1-8B-Instruct进行模型合并(75% CPT+SFT / 25% Meta-Instruct) |
模型改进与性能
AstroSage-Llama-3.1-8B在性能上有显著提升:
模型 |
得分 (%) |
AstroSage-Llama-3.1-8B |
80.9 |
GPT-4o |
80.4 |
LLaMA-3.1-8B |
73.7 |
Gemma-2-9B |
71.5 |
Qwen-2.5-7B |
70.4 |
Yi-1.5-9B |
68.4 |
InternLM-2.5-7B |
64.5 |
Mistral-7B-v0.3 |
63.9 |
ChatGLM3-6B |
50.4 |
该模型表现出:
- 超越所有80亿参数模型
- 与GPT-4o(80.4%)性能相当
- 性价比比专有模型高约1000倍
- 比基础Llama-3.1-8B模型提高了7个百分点
训练数据
- 持续预训练:
- 约250,000篇来自astro - ph和gr - qc的arXiv预印本(2007 - 2024年)
- 天文学相关维基百科文章
- 精选天文学教科书
- 总计:33亿个标记,19.9GB纯文本
- 监督微调:
- 880万个精选问答对
- 过滤后的Infinity - Instruct - 7M数据集
- 论文摘要和元数据
- 总计:20亿个标记,9.8GB纯文本
预期用途
- 满足好奇心的问答
- 头脑风暴新想法
- 天文学研究辅助
- 天文学教育支持
- 文献综述和总结
- 科学概念解释
局限性
- 训练数据截止日期:2024年1月
- 与所有大语言模型一样,可能会产生幻觉
- 受80亿参数规模限制,复杂推理能力有限
- 论文元数据记忆不完全准确
- 性能主要在选择题上进行验证
- 主要以英语进行训练
技术规格
- 架构:基于Meta-Llama 3.1
- 训练基础设施:ORNL OLCF Frontier
- 托管平台:Hugging Face Hub(AstroMLab/AstroSage-8B)
伦理考量
虽然该模型专为科学用途设计:
- 不应作为关键研究决策的唯一依据
- 输出应与原始来源进行验证
- 可能反映天文学文献中存在的偏差
📄 许可证
模型使用Llama 3.1社区许可证。
📖 引用与联系
- 通讯作者:Tijmen de Haan(tijmen dot dehaan at gmail dot com)
- AstroMLab:astromachinelearninglab at gmail dot com
- 引用此模型时,请引用AstroMLab 3论文:
@preprint{dehaan2024astromlab3,
title={AstroMLab 3: Achieving GPT-4o Level Performance in Astronomy with a Specialized 8B-Parameter Large Language Model},
author={Tijmen de Haan and Yuan-Sen Ting and Tirthankar Ghosal and Tuan Dung Nguyen and Alberto Accomazzi and Azton Wells and Nesar Ramachandra and Rui Pan and Zechang Sun},
year={2024},
eprint={2411.09012},
archivePrefix={arXiv},
primaryClass={astro-ph.IM},
url={https://arxiv.org/abs/2411.09012},
}