🚀 GALACTICA 6.7B (standard)
GALACTICA模型是在大规模科学语料库上训练的语言模型,可执行多种科学任务,如引用预测、科学问答等。本模型卡提供了该模型的详细信息,包括训练方式、预期用例等。

本模型卡源自原始 仓库。参考 Mitchell等人(2018) 的研究,此模型卡介绍了GALACTICA模型的相关信息,包括其训练方式和预期用例。模型训练和评估的完整细节可在 发布论文 中找到。
✨ 主要特性
- 科学任务执行:GALACTICA模型在大规模科学语料库上进行训练,能够执行多种科学任务,如引用预测、科学问答、数学推理、摘要生成、文档生成、分子属性预测和实体提取等。
- 多参数规模:开发了参数规模从125M到120B不等的模型,可满足不同的应用需求。
📦 安装指南
本部分未提供具体安装命令,可参考模型的官方文档或相关代码仓库获取安装指导。
💻 使用示例
基础用法
以下是在 transformers
中使用该模型的示例脚本:
在CPU上运行模型
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-6.7b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-6.7b")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上运行模型
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-6.7b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-6.7b", device_map="auto")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上使用不同精度运行模型
FP16
import torch
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-6.7b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-6.7b", device_map="auto", torch_dtype=torch.float16)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-6.7b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-6.7b", device_map="auto", load_in_8bit=True)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
📚 详细文档
模型详情
GALACTICA模型在大规模科学语料库上进行训练,旨在执行科学任务,包括但不限于引用预测、科学问答、数学推理、摘要生成、文档生成、分子属性预测和实体提取等。该模型由Meta AI的Papers with Code团队开发,用于研究语言模型在科学自动组织中的应用。我们训练了参数规模从125M到120B不等的模型。以下是已发布模型的总结:
规模 |
参数 |
mini |
125 M |
base |
1.3 B |
standard |
6.7 B |
large |
30 B |
huge |
120 B |
发布日期
2022年11月
模型类型
基于Transformer架构,采用仅解码器设置,并进行了一些修改(更多细节见论文)。
论文与演示
论文 / 演示
模型用途
GALACTICA模型的主要目标用户是研究将语言模型应用于科学领域的研究人员。我们还预计该模型对希望构建科学工具的开发者也会有用。然而,鉴于语言模型可能会产生幻觉,我们建议在没有保障措施的情况下避免将其用于生产环境。
该模型根据非商业性的CC BY - NC 4.0许可证提供。有关如何使用该模型的更多信息,请参阅本仓库的 README.md
文件。
训练数据
GALACTICA模型在包含1060亿个标记的开放获取科学文本和数据上进行训练。这些数据包括论文、教科书、科学网站、百科全书、参考资料、知识库等。我们对不同模态进行标记,为不同任务提供自然语言接口。更多信息请参阅 README.md
文件。训练数据的完整信息请参阅论文。
性能与局限性
该模型在一系列知识探测、推理和知识密集型科学任务上优于现有的几种语言模型。在一般NLP任务中,GALACTICA也优于其他开源通用语言模型。然而,我们也注意到该模型存在一些局限性。
与其他语言模型一样,GALACTICA经常容易产生幻觉——在高质量学术语料库上进行训练并不能避免这一问题,特别是对于不太流行和引用较少的科学概念。从模型生成内容时,不能保证输出的真实性。这也适用于特定模态,如引用预测。虽然GALACTICA的引用行为随着规模的增大逐渐接近真实引用行为,但在更大规模下,模型仍然表现出流行度偏差。
此外,我们在与刻板印象和毒性相关的几种类型的基准测试中对该模型进行了评估。总体而言,与其他大型语言模型相比,该模型的毒性率显著降低。然而,该模型在某些指标上仍然表现出偏差(详情见论文)。因此,我们建议在使用该模型进行生成时要谨慎。
更广泛的影响
GALACTICA有可能成为一种发现学术文献的新方式。我们还预计它在特定领域(如数学、生物学和化学)会有很多下游应用。在论文中,我们展示了该模型作为标准搜索工具替代品的几个示例。我们预计新一代的科学工具将基于GALACTICA等大型语言模型构建。
我们鼓励研究人员探索这些模型的有益和新的用例。然而,重要的是要意识到大型语言模型目前存在的局限性。研究人员应关注使用这些模型可能出现的常见问题,如幻觉和偏差。
🔧 技术细节
本部分未提供具体的技术实现细节,若有需要可参考相关论文或代码仓库。
📄 许可证
本模型根据非商业性的CC BY - NC 4.0许可证提供。
📚 引用
@inproceedings{GALACTICA,
title={GALACTICA: A Large Language Model for Science},
author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
year={2022}
}