🚀 GALACTICA 1.3B (基礎版)
GALACTICA 1.3B模型是基於大規模科學語料庫訓練的語言模型,可執行多種科學任務,如引文預測、科學問答等,為科學研究和工具開發提供有力支持。

本模型卡片參考了原 倉庫 的內容。
參考 Mitchell 等人 (2018) 的做法,此模型卡片提供了關於GALACTICA模型的信息、訓練方式以及預期用例。有關模型訓練和評估的完整細節可在 發佈論文 中找到。
✨ 主要特性
- 科學任務處理:GALACTICA模型在大規模科學語料庫上進行訓練,能夠執行多種科學任務,包括但不限於引文預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取。
- 多規模模型:開發了參數規模從125M到120B不等的模型,以滿足不同的應用需求。
📦 安裝指南
本README未提及具體安裝步驟,更多信息可查看倉庫中的 README.md
文件。
💻 使用示例
基礎用法
以下是在 transformers
中使用該模型的示例腳本。
使用PyTorch模型在CPU上運行模型
點擊展開
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
高級用法
在GPU上運行模型
點擊展開
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上使用不同精度運行模型
FP16
點擊展開
import torch
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", torch_dtype=torch.float16)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
點擊展開
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", load_in_8bit=True)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
📚 詳細文檔
模型詳情
GALACTICA模型在大規模科學語料庫上進行訓練,旨在執行科學任務,包括但不限於引文預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取。這些模型由Meta AI的Papers with Code團隊開發,用於研究語言模型在科學自動組織中的應用。我們訓練了參數規模從125M到120B不等的模型。以下是已發佈模型的總結:
規模 |
參數 |
mini |
125M |
base |
1.3B |
standard |
6.7B |
large |
30B |
huge |
120B |
發佈日期
2022年11月
模型類型
基於Transformer架構,採用僅解碼器設置,並進行了一些修改(更多細節見論文)。
論文與演示
論文 / 演示
模型使用
GALACTICA模型的主要目標用戶是研究將語言模型應用於科學領域的研究人員。我們也預計該模型對希望構建科學工具的開發者有用。然而,鑑於語言模型可能產生幻覺,我們警告在沒有保障措施的情況下不要用於生產環境。
模型以非商業性的CC BY - NC 4.0許可證提供。有關如何使用模型的更多信息可在本倉庫的 README.md
文件中找到。
訓練數據
GALACTICA模型在1060億個開放獲取的科學文本和數據標記上進行訓練。這包括論文、教科書、科學網站、百科全書、參考資料、知識庫等。我們對不同模態進行標記,為不同任務提供自然語言接口。更多信息見 README.md
文件。訓練數據的完整信息見論文。
性能與侷限性
該模型在一系列知識探測、推理和知識密集型科學任務上優於幾個現有的語言模型。這也擴展到一般的自然語言處理任務,GALACTICA在這些任務上優於其他開源通用語言模型。然而,我們注意到該模型存在一些侷限性。
與其他語言模型一樣,GALACTICA經常容易產生幻覺——在高質量學術語料庫上訓練並不能防止這種情況,特別是對於不太流行和引用較少的科學概念。從模型生成內容時,不能保證輸出的真實性。這也適用於特定模態,如引文預測。雖然GALACTICA的引文行為隨著規模的增加接近真實的引文行為,但該模型在更大規模下仍表現出流行度偏差。
此外,我們在與刻板印象和毒性相關的幾種類型的基準測試中對模型進行了評估。總體而言,與其他大型語言模型相比,該模型的毒性率顯著降低。然而,該模型在某些指標上仍表現出偏差(詳情見論文)。因此,我們建議在使用模型進行生成時要謹慎。
更廣泛的影響
GALACTICA有可能作為一種發現學術文獻的新方式。我們也預計該模型在特定領域(如數學、生物學和化學)有很多下游應用。在論文中,我們展示了該模型作為標準搜索工具替代品的幾個例子。我們預計新一代的科學工具將基於GALACTICA等大型語言模型構建。
我們鼓勵研究人員探索這些模型的有益和新的用例。然而,重要的是要意識到大型語言模型目前的侷限性。研究人員應關注使用這些模型可能出現的常見問題,如幻覺和偏差。
引用
@inproceedings{GALACTICA,
title={GALACTICA: A Large Language Model for Science},
author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
year={2022}
}
📄 許可證
本模型以非商業性的CC BY - NC 4.0許可證提供。