Galactica-1.3b開源科學大語言模型 - 免費實現引文預測、科學問答等任務

首頁

Galactica 1.3b

由facebook開發

GALACTICA是基於大規模科學語料訓練的大語言模型，專為科學任務設計，包括引文預測、科學問答、數學推理等。

大型語言模型

Transformers

#科學文獻生成 #多模態科學處理 #學術知識推理

下載量 1,537

發布時間 : 11/16/2022

模型概述

GALACTICA是由Meta AI的Papers with Code團隊開發的大語言模型，旨在研究語言模型在科學知識自動化組織中的應用。該模型在知識探測、推理和知識密集型科學任務上表現優異。

模型特點

科學專用訓練

基於1060億標記的開源科學文本和數據訓練，涵蓋論文、教科書、科學網站等專業內容

多模態支持

通過特殊標記支持引用、數學公式、分子結構等多種科學內容格式

低毒性表現

相比其他大型語言模型，在偏見和毒性評估方面表現顯著更好

模型能力

科學文本生成

引文預測

數學公式處理

分子結構分析

科學問答

摘要生成

實體提取

使用案例

學術研究

文獻輔助寫作

幫助研究人員生成論文草稿或補充相關內容

可自動生成符合學術規範的文本

引文推薦

根據上下文預測可能的相關文獻引用

引用行為隨規模擴大趨近真實模式

教育

科學問答系統

回答學生提出的科學問題

在知識密集型科學任務上優於多個現有模型

化學/生物學

分子特性預測

根據分子結構預測其特性

🚀 GALACTICA 1.3B (基礎版)

GALACTICA 1.3B模型是基於大規模科學語料庫訓練的語言模型，可執行多種科學任務，如引文預測、科學問答等，為科學研究和工具開發提供有力支持。

logo

本模型卡片參考了原倉庫的內容。

參考 Mitchell 等人 (2018) 的做法，此模型卡片提供了關於GALACTICA模型的信息、訓練方式以及預期用例。有關模型訓練和評估的完整細節可在發佈論文中找到。

✨ 主要特性

科學任務處理：GALACTICA模型在大規模科學語料庫上進行訓練，能夠執行多種科學任務，包括但不限於引文預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取。
多規模模型：開發了參數規模從125M到120B不等的模型，以滿足不同的應用需求。

📦 安裝指南

本README未提及具體安裝步驟，更多信息可查看倉庫中的 README.md 文件。

💻 使用示例

基礎用法

以下是在 transformers 中使用該模型的示例腳本。

使用PyTorch模型在CPU上運行模型

點擊展開

from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

高級用法

在GPU上運行模型

點擊展開

# pip install accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

在GPU上使用不同精度運行模型

FP16

點擊展開

# pip install accelerate
import torch
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", torch_dtype=torch.float16)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

INT8

點擊展開

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", load_in_8bit=True)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

📚 詳細文檔

模型詳情

GALACTICA模型在大規模科學語料庫上進行訓練，旨在執行科學任務，包括但不限於引文預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取。這些模型由Meta AI的Papers with Code團隊開發，用於研究語言模型在科學自動組織中的應用。我們訓練了參數規模從125M到120B不等的模型。以下是已發佈模型的總結：

規模	參數
`mini`	125M
`base`	1.3B
`standard`	6.7B
`large`	30B
`huge`	120B

發佈日期

2022年11月

模型類型

基於Transformer架構，採用僅解碼器設置，並進行了一些修改（更多細節見論文）。

論文與演示

論文 / 演示

模型使用

GALACTICA模型的主要目標用戶是研究將語言模型應用於科學領域的研究人員。我們也預計該模型對希望構建科學工具的開發者有用。然而，鑑於語言模型可能產生幻覺，我們警告在沒有保障措施的情況下不要用於生產環境。

模型以非商業性的CC BY - NC 4.0許可證提供。有關如何使用模型的更多信息可在本倉庫的 README.md 文件中找到。

訓練數據

GALACTICA模型在1060億個開放獲取的科學文本和數據標記上進行訓練。這包括論文、教科書、科學網站、百科全書、參考資料、知識庫等。我們對不同模態進行標記，為不同任務提供自然語言接口。更多信息見 README.md 文件。訓練數據的完整信息見論文。

性能與侷限性

該模型在一系列知識探測、推理和知識密集型科學任務上優於幾個現有的語言模型。這也擴展到一般的自然語言處理任務，GALACTICA在這些任務上優於其他開源通用語言模型。然而，我們注意到該模型存在一些侷限性。

與其他語言模型一樣，GALACTICA經常容易產生幻覺——在高質量學術語料庫上訓練並不能防止這種情況，特別是對於不太流行和引用較少的科學概念。從模型生成內容時，不能保證輸出的真實性。這也適用於特定模態，如引文預測。雖然GALACTICA的引文行為隨著規模的增加接近真實的引文行為，但該模型在更大規模下仍表現出流行度偏差。

此外，我們在與刻板印象和毒性相關的幾種類型的基準測試中對模型進行了評估。總體而言，與其他大型語言模型相比，該模型的毒性率顯著降低。然而，該模型在某些指標上仍表現出偏差（詳情見論文）。因此，我們建議在使用模型進行生成時要謹慎。

更廣泛的影響

GALACTICA有可能作為一種發現學術文獻的新方式。我們也預計該模型在特定領域（如數學、生物學和化學）有很多下游應用。在論文中，我們展示了該模型作為標準搜索工具替代品的幾個例子。我們預計新一代的科學工具將基於GALACTICA等大型語言模型構建。

我們鼓勵研究人員探索這些模型的有益和新的用例。然而，重要的是要意識到大型語言模型目前的侷限性。研究人員應關注使用這些模型可能出現的常見問題，如幻覺和偏差。

引用

@inproceedings{GALACTICA,
    title={GALACTICA: A Large Language Model for Science},
    author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
    year={2022}
}