Galactica-125m開源語言模型 - 免費部署助力科學任務高效處理

首頁

Galactica 125m

由facebook開發

GALACTICA是基於大規模科學語料庫訓練的系列語言模型，專注於科學任務處理。

大型語言模型

Transformers

#科學文本生成 #多模態標記化 #學術引用預測

下載量 193.82k

發布時間 : 11/16/2022

模型概述

GALACTICA模型設計用於執行科學任務，包括引文預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取等。

模型特點

科學專用訓練

基於1060億token的開源科學文本和數據訓練，涵蓋論文、教科書、科學網站等專業內容

多模態支持

支持處理SMILES分子式、氨基酸序列等科學專用數據格式

低毒性輸出

相比其他大型語言模型表現出顯著較低的毒性率

模型能力

引文預測

科學問答

數學推理

摘要生成

文檔生成

分子屬性預測

實體提取

使用案例

學術研究

文獻引用預測

預測給定文本段落可能引用的文獻

較大規模模型表現出接近真實引文行為

科學概念解釋

生成科學術語和概念的解釋說明

在高質量學術語料上訓練，解釋具有專業性

教育

數學問題求解

解決物理和數學問題

能夠處理包含公式和計算的複雜問題

🚀 GALACTICA 125M (迷你版)

GALACTICA 125M（迷你版）是基於Transformer架構的模型，在大規模科學語料庫上訓練，可執行多種科學任務，如引用預測、科學問答等，為科學研究和開發提供支持。

logo

本模型卡片參考了原始倉庫的內容。

遵循 Mitchell 等人（2018）的標準，此模型卡片提供了關於 GALACTICA 模型的信息，包括其訓練方式和預期用例。有關模型訓練和評估的完整詳細信息，請參閱發佈論文。

✨ 主要特性

大規模科學語料訓練：GALACTICA 模型在大規模科學語料庫上進行訓練，能夠執行多種科學任務，包括但不限於引用預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取等。
多參數規模選擇：開發了從 125M 到 120B 參數規模不等的模型，可滿足不同場景的需求。

📦 安裝指南

本模型以非商業性的 CC BY - NC 4.0 許可證提供。有關如何使用該模型的更多信息，請參閱本倉庫的 README.md 文件。

💻 使用示例

基礎用法

使用 PyTorch 模型在 CPU 上運行模型

點擊展開

from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

高級用法

使用 PyTorch 模型在 GPU 上運行模型

點擊展開

# pip install accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

使用不同精度在 GPU 上運行模型 - FP16

點擊展開

# pip install accelerate
import torch
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto", torch_dtype=torch.float16)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

使用不同精度在 GPU 上運行模型 - INT8

點擊展開

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto", load_in_8bit=True)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

📚 詳細文檔

模型詳情

GALACTICA 模型在大規模科學語料庫上進行訓練。這些模型旨在執行科學任務，包括但不限於引用預測、科學問答、數學推理、摘要生成、文檔生成、分子屬性預測和實體提取等。該模型由 Meta AI 的 Papers with Code 團隊開發，用於研究語言模型在科學自動組織中的應用。我們訓練了參數規模從 125M 到 120B 不等的模型。以下是已發佈模型的概要：

規模	參數
`迷你版`	125M
`基礎版`	1.3B
`標準版`	6.7B
`大型版`	30B
`巨型版`	120B

發佈日期

2022 年 11 月

模型類型

基於 Transformer 架構，採用僅解碼器設置，並進行了一些修改（更多詳細信息請參閱論文）。

論文與演示

論文 / 演示

模型用途

GALACTICA 模型的主要目標用戶是研究將語言模型應用於科學領域的研究人員。我們也預計該模型對希望構建科學工具的開發者有用。然而，鑑於語言模型可能會產生幻覺，我們警告在沒有保障措施的情況下不要用於生產環境。

訓練數據

GALACTICA 模型在 1060 億個開放獲取的科學文本和數據標記上進行訓練。這包括論文、教科書、科學網站、百科全書、參考資料、知識庫等。我們對不同的模態進行標記，為不同的任務提供自然語言接口。更多信息請參閱 README.md 文件。完整的訓練數據信息請參閱論文。

🔧 技術細節

性能與侷限性

易產生幻覺：與其他語言模型一樣，GALACTICA 經常容易產生幻覺，即使在高質量的學術語料庫上訓練也無法避免，尤其是對於不太流行和引用較少的科學概念。從模型生成內容時，無法保證輸出的真實性。這也適用於特定的模態，如引用預測。雖然 GALACTICA 的引用行為隨著規模的增大逐漸接近真實的引用行為，但在更大規模下，模型仍然表現出流行度偏差。
存在一定偏差：我們在與刻板印象和毒性相關的幾種類型的基準測試中對模型進行了評估。總體而言，與其他大型語言模型相比，該模型的毒性率顯著降低。然而，該模型在某些指標上仍然表現出偏差（詳細信息請參閱論文）。因此，我們建議在使用該模型進行生成時要謹慎。

更廣泛的影響

GALACTICA 有可能成為發現學術文獻的新方式。我們還預計它在特定領域的應用會有很多下游用途，如數學、生物學和化學。在論文中，我們展示了該模型作為標準搜索工具替代品的幾個示例。我們預計將基於 GALACTICA 等大型語言模型構建新一代的科學工具。

我們鼓勵研究人員探索這些模型的有益和新的用例。然而，重要的是要意識到大型語言模型目前的侷限性。研究人員應注意使用這些模型可能出現的常見問題，如幻覺和偏差。

📄 許可證

本模型採用非商業性的 CC BY - NC 4.0 許可證。

🔗 引用

@inproceedings{GALACTICA,
    title={GALACTICA: A Large Language Model for Science},
    author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
    year={2022}
}