Galactica - 1.3bオープンソース科学大規模言語モデル - 無料で引用予測、科学質問応答などのタスクを実現

ホーム

Galactica 1.3b

facebookによって開発

GALACTICAは大規模な科学コーパスで訓練された大規模言語モデルで、引用予測、科学Q&A、数学的推論などの科学的タスク専用に設計されています。

大規模言語モデル

Transformers

#科学文献生成 #マルチモーダル科学処理 #学術知識推論

ダウンロード数 1,537

リリース時間 : 11/16/2022

モデル概要

GALACTICAはMeta AIのPapers with Codeチームによって開発された大規模言語モデルで、科学知識の自動組織化における言語モデルの応用を研究することを目的としています。このモデルは知識探索、推論、知識集約型の科学的タスクで優れた性能を発揮します。

モデル特徴

科学専用訓練

1060億トークンのオープンソース科学テキストとデータで訓練されており、論文、教科書、科学ウェブサイトなどの専門的な内容をカバーしています

マルチモーダルサポート

特別なトークンを使用して、引用、数式、分子構造など様々な科学コンテンツフォーマットをサポートします

低毒性パフォーマンス

他の大規模言語モデルと比較して、バイアスや毒性評価において顕著に優れた性能を示します

モデル能力

科学テキスト生成

引用予測

数式処理

分子構造分析

科学Q&A

要約生成

エンティティ抽出

使用事例

学術研究

文献補助執筆

研究者が論文の草稿を生成したり関連内容を補完するのを支援します

学術規範に準拠したテキストを自動生成可能

引用推薦

文脈に基づいて関連する文献引用を予測します

規模拡大に伴い引用行動が実際のパターンに近づきます

教育

科学Q&Aシステム

学生からの科学質問に回答します

知識集約型の科学タスクで既存の複数モデルを上回ります

化学/生物学

分子特性予測

分子構造に基づいてその特性を予測します

🚀 GALACTICA 1.3B (base)

GALACTICA 1.3B (base)モデルは、大規模な科学コーパスで訓練され、様々な科学的タスクを実行することができます。このモデルは、科学分野における言語モデルの利用を研究するために開発されました。

logo

元のリポジトリからのモデルカードです。

Mitchell et al. (2018)に従い、このモデルカードはGALACTICAモデルに関する情報、その訓練方法、および意図された使用事例を提供します。モデルの訓練と評価の詳細については、リリース論文を参照してください。

📚 詳細ドキュメント

モデルの詳細

GALACTICAモデルは、大規模な科学コーパスで訓練されています。これらのモデルは、引用予測、科学的QA、数学的推論、要約、文書生成、分子特性予測、エンティティ抽出などの科学的タスクを実行するように設計されています。これらのモデルは、Meta AIのPapers with Codeチームによって開発され、科学の自動組織化における言語モデルの使用を研究するためのものです。我々は、125Mから120Bのパラメータを持つモデルを訓練しています。以下は、リリースされたモデルの概要です。

サイズ	パラメータ
`mini`	125 M
`base`	1.3 B
`standard`	6.7 B
`large`	30 B
`huge`	120 B

リリース日

2022年11月

モデルの種類

デコーダーのみの設定で、いくつかの変更を加えたTransformerベースのアーキテクチャ（詳細は論文を参照）。

論文とデモ

論文 / デモ

モデルの使用

GALACTICAモデルの主な対象ユーザーは、科学分野に適用される言語モデルを研究する研究者です。また、科学的ツールを構築したい開発者にも有用であると期待されています。ただし、言語モデルが幻覚を起こす可能性があるため、安全策なしでの本番環境での使用は避けるようにしてください。

これらのモデルは、非商用のCC BY - NC 4.0ライセンスの下で提供されています。モデルの使用方法の詳細については、このリポジトリのREADME.mdを参照してください。

訓練データ

GALACTICAモデルは、1060億トークンのオープンアクセスの科学的テキストとデータで訓練されています。これには、論文、教科書、科学ウェブサイト、百科事典、参考資料、知識ベースなどが含まれます。我々は、異なるモダリティをトークン化して、さまざまなタスクに対する自然言語インターフェースを提供しています。詳細については、README.mdを参照してください。訓練データの完全な情報については、論文を参照してください。

📦 インストール

このセクションでは、transformersライブラリを使用してモデルを使用する方法の例を示します。

💻 使用例

基本的な使用法

PyTorchモデルをCPUで実行する場合

展開するにはクリック

from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

PyTorchモデルをGPUで実行する場合

展開するにはクリック

# pip install accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

高度な使用法

GPUを使用して異なる精度でモデルを実行する場合

FP16

展開するにはクリック

# pip install accelerate
import torch
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", torch_dtype=torch.float16)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

INT8

展開するにはクリック

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", load_in_8bit=True)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

🔧 技術詳細

性能と制限

このモデルは、さまざまな知識プローブ、推論、および知識集約型の科学的タスクで、いくつかの既存の言語モデルを上回っています。これは、一般的なNLPタスクにも及び、GALACTICAは他のオープンソースの一般的な言語モデルを上回っています。ただし、このセクションではいくつかの制限についても指摘します。

他の言語モデルと同様に、GALACTICAはしばしば幻覚を起こしやすく、高品質な学術コーパスで訓練しても、特に人気が低く引用数の少ない科学的概念についてはこれを防ぐことはできません。モデルから生成する際に、真実性のある出力が保証されるわけではありません。これは、引用予測などの特定のモダリティにも当てはまります。GALACTICAの引用挙動は規模に伴って真の引用挙動に近づきますが、モデルは大規模でも人気バイアスを示し続けます。

さらに、我々はモデルをステレオタイプや毒性に関連するいくつかのタイプのベンチマークで評価しました。全体的に、このモデルは他の大規模言語モデルと比較して大幅に低い毒性率を示しています。ただし、モデルは特定の尺度でバイアスを示し続けています（詳細は論文を参照）。そのため、モデルを生成に使用する際には注意が必要です。

広範な影響

GALACTICAは、学術文献を発見する新しい方法として潜在的に利用できます。また、数学、生物学、化学などの特定の分野への応用に多くの下流の利用が期待されます。論文では、このモデルが標準的な検索ツールの代替として機能するいくつかの例を示しました。我々は、GALACTICAのような大規模言語モデルを基にした新しい世代の科学的ツールが構築されることを期待しています。

我々は、研究者にこれらのモデルの有益で新しい使用事例を調査することを奨励します。ただし、大規模言語モデルの現在の制限に注意することが重要です。研究者は、これらのモデルを使用することで生じる可能性のある幻覚やバイアスなどの一般的な問題に注意を払う必要があります。

引用

@inproceedings{GALACTICA,
    title={GALACTICA: A Large Language Model for Science},
    author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
    year={2022}
}