🚀 GALACTICA 1.3B (base)
GALACTICA 1.3B (base)モデルは、大規模な科学コーパスで訓練され、様々な科学的タスクを実行することができます。このモデルは、科学分野における言語モデルの利用を研究するために開発されました。

元のリポジトリからのモデルカードです。
Mitchell et al. (2018)に従い、このモデルカードはGALACTICAモデルに関する情報、その訓練方法、および意図された使用事例を提供します。モデルの訓練と評価の詳細については、リリース論文を参照してください。
📚 詳細ドキュメント
モデルの詳細
GALACTICAモデルは、大規模な科学コーパスで訓練されています。これらのモデルは、引用予測、科学的QA、数学的推論、要約、文書生成、分子特性予測、エンティティ抽出などの科学的タスクを実行するように設計されています。これらのモデルは、Meta AIのPapers with Codeチームによって開発され、科学の自動組織化における言語モデルの使用を研究するためのものです。我々は、125Mから120Bのパラメータを持つモデルを訓練しています。以下は、リリースされたモデルの概要です。
サイズ |
パラメータ |
mini |
125 M |
base |
1.3 B |
standard |
6.7 B |
large |
30 B |
huge |
120 B |
リリース日
2022年11月
モデルの種類
デコーダーのみの設定で、いくつかの変更を加えたTransformerベースのアーキテクチャ(詳細は論文を参照)。
論文とデモ
論文 / デモ
モデルの使用
GALACTICAモデルの主な対象ユーザーは、科学分野に適用される言語モデルを研究する研究者です。また、科学的ツールを構築したい開発者にも有用であると期待されています。ただし、言語モデルが幻覚を起こす可能性があるため、安全策なしでの本番環境での使用は避けるようにしてください。
これらのモデルは、非商用のCC BY - NC 4.0ライセンスの下で提供されています。モデルの使用方法の詳細については、このリポジトリのREADME.mdを参照してください。
訓練データ
GALACTICAモデルは、1060億トークンのオープンアクセスの科学的テキストとデータで訓練されています。これには、論文、教科書、科学ウェブサイト、百科事典、参考資料、知識ベースなどが含まれます。我々は、異なるモダリティをトークン化して、さまざまなタスクに対する自然言語インターフェースを提供しています。詳細については、README.mdを参照してください。訓練データの完全な情報については、論文を参照してください。
📦 インストール
このセクションでは、transformers
ライブラリを使用してモデルを使用する方法の例を示します。
💻 使用例
基本的な使用法
PyTorchモデルをCPUで実行する場合
展開するにはクリック
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
PyTorchモデルをGPUで実行する場合
展開するにはクリック
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
高度な使用法
GPUを使用して異なる精度でモデルを実行する場合
FP16
展開するにはクリック
import torch
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", torch_dtype=torch.float16)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
展開するにはクリック
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-1.3b")
model = OPTForCausalLM.from_pretrained("facebook/galactica-1.3b", device_map="auto", load_in_8bit=True)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
🔧 技術詳細
性能と制限
このモデルは、さまざまな知識プローブ、推論、および知識集約型の科学的タスクで、いくつかの既存の言語モデルを上回っています。これは、一般的なNLPタスクにも及び、GALACTICAは他のオープンソースの一般的な言語モデルを上回っています。ただし、このセクションではいくつかの制限についても指摘します。
他の言語モデルと同様に、GALACTICAはしばしば幻覚を起こしやすく、高品質な学術コーパスで訓練しても、特に人気が低く引用数の少ない科学的概念についてはこれを防ぐことはできません。モデルから生成する際に、真実性のある出力が保証されるわけではありません。これは、引用予測などの特定のモダリティにも当てはまります。GALACTICAの引用挙動は規模に伴って真の引用挙動に近づきますが、モデルは大規模でも人気バイアスを示し続けます。
さらに、我々はモデルをステレオタイプや毒性に関連するいくつかのタイプのベンチマークで評価しました。全体的に、このモデルは他の大規模言語モデルと比較して大幅に低い毒性率を示しています。ただし、モデルは特定の尺度でバイアスを示し続けています(詳細は論文を参照)。そのため、モデルを生成に使用する際には注意が必要です。
広範な影響
GALACTICAは、学術文献を発見する新しい方法として潜在的に利用できます。また、数学、生物学、化学などの特定の分野への応用に多くの下流の利用が期待されます。論文では、このモデルが標準的な検索ツールの代替として機能するいくつかの例を示しました。我々は、GALACTICAのような大規模言語モデルを基にした新しい世代の科学的ツールが構築されることを期待しています。
我々は、研究者にこれらのモデルの有益で新しい使用事例を調査することを奨励します。ただし、大規模言語モデルの現在の制限に注意することが重要です。研究者は、これらのモデルを使用することで生じる可能性のある幻覚やバイアスなどの一般的な問題に注意を払う必要があります。
引用
@inproceedings{GALACTICA,
title={GALACTICA: A Large Language Model for Science},
author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
year={2022}
}
📄 ライセンス
このモデルは、CC BY - NC 4.0ライセンスの下で提供されています。