🚀 GALACTICA 125M (mini)
GALACTICA 125M (mini)は、科学分野に特化した大規模言語モデルで、様々な科学的タスクを実行できます。

元のリポジトリのモデルカードを参考にしています。
Mitchell et al. (2018)に従い、このモデルカードではGALACTICAモデルに関する情報、その訓練方法、および想定される使用事例について説明します。モデルの訓練と評価の詳細については、リリース論文を参照してください。
🚀 クイックスタート
GALACTICAモデルは、大規模な科学コーパスで訓練されており、様々な科学的タスクを実行するように設計されています。以下に、このモデルの基本的な情報と使用方法を説明します。
✨ 主な機能
- 引用予測、科学的QA、数学的推論、要約、文書生成、分子特性予測、エンティティ抽出などの科学的タスクを実行できます。
- 125Mから120Bパラメータまでの様々なサイズのモデルが提供されています。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下に、モデルを使用するための例を示します。
💻 使用例
基本的な使用法
CPUでモデルを実行する場合
クリックして展開
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
GPUでモデルを実行する場合
クリックして展開
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto")
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
GPUで異なる精度でモデルを実行する場合
FP16
クリックして展開
import torch
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto", torch_dtype=torch.float16)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
クリックして展開
from transformers import AutoTokenizer, OPTForCausalLM
tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto", load_in_8bit=True)
input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
📚 ドキュメント
モデルの詳細
GALACTICAモデルは、大規模な科学コーパスで訓練されています。これらのモデルは、引用予測、科学的QA、数学的推論、要約、文書生成、分子特性予測、エンティティ抽出などの科学的タスクを実行するように設計されています。以下は、リリースされたモデルの概要です。
属性 |
详情 |
モデルタイプ |
デコーダーのみの設定で、いくつかの変更を加えたTransformerベースのアーキテクチャ(詳細は論文を参照) |
訓練データ |
1060億トークンのオープンアクセスの科学的テキストとデータで訓練されています。これには、論文、教科書、科学ウェブサイト、百科事典、参考資料、知識ベースなどが含まれます。 |
リリース日 |
2022年11月 |
論文とデモ |
論文 / デモ |
モデルの使用方法
GALACTICAモデルの主な対象ユーザーは、科学分野に適用される言語モデルを研究する研究者です。また、科学的ツールを構築したい開発者にも役立つと考えられます。ただし、言語モデルが幻覚を生み出す可能性があるため、セーフガードなしでの本番環境での使用は避けるようにしてください。
モデルの性能と制限
このモデルは、さまざまな知識プローブ、推論、および知識集約型の科学的タスクで、いくつかの既存の言語モデルを上回っています。ただし、GALACTICAは他の言語モデルと同様に、幻覚を生み出しやすい傾向があります。また、特定の指標でバイアスを示す場合があります。したがって、このモデルを使用して生成する際には注意が必要です。
広範な影響
GALACTICAは、学術文献を発見する新しい方法として潜在的に使用できます。また、数学、生物学、化学などの特定の分野への応用に多くの下流の用途が期待されます。我々は、GALACTICAのような大規模言語モデルを基にした新しい世代の科学的ツールが構築されることを期待しています。
🔧 技術詳細
モデルの訓練
GALACTICAモデルは、1060億トークンのオープンアクセスの科学的テキストとデータで訓練されています。これには、論文、教科書、科学ウェブサイト、百科事典、参考資料、知識ベースなどが含まれます。異なるモダリティをトークン化して、さまざまなタスクに自然言語インターフェースを提供しています。
モデルの評価
このモデルは、幻覚やバイアスに関するいくつかのタイプのベンチマークで評価されています。全体的に、他の大規模言語モデルと比較して、毒性率が大幅に低いことが示されています。ただし、特定の指標でバイアスを示す場合があります。
📄 ライセンス
このモデルは、非商用のCC BY - NC 4.0ライセンスの下で提供されています。モデルの使用方法に関する詳細な情報は、このリポジトリのREADME.mdを参照してください。
引用
@inproceedings{GALACTICA,
title={GALACTICA: A Large Language Model for Science},
author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
year={2022}
}