Galactica-125mオープンソース言語モデル - 無料デプロイで科学タスクの効率的な処理をサポート

ホーム

Galactica 125m

facebookによって開発

GALACTICAは大規模な科学コーパスで訓練された言語モデルシリーズで、科学タスク処理に特化しています。

大規模言語モデル

Transformers

#科学テキスト生成 #マルチモーダルトークン化 #学術引用予測

ダウンロード数 193.82k

リリース時間 : 11/16/2022

モデル概要

GALACTICAモデルは引用予測、科学的質問応答、数学的推論、要約生成、ドキュメント生成、分子特性予測、エンティティ抽出などの科学タスクを実行するために設計されています。

モデル特徴

科学専用トレーニング

1060億トークンのオープンソース科学テキストとデータで訓練されており、論文、教科書、科学ウェブサイトなどの専門的な内容をカバーしています

マルチモーダルサポート

SMILES分子式やアミノ酸配列などの科学専用データ形式を処理可能

低毒性出力

他の大規模言語モデルと比較して顕著に低い毒性率を示します

モデル能力

引用予測

科学的質問応答

数学的推論

要約生成

ドキュメント生成

分子特性予測

エンティティ抽出

使用事例

学術研究

文献引用予測

与えられたテキスト段落が引用する可能性のある文献を予測

大規模モデルは実際の引用行動に近い挙動を示します

科学概念説明

科学用語や概念の説明を生成

高品質な学術コーパスで訓練されており、説明は専門性があります

教育

数学問題解決

物理や数学の問題を解決

数式や計算を含む複雑な問題を処理可能

🚀 GALACTICA 125M (mini)

GALACTICA 125M (mini)は、科学分野に特化した大規模言語モデルで、様々な科学的タスクを実行できます。

logo

元のリポジトリのモデルカードを参考にしています。

Mitchell et al. (2018)に従い、このモデルカードではGALACTICAモデルに関する情報、その訓練方法、および想定される使用事例について説明します。モデルの訓練と評価の詳細については、リリース論文を参照してください。

🚀 クイックスタート

GALACTICAモデルは、大規模な科学コーパスで訓練されており、様々な科学的タスクを実行するように設計されています。以下に、このモデルの基本的な情報と使用方法を説明します。

✨ 主な機能

引用予測、科学的QA、数学的推論、要約、文書生成、分子特性予測、エンティティ抽出などの科学的タスクを実行できます。
125Mから120Bパラメータまでの様々なサイズのモデルが提供されています。

📦 インストール

このモデルを使用するには、transformersライブラリをインストールする必要があります。以下に、モデルを使用するための例を示します。

💻 使用例

基本的な使用法

CPUでモデルを実行する場合

クリックして展開

from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

GPUでモデルを実行する場合

クリックして展開

# pip install accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto")

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

GPUで異なる精度でモデルを実行する場合

FP16

クリックして展開

# pip install accelerate
import torch
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto", torch_dtype=torch.float16)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

INT8

クリックして展開

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, OPTForCausalLM

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto", load_in_8bit=True)

input_text = "The Transformer architecture [START_REF]"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

📚 ドキュメント

モデルの詳細

GALACTICAモデルは、大規模な科学コーパスで訓練されています。これらのモデルは、引用予測、科学的QA、数学的推論、要約、文書生成、分子特性予測、エンティティ抽出などの科学的タスクを実行するように設計されています。以下は、リリースされたモデルの概要です。

属性	详情
モデルタイプ	デコーダーのみの設定で、いくつかの変更を加えたTransformerベースのアーキテクチャ（詳細は論文を参照）
訓練データ	1060億トークンのオープンアクセスの科学的テキストとデータで訓練されています。これには、論文、教科書、科学ウェブサイト、百科事典、参考資料、知識ベースなどが含まれます。
リリース日	2022年11月
論文とデモ	論文 / デモ

モデルの使用方法

GALACTICAモデルの主な対象ユーザーは、科学分野に適用される言語モデルを研究する研究者です。また、科学的ツールを構築したい開発者にも役立つと考えられます。ただし、言語モデルが幻覚を生み出す可能性があるため、セーフガードなしでの本番環境での使用は避けるようにしてください。

モデルの性能と制限

このモデルは、さまざまな知識プローブ、推論、および知識集約型の科学的タスクで、いくつかの既存の言語モデルを上回っています。ただし、GALACTICAは他の言語モデルと同様に、幻覚を生み出しやすい傾向があります。また、特定の指標でバイアスを示す場合があります。したがって、このモデルを使用して生成する際には注意が必要です。

広範な影響

GALACTICAは、学術文献を発見する新しい方法として潜在的に使用できます。また、数学、生物学、化学などの特定の分野への応用に多くの下流の用途が期待されます。我々は、GALACTICAのような大規模言語モデルを基にした新しい世代の科学的ツールが構築されることを期待しています。

🔧 技術詳細

モデルの訓練

GALACTICAモデルは、1060億トークンのオープンアクセスの科学的テキストとデータで訓練されています。これには、論文、教科書、科学ウェブサイト、百科事典、参考資料、知識ベースなどが含まれます。異なるモダリティをトークン化して、さまざまなタスクに自然言語インターフェースを提供しています。

モデルの評価

このモデルは、幻覚やバイアスに関するいくつかのタイプのベンチマークで評価されています。全体的に、他の大規模言語モデルと比較して、毒性率が大幅に低いことが示されています。ただし、特定の指標でバイアスを示す場合があります。

📄 ライセンス

このモデルは、非商用のCC BY - NC 4.0ライセンスの下で提供されています。モデルの使用方法に関する詳細な情報は、このリポジトリのREADME.mdを参照してください。

引用

@inproceedings{GALACTICA,
    title={GALACTICA: A Large Language Model for Science},
    author={Ross Taylor and Marcin Kardas and Guillem Cucurull and Thomas Scialom and Anthony Hartshorn and Elvis Saravia and Andrew Poulton and Viktor Kerkez and Robert Stojnic},
    year={2022}
}