Txgemma 9b Predict

googleによって開発

TxGemmaはGemma 2を微調整した軽量オープンソース言語モデルシリーズで、治療開発に最適化されており、2B、9B、27Bの3つのサイズを提供します。

大規模言語モデル

Transformers

英語オープンソースライセンス:その他 #薬物属性予測 #治療ターゲット分析 #低分子モデリング

ダウンロード数 6,159

リリース時間 : 3/21/2025

モデル概要

治療開発に最適化された最先端言語モデルで、低分子、タンパク質、核酸などの治療ターゲット情報の処理に優れ、属性予測などのタスクで卓越した性能を発揮します。

モデル特徴

多機能性

幅広い治療タスクで優れた性能を発揮し、多くのベンチマークで最高水準に到達または超越

データ効率

大規模モデルと比べて、限られたデータ下でも競争力がある

対話能力

TxGemma-Chatバージョンは自然言語対話をサポートし、予測ロジックを説明可能

微調整基盤

専門的なユースケースの事前学習基盤として利用可能

モデル能力

治療属性予測

薬物ターゲット相互作用分析

自然言語対話による説明

マルチターン推論

使用事例

創薬

血液脳関門透過予測

薬物SMILES文字列から血液脳関門透過能力を予測

TDCベンチマークで専門モデルを超越

ターゲット相互作用予測

薬物と生物学的ターゲットの相互作用を予測

26タスクで専門モデル性能を超越

license: other license_name: health-ai-developer-foundations license_link: https://developers.google.com/health-ai-developer-foundations/terms language:

en pipeline_tag: text-generation library_name: transformers tags:
therapeutics
drug-development extra_gated_heading: Hugging FaceでのTxGemmaへのアクセス extra_gated_prompt: >- Hugging FaceでTxGemmaにアクセスするには、Health AI Developer Foundationの利用規約を確認し同意する必要があります。これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。リクエストは即時処理されます。 extra_gated_button_content: ライセンスを確認

TxGemmaモデルカード

モデルドキュメント: TxGemma

リソース:

Google Cloud Model Gardenのモデル: TxGemma
Hugging Faceのモデル: TxGemma
GitHubリポジトリ（サポートコード、Colabノートブック、ディスカッション、イシュー）: TxGemma
クイックスタートノートブック: notebooks/quick_start
サポート: お問い合わせを参照。

利用規約: Health AI Developer Foundationsの利用規約

著者: Google

モデル情報

このセクションでは、TxGemmaモデルとその使用方法について説明します。

説明

TxGemmaは、Gemma 2を基に構築された軽量で最先端のオープン言語モデルのコレクションで、治療開発向けにファインチューニングされています。2B、9B、27Bの3つのサイズがあります。

TxGemmaモデルは、低分子、タンパク質、核酸、疾患、細胞株など、さまざまな治療モダリティとターゲットに関連する情報を処理および理解するように設計されています。TxGemmaは、特性予測などのタスクに優れており、さらなるファインチューニングの基盤として、または創薬のための対話型の会話エージェントとして使用できます。このモデルは、Therapeutics Data Commons (TDC)からキュレーションされた多様な命令チューニングデータセットを使用して、Gemma 2からファインチューニングされています。

TxGemmaは、狭い形式のプロンプトを期待する予測モデルとして、また9Bおよび27Bバージョンの会話モデルとして提供されており、より柔軟で、予測の背後にある理論を説明するためのマルチターンインタラクションに使用できます。この会話モデルは、一部の生の予測性能を犠牲にしています。詳細については、論文を参照してください。

主な特徴

汎用性: 幅広い治療タスクで強力な性能を発揮し、多くのベンチマークで最高クラスの性能を上回るか一致します。
データ効率: 大規模なモデルと比較しても限られたデータで競争力のある性能を示し、前身モデルを上回ります。
会話能力 (TxGemma-Chat): 自然言語対話に参加し、予測の背後にある理論を説明できる会話バリアントを含みます。
ファインチューニングの基盤: 専門的な使用例のための事前トレーニング済み基盤として使用できます。

潜在的な用途

TxGemmaは、以下の分野の研究者にとって貴重なツールとなる可能性があります:

加速された創薬: 治療薬とターゲットの特性を予測することで、治療開発プロセスを合理化します。これには、ターゲット同定、薬物-ターゲット相互作用予測、臨床試験承認予測など、さまざまなタスクが含まれます。

使用方法

以下は、GPUでモデルをローカルで実行するためのいくつかのコードスニペットです。大量の入力に対して推論を実行する場合は、Model Gardenを使用してプロダクションバージョンを作成することをお勧めします。

治療タスクのためのプロンプトのフォーマット

import json
from huggingface_hub import hf_hub_download

# TDCタスクのプロンプトテンプレートをロード
tdc_prompts_filepath = hf_hub_download(
    repo_id="google/txgemma-9b-predict",
    filename="tdc_prompts.json",
)
with open(tdc_prompts_filepath, "r") as f:
    tdc_prompts_json = json.load(f)

# 例となるTDCタスクと入力を設定
task_name = "BBB_Martins"
input_type = "{Drug SMILES}"
drug_smiles = "CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21"

# テンプレートと入力薬物SMILES文字列を使用してプロンプトを構築
TDC_PROMPT = tdc_prompts_json[task_name].replace(input_type, drug_smiles)
print(TDC_PROMPT)

結果のプロンプトは、モデルが期待する形式になります:

Instructions: Answer the following question about drug properties.
Context: As a membrane separating circulating blood and brain extracellular fluid, the blood-brain barrier (BBB) is the protection layer that blocks most foreign drugs. Thus the ability of a drug to penetrate the barrier to deliver to the site of action forms a crucial challenge in development of drugs for central nervous system.
Question: Given a drug SMILES string, predict whether it
(A) does not cross the BBB (B) crosses the BBB
Drug SMILES: CN1C(=O)CN=C(C2=CCCCC2)c2cc(Cl)ccc21
Answer:

予測タスクでのモデルの実行

# pip install accelerate transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

# Hugging Face Hubから直接モデルをロード
tokenizer = AutoTokenizer.from_pretrained("google/txgemma-9b-predict")
model = AutoModelForCausalLM.from_pretrained(
    "google/txgemma-9b-predict",
    device_map="auto",
)

# フォーマットされたTDCプロンプト（上記の「治療タスクのためのプロンプトのフォーマット」セクションを参照）
prompt = TDC_PROMPT

# トークン化された入力を準備
input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")

# 応答を生成
outputs = model.generate(**input_ids, max_new_tokens=8)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

または、pipeline APIを使用することもできます。これは、モデルとトークナイザーの読み込みと使用の複雑な詳細を抽象化し、推論を簡単に実行する方法を提供します:

# pip install transformers
from transformers import pipeline

# モデルを使用してテキスト生成パイプラインをインスタンス化
pipe = pipeline(
    "text-generation",
    model="google/txgemma-9b-predict",
    device="cuda",
)

# フォーマットされたTDCプロンプト（上記の「治療タスクのためのプロンプトのフォーマット」セクションを参照）
prompt = TDC_PROMPT

# 応答を生成
outputs = pipe(prompt, max_new_tokens=8)
response = outputs[0]["generated_text"]
print(response)

例

TxGemmaの使用方法の例については、以下のColabノートブックを参照してください:

モデルを簡単に試すには、Hugging Faceからの重みを使用してローカルで実行する方法を説明したColabでのクイックスタートノートブックを参照してください。これにはTDCからのいくつかの例評価タスクが含まれています。
Hugging FaceでTxGemmaをファインチューニングする方法のデモについては、Colabでのファインチューニングノートブックを参照してください。
TxGemmaをGemini 2を動力源とするより大きなエージェントワークフローの一部としてツールとして使用する方法のデモについては、Colabでのエージェントワークフローノートブックを参照してください。

モデルアーキテクチャの概要

TxGemmaは、軽量で最先端のオープンLLMであるGemma 2ファミリーを基にしています。デコーダのみのトランスフォーマーアーキテクチャを利用しています。
ベースモデル: Gemma 2（2B、9B、27Bパラメータバージョン）。
ファインチューニングデータ: Therapeutics Data Commons、さまざまな治療モダリティとターゲットをカバーする命令チューニングデータセットのコレクション。
トレーニングアプローチ: 治療データ（TxT）と、会話バリアントの場合は一般的な命令チューニングデータの混合物を使用した命令ファインチューニング。
会話バリアント: TxGemma-Chatモデル（9Bおよび27B）は、会話能力を維持するために治療と一般的な命令チューニングデータの混合物でトレーニングされています。

技術仕様

モデルタイプ: デコーダのみのトランスフォーマー（Gemma 2ベース）
主要な出版物: TxGemma: Efficient and Agentic LLMs for Therapeutics
モデル作成日: 2025-03-18（TxGemma Variant Proposalから）
モデルバージョン: 1.0.0

性能と検証

TxGemmaの性能は、TDCから派生した66の治療タスクの包括的なベンチマークで検証されています。

主要な性能指標

集約的な改善: 元のTx-LLM論文と比較して、66の治療タスクのうち45で改善されています。
最高クラスの性能: 66タスクのうち50で最高クラスの性能を上回るか一致し、26タスクで専門家モデルを上回ります。完全な内訳については、TxGemma論文の表A.11を参照してください。

入力と出力

入力: テキスト。最高の性能を得るためには、テキストプロンプトは命令、コンテキスト、質問、およびオプションで少数ショットの例を含むTDC構造に従ってフォーマットする必要があります。入力にはSMILES文字列、アミノ酸配列、ヌクレオチド配列、自然言語テキストを含めることができます。
出力: テキスト。

データセットの詳細

トレーニングデータセット

Therapeutics Data Commons: 安全で効果的な医薬品の発見と開発にわたる66のタスクをカバーする命令チューニングデータセットのキュレーションされたコレクション。これには、さまざまな生物医学的エンティティにわたる1500万を超えるデータポイントが含まれます。リリースされたTxGemmaモデルは、商用ライセンスを持つデータセットのみでトレーニングされていますが、出版物のモデルは非商用ライセンスのデータセットでもトレーニングされています。

一般的な命令チューニングデータ: TDCと組み合わせてTxGemma-Chatに使用されます。

評価データセット

Therapeutics Data Commons: トレーニングに使用されたのと同じ66のタスクが評価に使用され、TDCの推奨方法論（ランダム、スキャフォールド、コールドスタート、組み合わせ、および時間的）に従ってデータ分割されます。

ライセンス

TxGemmaの使用は、Health AI Developer Foundationsの利用規約によって管理されています。

実装情報

このセクションには、モデルの内部に関する詳細が含まれています。

ソフトウェア

トレーニングはJAXを使用して行われました。

JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模なモデルのトレーニングをより高速かつ効率的に行うことができます。

使用と制限

意図された使用

治療の研究と開発。

利点

TxGemmaは、治療開発を加速するための汎用性と強力なツールを提供します。以下を提供します:

幅広いタスクにわたる強力な性能。
大規模なモデルと比較したデータ効率。
プライベートデータからのさらなるファインチューニングの基盤。
エージェントワークフローへの統合。

制限

TDCからの公開データでトレーニングされています。
タスク固有の検証は、エンドユーザーによるダウンストリームモデル開発の重要な側面です。
あらゆる研究と同様に、開発者は特定のアプリケーション（例: 年齢、性別、状態、スキャナーなど）の意図された使用設定に適切に代表されるデータを使用して性能を理解するために、ダウンストリームアプリケーションが検証されていることを確認する必要があります。

引用

@article{wang2025txgemma,
    title={TxGemma: Efficient and Agentic LLMs for Therapeutics},
    author={Wang, Eric and Schmidgall, Samuel and Jaeger, Paul F. and Zhang, Fan and Pilgrim, Rory and Matias, Yossi and Barral, Joelle and Fleet, David and Azizi, Shekoofeh},
    year={2025},
}

論文はこちらでご覧いただけます。