protgpt2-distilled-tinyオープンソースモデル - 蒸留版の高性能な小型モデルで、推論速度と性能を兼ね備える

ホーム

Protgpt2 Distilled Tiny

littleworthによって開発

ProtGPT2の蒸留バージョン、知識蒸留手法によりより効率的な小型モデルに圧縮、性能を維持しながら推論速度を向上

タンパク質モデル

Transformers

オープンソースライセンス:Apache-2.0 #タンパク質配列生成 #知識蒸留 #軽量モデル

ダウンロード数 157

リリース時間 : 5/7/2024

モデル概要

タンパク質配列生成モデル、蒸留技術により元モデルの能力を保持しつつ推論効率を大幅に向上

モデル特徴

高速推論

推論速度がオリジナル版比6倍向上、リアルタイムアプリケーションに適応

知識蒸留技術

温度調節されたソフトロスとハードロスの組み合わせ訓練を採用、教師モデルの知識を保持

軽量アーキテクチャ

わずか4層のTransformer構造、計算リソース要求を低減

モデル能力

タンパク質配列生成

タンパク質変異体安定性予測

生物学的配列パターン学習

使用事例

創薬研究

標的タンパク質設計

潜在的な薬剤標的タンパク質変異体を迅速生成

創薬初期プロセスの加速

教育研究

教育デモンストレーション

生物学授業向けタンパク質構造デモツール

高性能計算リソース不要でタンパク質特性を展示

🚀 protgpt2-distilled-tiny

このモデルは、ProtGPT2 の蒸留バージョンであり、化学や生物学の分野での利用に適しています。蒸留手法を用いることで、推論速度が向上し、様々なユースケースでの利用が可能になっています。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

from transformers import GPT2Tokenizer, GPT2LMHeadModel, TextGenerationPipeline
import re

# モデルとトークナイザーをロード
model_name = "littleworth/protgpt2-distilled-tiny"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

# パイプラインを初期化
text_generator = TextGenerationPipeline(
    model=model, tokenizer=tokenizer, device=0
)  # 必要に応じてデバイスを指定

# シーケンスを生成
generated_sequences = text_generator(
    "<|endoftext|>",
    max_length=100,
    do_sample=True,
    top_k=950,
    repetition_penalty=1.2,
    num_return_sequences=10,
    pad_token_id=tokenizer.eos_token_id,  # pad_token_idをeos_token_idに設定
    eos_token_id=0,
    truncation=True,
)

def clean_sequence(text):
    # "<|endoftext|>"トークンを削除
    text = text.replace("<|endoftext|>", "")
    
    # 改行文字とアルファベット以外の文字を削除
    text = "".join(char for char in text if char.isalpha())
    
    return text

# 生成されたシーケンスを出力
for i, seq in enumerate(generated_sequences):
    cleaned_text = clean_sequence(seq["generated_text"])
    print(f">Seq_{i}")
    print(cleaned_text)

✨ 主な機能

蒸留手法を用いることで、推論速度が最大6倍に向上。
元のモデルと同等の困惑度を維持しながら、高速化を実現。
様々なユースケースに対応可能で、薬物発見やヘルスケア、学術教育などでの利用が期待される。

🔧 技術詳細

蒸留パラメータ

温度 (T): 10
アルファ (α): 0.1
モデルアーキテクチャ:
- レイヤー数: 4
- アテンションヘッド数: 4
- 埋め込みサイズ: 512

使用データセット

このモデルは、nferruz/UR50_2021_04 で提供される評価データセットのサブセットを使用して蒸留されました。

損失関数の定式化

ソフト損失: ℒ_soft = KL(softmax(s/T), softmax(t/T))。ここで、s は学生モデルのロジット、t は教師モデルのロジット、T は確率を柔らかくするために使用される温度です。
ハード損失: ℒ_hard = -∑_i y_i log(softmax(s_i))。ここで、y_i は真のラベル、s_i は各ラベルに対応する学生モデルのロジットです。
結合損失: ℒ = α ℒ_hard + (1 - α) ℒ_soft。ここで、α (アルファ) はハード損失とソフト損失をバランスさせる重み係数です。

注意: KLはクルバック・ライブラー発散を表し、ある確率分布が別の期待される確率分布からどれだけ逸脱しているかを定量化するために使用される尺度です。

📈 パフォーマンス

蒸留されたモデル protgpt2-distilled-tiny は、推論速度が大幅に向上しており、事前学習バージョンより最大6倍速くなっています。この評価は (n = 100) のテストを用いて行われており、速度が大幅に向上している一方で、モデルは元のモデルと同等の困惑度を維持しています。

Evals

Loss

💼 ユースケース

薬物発見におけるハイスループットスクリーニング: 蒸留されたProtGPT2は、タンパク質変異体の安定性を効率的に予測することで、薬物発見における迅速な変異スクリーニングを容易にします。モデルサイズが小さいため、新しいデータセットでの迅速な微調整が可能で、ターゲット同定の速度を向上させます。
ヘルスケアにおけるポータブル診断: このモデルは手持ち式デバイスに適しており、遠隔の臨床現場でのリアルタイムのタンパク質分析を可能にし、即時の診断結果を提供します。
学術教育における対話型学習ツール: 蒸留されたモデルは教育ソフトウェアに組み込まれ、生物学の学生が高度な計算資源を必要とせずにタンパク質のダイナミクスをシミュレートし、理解するのに役立ちます。