Gpt2 Zinc 87m
G
Gpt2 Zinc 87m
entropyによって開発
GPT2スタイルの自己回帰型言語モデルで、薬類似分子の生成やSMILES文字列からの埋め込み表現生成に特化
ダウンロード数 404
リリース時間 : 5/11/2023
モデル概要
このモデルはZINCデータベースの約4.8億のSMILES文字列で訓練されており、化学や創薬分野の分子生成タスクに適しています
モデル特徴
大規模分子訓練データ
ZINCデータベースの4.8億SMILES文字列で訓練
高品質生成
様々な温度設定で高ユニーク性と有効性を持つ分子を生成
埋め込み表現能力
SMILES文字列から意味のある埋め込み表現を生成可能
最適化訓練
175,000回のイテレーション訓練、バッチサイズ3072、検証損失約0.615
モデル能力
分子生成
SMILES文字列埋め込み表現
薬類似化合物設計
使用事例
創薬
仮想化合物ライブラリ生成
多数の潜在的な薬剤候補分子を生成
温度1.0で99.9%ユニークかつ99.9%有効な分子を生成
分子表現学習
SMILES文字列を下流タスク用の埋め込みベクトルに変換
化学研究
化学空間探索
新規分子構造を生成して化学空間を探索
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98