C2S - Pythia - 410mオープンソースモデル - 无料でのデプロイで単細胞および多細胞分析タスクをサポート

ホーム

C2S Pythia 410m Diverse Single And Multi Cell Tasks

vandijklabによって開発

Pythia-410mアーキテクチャに基づくモデルで、Cell2Sentenceメソッドを用いて単細胞RNAシーケンスデータで微調整され、様々な単細胞および多細胞分析タスクに適しています。

分子モデル

Transformers

英語#単細胞RNAシーケンス生成 #多細胞組織予測 #遺伝子セット双方向解析

ダウンロード数 238

リリース時間 : 9/3/2024

モデル概要

このモデルはCell2Sentenceメソッドを使用してscRNA-seqデータを遺伝子名の順序付きシーケンスに変換し、大規模言語モデルを単細胞生物学研究に適応させ、幅広い単細胞および多細胞分析タスクを実行できます。

モデル特徴

Cell2Sentenceメソッド

scRNA-seqデータを発現レベルに基づく遺伝子名の順序付きシーケンスに変換し、LLMを単細胞生物学研究に適応させます。

広範なデータカバレッジ

800以上の単細胞RNAシーケンスデータセット、合計5700万以上のヒトおよびマウス細胞を含むトレーニングデータ。

マルチタスク能力

単細胞および多細胞分析、細胞タイプ予測、組織予測など様々なタスクを実行可能。

可変文脈長

最大8192トークンの文脈長をサポートし、様々な規模の遺伝子シーケンス分析に対応。

モデル能力

無条件単細胞生成

細胞タイプ予測

細胞タイプ条件付き生成

無条件多細胞生成

組織予測

細胞タイプ予測（多細胞）

組織条件付き多細胞生成

細胞タイプ条件付き多細胞生成

多細胞から要約生成

要約から多細胞生成

遺伝子セット名から遺伝子生成

遺伝子から遺伝子セット名生成

使用事例

単細胞分析

細胞タイプ識別

単細胞RNAシーケンスデータに基づいて細胞タイプを予測します。

単細胞生成

無条件または特定の細胞タイプに基づいて単細胞データを生成します。

多細胞分析

組織起源予測

細胞群の起源組織を予測します。

多細胞生成

特定の組織または細胞タイプに基づいて多細胞データを生成します。

遺伝子セット分析

遺伝子セット名生成

遺伝子リストに基づいて遺伝子セット名を生成します。

遺伝子リスト生成

遺伝子セット名に基づいてアルファベット順の遺伝子リストを生成します。

🚀 C2S-Pythia-410m-diverse-single-and-multi-cell-tasksモデル

このモデルは、EleutherAIによって開発されたPythia - 410mアーキテクチャに基づき、Cell2Sentence (C2S) を用いて、CellxGeneとHuman Cell Atlasからの多数の単一細胞RNAシーケンシング (scRNA - seq) データセットでファインチューニングされたC2S - Pythia - 410m - diverse - single - and - multi - cell - tasksモデルです。Cell2Sentenceは、scRNA - seqデータを「細胞文」（発現レベルに基づく遺伝子名の順序付き配列）に変換することで、大規模言語モデル (LLM) を単一細胞生物学に適応させる最先端の手法です。このモデルは、幅広い単一細胞および複数細胞のタスクを実行するように訓練されており、様々な単一細胞および複数細胞の分析に汎用的なツールとなっています。

✨ 主な機能

このモデルは、以下のような多様なタスクに対応しています。

単一細胞タスク：無条件の単一細胞生成、細胞タイプ予測、特定の細胞タイプを条件とした単一細胞文の生成など。
複数細胞タスク：無条件の複数細胞文の生成、細胞群の組織起源の予測、複数細胞群内の各細胞の細胞タイプ予測、特定の組織を条件とした複数細胞文の生成、各個々の細胞の細胞タイプを条件とした複数細胞文の生成、複数細胞文に基づく研究論文のアブストラクトの生成、研究論文のアブストラクトに基づく複数細胞文の生成など。
遺伝子セットタスク：遺伝子セット名から遺伝子のアルファベット順リストの生成、遺伝子のアルファベット順リストから遺伝子セット名の生成。

📦 訓練データ

このモデルは、CellxGeneとHuman Cell Atlasからの800以上の単一細胞RNAシーケンシングデータセットから収集された5700万以上のヒトおよびマウスの細胞を用いて訓練されました。このデータセットは、ヒトとマウスの複数の組織からの幅広い細胞タイプと条件をカバーしています。

このモデルは、各細胞文に含まれる遺伝子の数を可変とし、最大コンテキスト長を8192トークンとして訓練されました。デフォルトのPythiaモデルのコンテキスト長は、C2S訓練の前に回転位置埋め込みを使用して拡張されました。

細胞：複数細胞サンプルの場合、各訓練サンプルには5から20個の細胞が含まれ、同じサンプル内の各細胞は同じ数の遺伝子を持ちます。
遺伝子：単一細胞サンプルの場合、各細胞文には100から2048個の遺伝子が含まれます。複数細胞サンプルの場合、各細胞の細胞文には100から400個の遺伝子が含まれます。

📚 詳細ドキュメント

タスク詳細

単一細胞タスク

無条件の単一細胞生成：無条件で単一細胞文を生成します。
細胞タイプ予測：与えられた単一細胞の細胞タイプを予測します。
特定の細胞タイプを条件とした単一細胞文の生成：特定の細胞タイプを条件として単一細胞文を生成します。

複数細胞タスク

無条件の複数細胞文の生成：無条件で複数の細胞文を生成します。
組織予測：細胞群の組織起源を予測します。
細胞タイプ予測：複数細胞群内の各細胞の細胞タイプを予測します。
特定の組織を条件とした複数細胞文の生成：特定の組織を条件として複数の細胞文を生成します。
各個々の細胞の細胞タイプを条件とした複数細胞文の生成：各個々の細胞の細胞タイプを条件として複数の細胞文を生成します。
複数細胞文に基づく研究論文のアブストラクトの生成：与えられた複数細胞文に基づいて研究論文のアブストラクトを生成します。
研究論文のアブストラクトに基づく複数細胞文の生成：与えられた研究論文のアブストラクトに基づいて複数の細胞文を生成します。

遺伝子セットタスク

遺伝子セット名から遺伝子のアルファベット順リストの生成：遺伝子セット名が与えられた場合、遺伝子のアルファベット順リストを生成します。
遺伝子のアルファベット順リストから遺伝子セット名の生成：遺伝子のアルファベット順リストが与えられた場合、遺伝子セット名を生成します。

📄 ライセンス

このモデルは、CC - BY - NC - ND - 4.0ライセンスの下で提供されています。

📋 モデル情報

属性	详情
モデルタイプ	C2S - Pythia - 410m - diverse - single - and - multi - cell - tasks
訓練データ	CellxGeneとHuman Cell Atlasからの800以上の単一細胞RNAシーケンシングデータセットから収集された5700万以上のヒトおよびマウスの細胞
ベースモデル	EleutherAI/pythia - 410m
ライブラリ名	transformers
タグ	biology、scRNAseq