転写体アイシーク（transcriptome-iseeek）オープンソース遺伝子分析モデル

ホーム

Transcriptome Iseeek

TJMUCHによって開発

遺伝子配列を探索して超大规模な単細胞転写体を統合する一般的な方法

分子モデル

Transformers

#単細胞転写体解析 #遺伝子配列統合 #BERT特徴抽出

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づいており、単細胞転写体データ解析に特化しており、遺伝子発現データから特徴を抽出し、細胞タイプを分類することができます。

モデル特徴

遺伝子配列処理能力

遺伝子配列データを処理するために特別に設計されており、遺伝子配列パターンを理解することができます。

単細胞解析最適化

単細胞転写体データの特徴に合わせて最適化されており、高次元の疎データを処理するのに適しています。

効率的な特徴抽出

元の遺伝子発現データから意味のある細胞特徴表現を抽出することができます。

モデル能力

単細胞転写体データ解析

遺伝子発現特徴抽出

細胞タイプ分類

次元削減可視化

使用事例

生物医学研究

免疫細胞分類

PBMC（末梢血単核球細胞）データを使用して細胞タイプを分類します。

異なる免疫細胞タイプを効果的に区別することができます。

単細胞マップ構築

大規模な単細胞データを統合して細胞マップを構築します。

新しい細胞サブグループの発見に役立ちます。

🚀 iSEEEK

遺伝子ランキングを探索することにより、超大規模な単一細胞トランスクリプトームを統合するための普遍的なアプローチ

🚀 クイックスタート

💻 使用例

基本的な使用法

import torch
import gzip
import re
from tqdm import tqdm
import numpy as np
import scanpy as sc
from torch.utils.data import DataLoader, Dataset
from transformers import PreTrainedTokenizerFast, BertForMaskedLM 

class LineDataset(Dataset):
    def __init__(self, lines):
        self.lines = lines
        self.regex = re.compile(r'\-|\.')
    def __getitem__(self, i):
        return self.regex.sub('_', self.lines[i])
    def __len__(self):
        return len(self.lines)

device = "cuda" if torch.cuda.is_available() else "cpu" 
torch.set_num_threads(2)

tokenizer = PreTrainedTokenizerFast.from_pretrained("TJMUCH/transcriptome-iseeek")
model = BertForMaskedLM.from_pretrained("TJMUCH/transcriptome-iseeek").bert
model = model.to(device)
model.eval()


## Data desposited in https://huggingface.co/TJMUCH/transcriptome-iseeek/tree/main
lines = [s.strip().decode() for s in gzip.open("pbmc_ranking.txt.gz")]
labels = [s.strip().decode() for s in gzip.open("pbmc_label.txt.gz")]
labels = np.asarray(labels)


ds = LineDataset(lines)
dl = DataLoader(ds, batch_size=80)

features = []

for a in tqdm(dl, total=len(dl)):
    batch = tokenizer(a, max_length=128, truncation=True, 
               padding=True, return_tensors="pt")

    for k, v in batch.items():
        batch[k] = v.to(device)

    with torch.no_grad():
        out = model(**batch)

    f = out.last_hidden_state[:,0,:]
    features.extend(f.tolist())

features = np.stack(features)

adata = sc.AnnData(features)
adata.obs['celltype'] = labels
adata.obs.celltype = adata.obs.celltype.astype("category")
sc.pp.neighbors(adata, use_rep='X')
sc.tl.umap(adata)
sc.tl.leiden(adata)
sc.pl.umap(adata, color=['celltype','leiden'],save= "UMAP")

高度な使用法

cell_counts = len(lines)
x = np.zeros((cell_counts, len(tokenizer)), dtype=np.float16)

for a in tqdm(dl, total=len(dl)):
    batch = tokenizer(a, max_length=128, truncation=True,
               padding=True, return_tensors="pt")

    for k, v in batch.items():
        batch[k] = v.to(device)

    with torch.no_grad():
        out = model(**batch)

    eos_idxs = batch.attention_mask.sum(dim=1) - 1
    f = out.last_hidden_state
    batch_size = f.shape[0]
    input_ids = batch.input_ids

    for i in range(batch_size):
        ##genes = tokenizer.batch_decode(input_ids[i])
        token_norms = [f[i][j].norm().item() for j in range(1, eos_idxs[i])]
        idxs = input_ids[i].tolist()[1:eos_idxs[i]]
        x[counter, idxs] = token_norms
        counter = counter + 1