MedCPT-Query-Encoder开源模型 - 免费生成生物医学文本向量助力语义搜索

首页

Medcpt Query Encoder

由 ncbi 开发

MedCPT 是一个能够生成生物医学文本嵌入向量的模型，特别适用于语义搜索（密集检索）任务。

文本嵌入

Transformers

开源协议:其他 #生物医学语义搜索 #零样本检索 #PubMed专用

下载量 73.74k

发布时间 : 10/24/2023

模型简介

MedCPT 包含查询编码器和文章编码器两个部分，能够计算短文本和文章的嵌入向量，用于生物医学领域的语义搜索、聚类等任务。

模型特点

大规模预训练

通过2.55亿对PubMed搜索日志中的查询-文章对进行预训练

零样本性能优异

在多个零样本生物医学信息检索数据集上实现了最先进的性能

双编码器架构

包含专门的查询编码器和文章编码器，分别优化不同类型文本的表示

模型能力

生物医学文本嵌入生成

语义搜索

文本聚类

查询-文章匹配

使用案例

信息检索

PubMed文献搜索

使用查询编码器生成搜索查询的嵌入，与预计算的文章嵌入进行匹配

提供更准确的生物医学文献检索结果

文本分析

查询聚类

使用查询编码器对生物医学查询进行表示和聚类分析

发现相似查询模式和用户意图

文章相似性分析

使用文章编码器计算文献之间的语义相似度

识别相关研究文献

🚀 MedCPT介绍

MedCPT能够生成生物医学文本的嵌入向量，可用于语义搜索（密集检索）。该模型包含两个编码器：

MedCPT查询编码器：计算短文本（如问题、搜索查询、句子）的嵌入向量。
MedCPT文章编码器：计算文章（如PubMed标题和摘要）的嵌入向量。

本仓库包含MedCPT查询编码器。

MedCPT基于来自PubMed搜索日志的2.55亿个查询 - 文章对进行了前所未有的大规模预训练，在多个零样本生物医学信息检索数据集上取得了最先进的性能。一般来说，它有三个使用场景：

使用两个编码器进行查询到文章的搜索。
使用查询编码器进行查询表示，用于聚类或查询到查询的搜索。
使用文章编码器进行文章表示，用于聚类或文章到文章的搜索。

更多详细信息，请查看我们的论文（《Bioinformatics》，2023年）。请注意，发布版本与论文中报告的版本略有不同。

🚀 快速开始

案例1：使用MedCPT查询编码器

import torch
from transformers import AutoTokenizer, AutoModel

model = AutoModel.from_pretrained("ncbi/MedCPT-Query-Encoder")
tokenizer = AutoTokenizer.from_pretrained("ncbi/MedCPT-Query-Encoder")

queries = [
    "diabetes treatment", 
    "How to treat diabetes?", 
    "A 45-year-old man presents with increased thirst and frequent urination over the past 3 months.",
]

with torch.no_grad():
    # tokenize the queries
    encoded = tokenizer(
        queries, 
        truncation=True, 
        padding=True, 
        return_tensors='pt', 
        max_length=64,
    )
    
    # encode the queries (use the [CLS] last hidden states as the representations)
    embeds = model(**encoded).last_hidden_state[:, 0, :]

    print(embeds)
    print(embeds.size())

输出结果如下：

tensor([[ 0.0413,  0.0084, -0.0491,  ..., -0.4963, -0.3830, -0.3593],
        [ 0.0801,  0.1193, -0.0905,  ..., -0.5380, -0.5059, -0.2944],
        [-0.3412,  0.1521, -0.0946,  ...,  0.0952,  0.1660, -0.0902]])
torch.Size([3, 768])

这些嵌入向量与MedCPT文章编码器生成的嵌入向量处于同一空间。

案例2：使用查询对PubMed进行语义搜索

我们已经在https://ftp.ncbi.nlm.nih.gov/pub/lu/MedCPT/pubmed_embeddings/ 提供了由MedCPT文章编码器生成的所有PubMed文章的嵌入向量。你可以直接下载这些嵌入向量，使用你的查询对PubMed进行搜索。

📄 许可证

许可证类型：其他
许可证名称：公共领域
许可证链接：LICENSE

🙏 致谢

本工作得到了美国国立卫生研究院国家医学图书馆内部研究项目的支持。

⚠️ 免责声明

本工具展示了美国国家医学图书馆（NLM）国家生物技术信息中心（NCBI）计算生物学部门的研究成果。本网站生成的信息未经临床专业人员审核和监督，不应用于直接诊断或医疗决策。个人不应仅根据本网站生成的信息改变其健康行为。美国国立卫生研究院（NIH）不会独立验证本工具生成信息的有效性或实用性。如果你对本网站生成的信息有疑问，请咨询医疗保健专业人员。有关NCBI免责政策的更多信息，请参考相关内容。

📚 引用

如果你觉得本仓库有帮助，请按以下方式引用MedCPT：

@article{jin2023medcpt,
  title={MedCPT: Contrastive Pre-trained Transformers with large-scale PubMed search logs for zero-shot biomedical information retrieval},
  author={Jin, Qiao and Kim, Won and Chen, Qingyu and Comeau, Donald C and Yeganova, Lana and Wilbur, W John and Lu, Zhiyong},
  journal={Bioinformatics},
  volume={39},
  number={11},
  pages={btad651},
  year={2023},
  publisher={Oxford University Press}
}