M

Medcpt Article Encoder

由ncbi開發
MedCPT 是一個能夠生成生物醫學文本嵌入表示的模型,特別適用於語義搜索(密集檢索)任務。
下載量 14.37k
發布時間 : 10/24/2023

模型概述

MedCPT 包含兩個編碼器:查詢編碼器和文章編碼器。本模型是文章編碼器,用於計算生物醫學文章(如PubMed標題和摘要)的嵌入表示。

模型特點

大規模預訓練
通過2.55億對PubMed搜索日誌中的查詢-文章對進行預訓練
零樣本性能優異
在多個零樣本生物醫學信息檢索數據集上實現了最先進的性能
雙編碼器架構
包含獨立的查詢編碼器和文章編碼器,適用於不同場景
預計算嵌入可用
所有PubMed文章的預計算嵌入表示已公開提供

模型能力

生物醫學文本嵌入生成
語義相似度計算
零樣本信息檢索
文本聚類

使用案例

信息檢索
PubMed文章搜索
使用查詢編碼器和文章編碼器進行查詢到文章的搜索
在生物醫學信息檢索任務中表現優異
文本分析
文章聚類
使用文章編碼器生成的文章嵌入進行相似文章聚類
查詢分析
使用查詢編碼器生成的查詢嵌入進行查詢意圖分析
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase