S

Scitopicnomicembed

由Corran開發
基於nomic-ai/nomic-embed-text-v1.5微調的句子轉換器模型,專為科學文獻主題相似性任務優化
下載量 114
發布時間 : 2/2/2025

模型概述

該模型將句子和段落映射到768維密集向量空間,適用於語義文本相似性、語義搜索、釋義挖掘等任務,特別針對科學文獻主題分析進行了優化。

模型特點

長文本處理能力
支持最大8192個標記的序列長度,適合處理科學文獻中的長段落
科學主題優化
在SciTopicTriplets數據集上微調,特別擅長科學文獻的主題相似性分析
多層次嵌入
採用MatryoshkaLoss訓練,可生成768/384/256/128/64維的多層次嵌入

模型能力

語義文本相似性計算
科學文獻主題匹配
語義搜索
文本聚類
特徵提取

使用案例

學術研究
文獻推薦系統
基於內容相似性為研究人員推薦相關文獻
在SciGen評估集上達到0.5664的歸一化折損累積增益
研究主題分析
識別和聚類科學文獻中的相關主題
信息檢索
科學文獻檢索
改進科學數據庫中的語義搜索功能
在準確率@10指標上達到0.9893
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase