S

Scitopicnomicembed

Corranによって開発
nomic-ai/nomic-embed-text-v1.5をファインチューニングした文変換モデルで、科学文献の主題類似性タスクに最適化
ダウンロード数 114
リリース時間 : 2/2/2025

モデル概要

このモデルは文と段落を768次元の密なベクトル空間にマッピングし、意味的テキスト類似性、意味検索、言い換えマイニングなどのタスクに適しており、特に科学文献の主題分析に最適化されています。

モデル特徴

長文処理能力
最大8192トークンのシーケンス長をサポートし、科学文献の長い段落の処理に適しています
科学主題最適化
SciTopicTripletsデータセットでファインチューニングされており、科学文献の主題類似性分析に特に優れています
多レベル埋め込み
MatryoshkaLossを使用して訓練され、768/384/256/128/64次元の多レベル埋め込みを生成できます

モデル能力

意味的テキスト類似性計算
科学文献の主題マッチング
意味検索
テキストクラスタリング
特徴抽出

使用事例

学術研究
文献推薦システム
内容の類似性に基づいて研究者に関連文献を推薦
SciGen評価セットで0.5664の正規化割引累積利益を達成
研究主題分析
科学文献中の関連主題を識別しクラスタリング
情報検索
科学文献検索
科学データベースの意味検索機能を改善
精度@10指標で0.9893を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase