S

Sarashina Embedding V1 1b

由sbintuitions開發
基於12億參數日語大語言模型開發的文本嵌入模型,在JMTEB基準測試中表現優異
下載量 23.85k
發布時間 : 11/22/2024

模型概述

更級嵌入模型v1-1B是基於日語大語言模型的文本嵌入模型,能將句子和段落映射到1792維稠密向量空間,適用於語義文本相似度計算、語義搜索等多種場景

模型特點

高維稠密向量
輸出1792維稠密向量,能更精細地捕捉語義信息
長文本支持
最大支持8192個token的長文本處理
多階段訓練
通過弱監督學習和監督微調兩階段訓練,提升模型性能
日語優化
專門針對日語文本進行優化,在JMTEB基準測試中表現優異

模型能力

語義文本相似度計算
語義搜索
複述挖掘
文本分類
聚類分析

使用案例

信息檢索
文檔檢索
根據查詢語義快速檢索相關文檔
在JMTEB檢索任務中得分77.61
文本分析
文本相似度計算
計算兩段文本的語義相似度
在JMTEB語義相似度任務中得分82.71
文本聚類
將語義相似的文本自動分組
在JMTEB聚類任務中得分53.86
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase