S

Sarashina Embedding V1 1b

Developed by sbintuitions
基于12亿参数日语大语言模型开发的文本嵌入模型,在JMTEB基准测试中表现优异
Downloads 23.85k
Release Time : 11/22/2024

Model Overview

更级嵌入模型v1-1B是基于日语大语言模型的文本嵌入模型,能将句子和段落映射到1792维稠密向量空间,适用于语义文本相似度计算、语义搜索等多种场景

Model Features

高维稠密向量
输出1792维稠密向量,能更精细地捕捉语义信息
长文本支持
最大支持8192个token的长文本处理
多阶段训练
通过弱监督学习和监督微调两阶段训练,提升模型性能
日语优化
专门针对日语文本进行优化,在JMTEB基准测试中表现优异

Model Capabilities

语义文本相似度计算
语义搜索
复述挖掘
文本分类
聚类分析

Use Cases

信息检索
文档检索
根据查询语义快速检索相关文档
在JMTEB检索任务中得分77.61
文本分析
文本相似度计算
计算两段文本的语义相似度
在JMTEB语义相似度任务中得分82.71
文本聚类
将语义相似的文本自动分组
在JMTEB聚类任务中得分53.86
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase