Amber Base开源日语-英语句子转换器 - 免费实现相似度计算与特征提取

首页

Amber Base

由 retrieva-jp 开发

Amber Base 是基于 modernbert-ja-130m 的日语-英语句子转换器模型，专注于句子相似度计算和特征提取任务。

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #日语英语双语句子相似度 #文本特征提取 #学术文献聚类

下载量 213

发布时间 : 3/7/2025

模型简介

该模型主要用于日语和英语的句子相似度计算、特征提取以及文本分类和聚类任务。基于 MTEB 基准测试表现良好。

模型特点

双语支持

同时支持日语和英语的句子处理

多功能任务处理

能够处理句子相似度、特征提取、分类和聚类等多种任务

MTEB 基准测试验证

在多个 MTEB 基准测试中表现良好

模型能力

句子相似度计算

特征提取

文本分类

文本聚类

双语处理

使用案例

信息检索

跨语言文档检索

在日语和英语文档间进行相似内容检索

在 MTEB ArguAna 测试中 ndcg@10 达到 48.068

文本分析

学术论文聚类

对学术论文进行主题聚类分析

在 MTEB ArXivHierarchicalClusteringP2P 测试中 v_measure 达到 55.655

内容分类

反事实分类

对亚马逊评论进行反事实分类

在 MTEB AmazonCounterfactualClassification 测试中准确率达到 68.164%

🚀 RetrievaEmbedding-01: AMBER

AMBER（自适应多任务双语嵌入表示） 是由Retrieva公司训练的文本嵌入模型。该模型主要为日语设计，但也支持英语。我们在与日语和英语相关的各种数据集上对该模型进行了训练。

此模型大小为1.32亿个参数（基础规模）。

🚀 快速开始

📦 安装指南

首先使用pip安装Python库：

pip install sentence-transformers sentencepiece

💻 使用示例

基础用法

然后你可以加载此模型并进行推理。你可以在推理时通过在model.encode中添加名为prompt的参数来指定提示。日语基准测试中使用的提示在jmteb/tasks中描述，英语基准测试中使用的提示在mteb/models/retrieva_en.py中描述。

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载
model = SentenceTransformer("retrieva-jp/amber-base")
# 运行推理
queries = [
    "自然言語処理とはなんですか？",
    "株式会社レトリバについて教えて",
]
documents = [
    "自然言語処理（しぜんげんごしょり、英語: Natural language processing、略称：NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。",
    "株式会社レトリバは、自然言語処理と機械学習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]

queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")

similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)

📚 详细文档

🔧 技术细节

模型详情

模型描述

AMBER模型是基于sbintuitions/modernbert-ja-130m架构的文本嵌入模型，专为日语文本设计。该模型在各种与日语相关的数据集上进行了训练，也包含英语数据集，因此也可用于英语文本。在训练过程中，加入了自然语言提示（指令），使模型能够生成针对特定任务的嵌入。

属性	详情
开发者	Retrieva公司
模型类型	基于ModernBERT架构
语言（NLP）	主要为日语（可选支持英语）
许可证	Apache 2.0
微调基础模型	`sbintuitions/modernbert-ja-130m`
模型类型	句子转换器
最大序列长度	512个标记
输出维度	512维
相似度函数	余弦相似度

训练详情

训练数据

我们使用了多个数据集来训练此模型。对于日语数据集，我们从llm-jp-eval、llm-japanese-dataset和hpprc/emb中选择了一些数据集。对于英语数据集，我们主要使用了Asai等人（2023）所使用的部分数据集。此外，我们还部分使用了sentence-transformers仓库和kilt-tasks中的英语数据集。为了考虑日语和英语之间的跨语言情况，我们还使用了日语和英语之间的翻译数据集。对于日语，我们使用了大语言模型生成的合成数据来准备足够的训练数据。

评估详情

我们在以下基准测试中对模型进行了评估：

日语基准测试：JMTEB
日语检索任务：JQaRA、JaCWIR、MLDR日语子集
英语基准测试：MTEB（英语，v2）

除非另有说明，表中的分数均由我们计算得出。

日语基准测试：JMTEB

请注意，以下排行榜中的Mean (TaskType)与原始JMTEB排行榜中的Avg.相同。用于评估的文件存储在jmteb目录中。

模型	参数数量	任务类型均值	任务均值	检索	STS	分类	重排序	聚类	成对分类
基础模型（参数少于3亿）
cl-nagoya/ruri-base	1.11亿	72.60	71.56	69.53	82.87	75.49	92.91	52.40	62.38
AMBER-base （本模型）	1.3亿	72.12	72.12	73.40	77.81	76.14	93.27	48.05	64.03
pkshatech/GLuCoSE-base-ja-v2	1.33亿	72.89	72.47	73.03	82.96	74.02	93.01	51.96	62.37
pkshatech/RoSEtta-base-ja	1.9亿	72.49	72.05	73.14	81.39	72.37	92.69	53.60	61.74
intfloat/multilingual-e5-base	2.78亿	71.11	69.72	69.45	80.45	69.86	92.90	51.62	62.35
大型模型（参数多于3亿）
AMBER-large	3.15亿	72.52	73.22	75.40	79.32	77.14	93.54	48.73	60.97
cl-nagoya/ruri-large	3.37亿	73.20	73.06	72.86	83.14	77.15	93.00	50.78	62.29
intfloat/multilingual-e5-large	5.6亿	72.06	71.29	71.71	80.87	72.45	93.29	51.59	62.42

日语检索任务：JQaRA、JaCWIR、MLDR日语子集

用于MLDR的文件存储在mldr目录中。 JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json中描述的Retrieval-query和Retrieval-passage。

模型	参数数量	JQaRA（nDCG@10）	JaCWIR（MAP@10）	MLDR日语子集（nDCG@10）
基础模型（参数少于3亿）
cl-nagoya/ruri-base	1.11亿	58.4	83.3	32.77
AMBER-base （本模型）	1.3亿	57.1	81.6	35.69
pkshatech/GLuCoSE-base-ja-v2	1.33亿	60.6	85.3	33.99
intfloat/multilingual-e5-base	2.78亿	47.1	85.3	25.46
大型模型（参数多于3亿）
AMBER-large	3.15亿	62.5	82.4	34.57
cl-nagoya/ruri-large	3.37亿	62.8	82.5	34.78
intfloat/multilingual-e5-large	5.6亿	55.4	87.3	29.95

英语基准测试：MTEB（英语，v2）

用于评估的文件存储在mteb目录中。

模型	参数数量	任务类型均值	任务均值	检索	STS	分类	重排序	聚类	成对分类	摘要
基础模型（参数少于3亿）
AMBER-base （本模型）	1.3亿	54.75	58.20	40.11	81.29	70.39	42.98	42.27	80.12	26.08
intfloat/multilingual-e5-base	2.78亿	56.21	59.75	43.22	80.50	73.84	43.87	42.19	83.74	26.10
大型模型（参数多于3亿）
AMBER-large	3.15亿	56.08	59.13	41.04	81.52	72.23	43.83	42.71	81.00	30.21
intfloat/multilingual-e5-large	5.6亿	57.06	60.84	46.17	81.11	74.88	44.31	41.91	84.33	26.67

📄 许可证

本模型采用Apache 2.0许可证。

引用

BibTeX：

@inproceedings{amber2025,
    title = {インストラクションと複数タスクを利用した日本語向け分散表現モデルの構築},
    author = {勝又智 and 木村大翼 and 西鳥羽二郎},
    booktitle = {言語処理学会第31回年次大会発表論文集},
    year = {2025},
}