amber-large开源日英双语模型 - 免费支持句子相似度计算与文本分类

首页

Amber Large

由 retrieva-jp 开发

基于 modernbert-ja-310m 的日英双语句子特征提取模型，支持句子相似度计算和文本分类任务

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #日英双语嵌入 #高精度文本分类 #学术文献聚类

下载量 239.28k

发布时间 : 3/7/2025

模型简介

该模型专注于日英双语场景下的句子嵌入表示，可用于句子相似度计算、文本分类和聚类任务。基于 MTEB 基准测试显示其在分类和聚类任务上表现良好。

模型特点

日英双语支持

专门针对日语和英语双语场景优化，可处理两种语言的句子嵌入表示

多任务适配

支持分类、聚类和检索等多种自然语言处理任务

MTEB 基准验证

在多个 MTEB 基准测试中表现良好，特别是在分类任务上准确率达到 73.34%

模型能力

句子特征提取

句子相似度计算

文本分类

文本聚类

跨语言文本处理

使用案例

电子商务

产品评论分类

对亚马逊等电商平台的用户评论进行分类

在亚马逊反事实分类任务中达到 73.34% 准确率

学术研究

论文聚类

对 arXiv 学术论文进行层次聚类

在 arXiv 论文聚类任务中 V-measure 达到 53.39

信息检索

论点检索

在辩论场景中检索相关论点

在 ArguAna 任务中 NDCG@10 达到 51.32

🚀 RetrievaEmbedding-01: AMBER

AMBER（自适应多任务双语嵌入表示） 是由Retrieva公司训练的文本嵌入模型。该模型主要为日语设计，但也支持英语。我们在各种与日语和英语相关的数据集上对该模型进行了训练。

此模型规模为3.15亿参数（大尺寸）。

🚀 快速开始

安装库

首先使用pip安装Python库：

pip install sentence-transformers sentencepiece

运行推理

然后你可以加载此模型并运行推理。

你可以在推理时通过在model.encode中添加一个名为prompt的参数来指定提示。日语基准测试中使用的提示在jmteb/tasks中描述，英语基准测试中使用的提示在mteb/models/retrieva_en.py中描述。

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载
model = SentenceTransformer("retrieva-jp/amber-large")
# 运行推理
queries = [
    "自然言語処理とはなんですか？",
    "株式会社レトリバについて教えて",
]
documents = [
    "自然言語処理（しぜんげんごしょり、英語: Natural language processing、略称：NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。",
    "株式会社レトリバは、自然言語処理と機械学習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]

queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")

similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)

✨ 主要特性

多语言支持：主要支持日语，同时也支持英语。
基于特定架构：基于sbintuitions/modernbert-ja-310m架构，专为日语文本设计。
任务定制：训练时包含自然语言提示，可生成针对特定任务的嵌入。

📦 安装指南

安装库

使用pip安装所需的Python库：

pip install sentence-transformers sentencepiece

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载
model = SentenceTransformer("retrieva-jp/amber-large")
# 运行推理
queries = [
    "自然言語処理とはなんですか？",
    "株式会社レトリバについて教えて",
]
documents = [
    "自然言語処理（しぜんげんごしょり、英語: Natural language processing、略称：NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。",
    "株式会社レトリバは、自然言語処理と機械学習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]

queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")

similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)

📚 详细文档

模型详情

模型描述

AMBER模型是基于sbintuitions/modernbert-ja-310m架构的文本嵌入模型，专为日语文本设计。该模型在各种与日语相关的数据集上进行了训练，同时也包含英语数据集，因此也可用于英语文本。在训练过程中，包含了自然语言提示（指令），使模型能够生成针对特定任务的嵌入。

属性	详情
开发者	Retrieva公司
模型类型	基于ModernBERT架构
语言（NLP）	主要为日语（可选支持英语）
许可证	Apache 2.0
微调基础模型	`sbintuitions/modernbert-ja-310m`
模型类型	句子转换器
最大序列长度	512个标记
输出维度	768维
相似度函数	余弦相似度

用途

模型使用入门

可按照上述安装和推理步骤使用该模型。

训练详情

训练数据

我们使用多个数据集来训练此模型。对于日语数据集，我们从llm-jp-eval、llm-japanese-dataset和hpprc/emb中选择了一些数据集。对于英语数据集，我们主要使用了Asai等人（2023）中使用的部分数据集。此外，我们还部分使用了sentence-transformers仓库和kilt-tasks中的英语数据集。为了考虑日语和英语之间的跨语言因素，我们还使用了日语和英语之间的翻译数据集。

对于日语，我们使用了由大语言模型创建的合成数据来准备足够的训练数据。

评估

我们在以下基准测试中对模型进行了评估：

日语基准测试：JMTEB
日语检索任务：JQaRA、JaCWIR、MLDR日语子集
英语基准测试：MTEB(eng, v2)

除非另有说明，表中的分数均由我们计算得出。

日语基准测试：JMTEB

请注意，以下排行榜中的Mean (TaskType)与原始JMTEB排行榜中的Avg.相同。评估使用的文件存储在jmteb目录中。

模型	参数数量	任务类型均值	任务均值	检索	STS	分类	重排序	聚类	成对分类
基础模型（< 3亿）
cl-nagoya/ruri-base	1.11亿	72.60	71.56	69.53	82.87	75.49	92.91	52.40	62.38
AMBER-base	1.3亿	72.12	72.12	73.40	77.81	76.14	93.27	48.05	64.03
pkshatech/GLuCoSE-base-ja-v2	1.33亿	72.89	72.47	73.03	82.96	74.02	93.01	51.96	62.37
pkshatech/RoSEtta-base-ja	1.9亿	72.49	72.05	73.14	81.39	72.37	92.69	53.60	61.74
intfloat/multilingual-e5-base	2.78亿	71.11	69.72	69.45	80.45	69.86	92.90	51.62	62.35
大型模型（> 3亿）
AMBER-large （本模型）	3.15亿	72.52	73.22	75.40	79.32	77.14	93.54	48.73	60.97
cl-nagoya/ruri-large	3.37亿	73.20	73.06	72.86	83.14	77.15	93.00	50.78	62.29
intfloat/multilingual-e5-large	5.6亿	72.06	71.29	71.71	80.87	72.45	93.29	51.59	62.42

日语检索任务：JQaRA、JaCWIR、MLDR日语子集

MLDR使用的文件存储在mldr目录中。JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json中描述的Retrieval-query和Retrieval-passage。

模型	参数数量	JQaRA（nDCG@10）	JaCWIR（MAP@10）	MLDR日语子集（nDCG@10）
基础模型（< 3亿）
cl-nagoya/ruri-base	1.11亿	58.4	83.3	32.77
AMBER-base	1.3亿	57.1	81.6	35.69
pkshatech/GLuCoSE-base-ja-v2	1.33亿	60.6	85.3	33.99
intfloat/multilingual-e5-base	2.78亿	47.1	85.3	25.46
大型模型（> 3亿）
AMBER-large （本模型）	3.15亿	62.5	82.4	34.57
cl-nagoya/ruri-large	3.37亿	62.8	82.5	34.78
intfloat/multilingual-e5-large	5.6亿	55.4	87.3	29.95

英语基准测试：MTEB(eng, v2)

评估使用的文件存储在mteb目录中。

模型	参数数量	任务类型均值	任务均值	检索	STS	分类	重排序	聚类	成对分类	摘要
基础模型（< 3亿）
AMBER-base	1.3亿	54.75	58.20	40.11	81.29	70.39	42.98	42.27	80.12	26.08
intfloat/multilingual-e5-base	2.78亿	56.21	59.75	43.22	80.50	73.84	43.87	42.19	83.74	26.10
大型模型（> 3亿）
AMBER-large （本模型）	3.15亿	56.08	59.13	41.04	81.52	72.23	43.83	42.71	81.00	30.21
intfloat/multilingual-e5-large	5.6亿	57.06	60.84	46.17	81.11	74.88	44.31	41.91	84.33	26.67

🔧 技术细节

该模型基于ModernBERT架构，在训练过程中结合了多种日语和英语数据集，并使用自然语言提示来生成针对特定任务的嵌入。模型的最大序列长度为512个标记，输出维度为768维，使用余弦相似度作为相似度函数。

📄 许可证

本模型采用Apache 2.0许可证。

引用

BibTeX：

@inproceedings{amber2025,
    title = {インストラクションと複数タスクを利用した日本語向け分散表現モデルの構築},
    author = {勝又智 and 木村大翼 and 西鳥羽二郎},
    booktitle = {言語処理学会第31回年次大会発表論文集},
    year = {2025},
}