Amber Large
模型简介
模型特点
模型能力
使用案例
🚀 RetrievaEmbedding-01: AMBER
AMBER(自适应多任务双语嵌入表示) 是由Retrieva公司训练的文本嵌入模型。该模型主要为日语设计,但也支持英语。我们在各种与日语和英语相关的数据集上对该模型进行了训练。
此模型规模为3.15亿参数(大尺寸)。
🚀 快速开始
安装库
首先使用pip安装Python库:
pip install sentence-transformers sentencepiece
运行推理
然后你可以加载此模型并运行推理。
你可以在推理时通过在model.encode
中添加一个名为prompt
的参数来指定提示。日语基准测试中使用的提示在jmteb/tasks
中描述,英语基准测试中使用的提示在mteb/models/retrieva_en.py
中描述。
from sentence_transformers import SentenceTransformer
# 从🤗 Hub下载
model = SentenceTransformer("retrieva-jp/amber-large")
# 运行推理
queries = [
"自然言語処理とはなんですか?",
"株式会社レトリバについて教えて",
]
documents = [
"自然言語処理(しぜんげんごしょり、英語: Natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。",
"株式会社レトリバは、自然言語処理と機械学習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]
queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")
similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)
✨ 主要特性
- 多语言支持:主要支持日语,同时也支持英语。
- 基于特定架构:基于sbintuitions/modernbert-ja-310m架构,专为日语文本设计。
- 任务定制:训练时包含自然语言提示,可生成针对特定任务的嵌入。
📦 安装指南
安装库
使用pip安装所需的Python库:
pip install sentence-transformers sentencepiece
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# 从🤗 Hub下载
model = SentenceTransformer("retrieva-jp/amber-large")
# 运行推理
queries = [
"自然言語処理とはなんですか?",
"株式会社レトリバについて教えて",
]
documents = [
"自然言語処理(しぜんげんごしょり、英語: Natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。",
"株式会社レトリバは、自然言語処理と機械学習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]
queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")
similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)
📚 详细文档
模型详情
模型描述
AMBER模型是基于sbintuitions/modernbert-ja-310m架构的文本嵌入模型,专为日语文本设计。该模型在各种与日语相关的数据集上进行了训练,同时也包含英语数据集,因此也可用于英语文本。在训练过程中,包含了自然语言提示(指令),使模型能够生成针对特定任务的嵌入。
属性 | 详情 |
---|---|
开发者 | Retrieva公司 |
模型类型 | 基于ModernBERT架构 |
语言(NLP) | 主要为日语(可选支持英语) |
许可证 | Apache 2.0 |
微调基础模型 | sbintuitions/modernbert-ja-310m |
模型类型 | 句子转换器 |
最大序列长度 | 512个标记 |
输出维度 | 768维 |
相似度函数 | 余弦相似度 |
用途
模型使用入门
可按照上述安装和推理步骤使用该模型。
训练详情
训练数据
我们使用多个数据集来训练此模型。对于日语数据集,我们从llm-jp-eval、llm-japanese-dataset和hpprc/emb中选择了一些数据集。对于英语数据集,我们主要使用了Asai等人(2023)中使用的部分数据集。此外,我们还部分使用了sentence-transformers仓库和kilt-tasks中的英语数据集。为了考虑日语和英语之间的跨语言因素,我们还使用了日语和英语之间的翻译数据集。
对于日语,我们使用了由大语言模型创建的合成数据来准备足够的训练数据。
评估
我们在以下基准测试中对模型进行了评估:
- 日语基准测试:JMTEB
- 日语检索任务:JQaRA、JaCWIR、MLDR日语子集
- 英语基准测试:MTEB(eng, v2)
除非另有说明,表中的分数均由我们计算得出。
日语基准测试:JMTEB
请注意,以下排行榜中的Mean (TaskType)
与原始JMTEB排行榜中的Avg.
相同。评估使用的文件存储在jmteb
目录中。
模型 | 参数数量 | 任务类型均值 | 任务均值 | 检索 | STS | 分类 | 重排序 | 聚类 | 成对分类 |
---|---|---|---|---|---|---|---|---|---|
基础模型(< 3亿) | |||||||||
cl-nagoya/ruri-base | 1.11亿 | 72.60 | 71.56 | 69.53 | 82.87 | 75.49 | 92.91 | 52.40 | 62.38 |
AMBER-base | 1.3亿 | 72.12 | 72.12 | 73.40 | 77.81 | 76.14 | 93.27 | 48.05 | 64.03 |
pkshatech/GLuCoSE-base-ja-v2 | 1.33亿 | 72.89 | 72.47 | 73.03 | 82.96 | 74.02 | 93.01 | 51.96 | 62.37 |
pkshatech/RoSEtta-base-ja | 1.9亿 | 72.49 | 72.05 | 73.14 | 81.39 | 72.37 | 92.69 | 53.60 | 61.74 |
intfloat/multilingual-e5-base | 2.78亿 | 71.11 | 69.72 | 69.45 | 80.45 | 69.86 | 92.90 | 51.62 | 62.35 |
大型模型(> 3亿) | |||||||||
AMBER-large (本模型) |
3.15亿 | 72.52 | 73.22 | 75.40 | 79.32 | 77.14 | 93.54 | 48.73 | 60.97 |
cl-nagoya/ruri-large | 3.37亿 | 73.20 | 73.06 | 72.86 | 83.14 | 77.15 | 93.00 | 50.78 | 62.29 |
intfloat/multilingual-e5-large | 5.6亿 | 72.06 | 71.29 | 71.71 | 80.87 | 72.45 | 93.29 | 51.59 | 62.42 |
日语检索任务:JQaRA、JaCWIR、MLDR日语子集
MLDR使用的文件存储在mldr
目录中。JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json
中描述的Retrieval-query
和Retrieval-passage
。
模型 | 参数数量 | JQaRA(nDCG@10) | JaCWIR(MAP@10) | MLDR日语子集(nDCG@10) |
---|---|---|---|---|
基础模型(< 3亿) | ||||
cl-nagoya/ruri-base | 1.11亿 | 58.4 | 83.3 | 32.77 |
AMBER-base | 1.3亿 | 57.1 | 81.6 | 35.69 |
pkshatech/GLuCoSE-base-ja-v2 | 1.33亿 | 60.6 | 85.3 | 33.99 |
intfloat/multilingual-e5-base | 2.78亿 | 47.1 | 85.3 | 25.46 |
大型模型(> 3亿) | ||||
AMBER-large (本模型) |
3.15亿 | 62.5 | 82.4 | 34.57 |
cl-nagoya/ruri-large | 3.37亿 | 62.8 | 82.5 | 34.78 |
intfloat/multilingual-e5-large | 5.6亿 | 55.4 | 87.3 | 29.95 |
英语基准测试:MTEB(eng, v2)
评估使用的文件存储在mteb
目录中。
模型 | 参数数量 | 任务类型均值 | 任务均值 | 检索 | STS | 分类 | 重排序 | 聚类 | 成对分类 | 摘要 |
---|---|---|---|---|---|---|---|---|---|---|
基础模型(< 3亿) | ||||||||||
AMBER-base | 1.3亿 | 54.75 | 58.20 | 40.11 | 81.29 | 70.39 | 42.98 | 42.27 | 80.12 | 26.08 |
intfloat/multilingual-e5-base | 2.78亿 | 56.21 | 59.75 | 43.22 | 80.50 | 73.84 | 43.87 | 42.19 | 83.74 | 26.10 |
大型模型(> 3亿) | ||||||||||
AMBER-large (本模型) |
3.15亿 | 56.08 | 59.13 | 41.04 | 81.52 | 72.23 | 43.83 | 42.71 | 81.00 | 30.21 |
intfloat/multilingual-e5-large | 5.6亿 | 57.06 | 60.84 | 46.17 | 81.11 | 74.88 | 44.31 | 41.91 | 84.33 | 26.67 |
🔧 技术细节
该模型基于ModernBERT架构,在训练过程中结合了多种日语和英语数据集,并使用自然语言提示来生成针对特定任务的嵌入。模型的最大序列长度为512个标记,输出维度为768维,使用余弦相似度作为相似度函数。
📄 许可证
本模型采用Apache 2.0许可证。
引用
BibTeX:
@inproceedings{amber2025,
title = {インストラクションと複数タスクを利用した日本語向け分散表現モデルの構築},
author = {勝又智 and 木村大翼 and 西鳥羽二郎},
booktitle = {言語処理学会第31回年次大会発表論文集},
year = {2025},
}
更多信息
https://note.com/retrieva/n/n4ee9d304f44d(日语)
模型卡片作者
胜又智、木村大翼、西鸟羽二郎
模型卡片联系方式
pr[at]retrieva.jp







