🚀 RetrievaEmbedding-01: AMBER
AMBER(自适应多任务双语嵌入表示) 是由Retrieva公司训练的文本嵌入模型。该模型主要为日语设计,但也支持英语。我们在与日语和英语相关的各种数据集上对该模型进行了训练。
此模型大小为1.32亿个参数(基础规模)。
🚀 快速开始
📦 安装指南
首先使用pip安装Python库:
pip install sentence-transformers sentencepiece
💻 使用示例
基础用法
然后你可以加载此模型并进行推理。
你可以在推理时通过在model.encode
中添加名为prompt
的参数来指定提示。日语基准测试中使用的提示在jmteb/tasks
中描述,英语基准测试中使用的提示在mteb/models/retrieva_en.py
中描述。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("retrieva-jp/amber-base")
queries = [
"自然言語処理とはなんですか?",
"株式会社レトリバについて教えて",
]
documents = [
"自然言語処理(しぜんげんごしょり、英語: Natural language processing、略称:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。",
"株式会社レトリバは、自然言語処理と機械学習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]
queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")
similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)
📚 详细文档
🔧 技术细节
模型详情
模型描述
AMBER模型是基于sbintuitions/modernbert-ja-130m架构的文本嵌入模型,专为日语文本设计。该模型在各种与日语相关的数据集上进行了训练,也包含英语数据集,因此也可用于英语文本。在训练过程中,加入了自然语言提示(指令),使模型能够生成针对特定任务的嵌入。
属性 |
详情 |
开发者 |
Retrieva公司 |
模型类型 |
基于ModernBERT架构 |
语言(NLP) |
主要为日语(可选支持英语) |
许可证 |
Apache 2.0 |
微调基础模型 |
sbintuitions/modernbert-ja-130m |
模型类型 |
句子转换器 |
最大序列长度 |
512个标记 |
输出维度 |
512维 |
相似度函数 |
余弦相似度 |
训练详情
训练数据
我们使用了多个数据集来训练此模型。对于日语数据集,我们从llm-jp-eval、llm-japanese-dataset和hpprc/emb中选择了一些数据集。对于英语数据集,我们主要使用了Asai等人(2023)所使用的部分数据集。此外,我们还部分使用了sentence-transformers仓库和kilt-tasks中的英语数据集。为了考虑日语和英语之间的跨语言情况,我们还使用了日语和英语之间的翻译数据集。
对于日语,我们使用了大语言模型生成的合成数据来准备足够的训练数据。
评估详情
我们在以下基准测试中对模型进行了评估:
除非另有说明,表中的分数均由我们计算得出。
日语基准测试:JMTEB
请注意,以下排行榜中的Mean (TaskType)
与原始JMTEB排行榜中的Avg.
相同。
用于评估的文件存储在jmteb
目录中。
日语检索任务:JQaRA、JaCWIR、MLDR日语子集
用于MLDR的文件存储在mldr
目录中。
JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json
中描述的Retrieval-query
和Retrieval-passage
。
英语基准测试:MTEB(英语,v2)
用于评估的文件存储在mteb
目录中。
模型 |
参数数量 |
任务类型均值 |
任务均值 |
检索 |
STS |
分类 |
重排序 |
聚类 |
成对分类 |
摘要 |
基础模型(参数少于3亿) |
|
|
|
|
|
|
|
|
|
|
AMBER-base (本模型) |
1.3亿 |
54.75 |
58.20 |
40.11 |
81.29 |
70.39 |
42.98 |
42.27 |
80.12 |
26.08 |
intfloat/multilingual-e5-base |
2.78亿 |
56.21 |
59.75 |
43.22 |
80.50 |
73.84 |
43.87 |
42.19 |
83.74 |
26.10 |
大型模型(参数多于3亿) |
|
|
|
|
|
|
|
|
|
|
AMBER-large |
3.15亿 |
56.08 |
59.13 |
41.04 |
81.52 |
72.23 |
43.83 |
42.71 |
81.00 |
30.21 |
intfloat/multilingual-e5-large |
5.6亿 |
57.06 |
60.84 |
46.17 |
81.11 |
74.88 |
44.31 |
41.91 |
84.33 |
26.67 |
📄 许可证
本模型采用Apache 2.0许可证。
引用
BibTeX:
@inproceedings{amber2025,
title = {インストラクションと複数タスクを利用した日本語向け分散表現モデルの構築},
author = {勝又智 and 木村大翼 and 西鳥羽二郎},
booktitle = {言語処理学会第31回年次大会発表論文集},
year = {2025},
}
更多信息
https://note.com/retrieva/n/n4ee9d304f44d(日语)
模型卡片作者
胜又智、木村大翼、西鸟羽二郎
模型卡片联系方式
pr[at]retrieva.jp