🚀 RetrievaEmbedding-01: AMBER
AMBER(自適應多任務雙語嵌入表示) 是由Retrieva公司訓練的文本嵌入模型。該模型主要為日語設計,但也支持英語。我們在與日語和英語相關的各種數據集上對該模型進行了訓練。
此模型大小為1.32億個參數(基礎規模)。
🚀 快速開始
📦 安裝指南
首先使用pip安裝Python庫:
pip install sentence-transformers sentencepiece
💻 使用示例
基礎用法
然後你可以加載此模型並進行推理。
你可以在推理時通過在model.encode
中添加名為prompt
的參數來指定提示。日語基準測試中使用的提示在jmteb/tasks
中描述,英語基準測試中使用的提示在mteb/models/retrieva_en.py
中描述。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("retrieva-jp/amber-base")
queries = [
"自然言語処理とはなんですか?",
"株式會社レトリバについて教えて",
]
documents = [
"自然言語処理(しぜんげんごしょり、英語: Natural language processing、略稱:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語學の一分野である。",
"株式會社レトリバは、自然言語処理と機械學習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]
queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")
similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)
📚 詳細文檔
🔧 技術細節
模型詳情
模型描述
AMBER模型是基於sbintuitions/modernbert-ja-130m架構的文本嵌入模型,專為日語文本設計。該模型在各種與日語相關的數據集上進行了訓練,也包含英語數據集,因此也可用於英語文本。在訓練過程中,加入了自然語言提示(指令),使模型能夠生成針對特定任務的嵌入。
屬性 |
詳情 |
開發者 |
Retrieva公司 |
模型類型 |
基於ModernBERT架構 |
語言(NLP) |
主要為日語(可選支持英語) |
許可證 |
Apache 2.0 |
微調基礎模型 |
sbintuitions/modernbert-ja-130m |
模型類型 |
句子轉換器 |
最大序列長度 |
512個標記 |
輸出維度 |
512維 |
相似度函數 |
餘弦相似度 |
訓練詳情
訓練數據
我們使用了多個數據集來訓練此模型。對於日語數據集,我們從llm-jp-eval、llm-japanese-dataset和hpprc/emb中選擇了一些數據集。對於英語數據集,我們主要使用了Asai等人(2023)所使用的部分數據集。此外,我們還部分使用了sentence-transformers倉庫和kilt-tasks中的英語數據集。為了考慮日語和英語之間的跨語言情況,我們還使用了日語和英語之間的翻譯數據集。
對於日語,我們使用了大語言模型生成的合成數據來準備足夠的訓練數據。
評估詳情
我們在以下基準測試中對模型進行了評估:
除非另有說明,表中的分數均由我們計算得出。
日語基準測試:JMTEB
請注意,以下排行榜中的Mean (TaskType)
與原始JMTEB排行榜中的Avg.
相同。
用於評估的文件存儲在jmteb
目錄中。
日語檢索任務:JQaRA、JaCWIR、MLDR日語子集
用於MLDR的文件存儲在mldr
目錄中。
JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json
中描述的Retrieval-query
和Retrieval-passage
。
英語基準測試:MTEB(英語,v2)
用於評估的文件存儲在mteb
目錄中。
模型 |
參數數量 |
任務類型均值 |
任務均值 |
檢索 |
STS |
分類 |
重排序 |
聚類 |
成對分類 |
摘要 |
基礎模型(參數少於3億) |
|
|
|
|
|
|
|
|
|
|
AMBER-base (本模型) |
1.3億 |
54.75 |
58.20 |
40.11 |
81.29 |
70.39 |
42.98 |
42.27 |
80.12 |
26.08 |
intfloat/multilingual-e5-base |
2.78億 |
56.21 |
59.75 |
43.22 |
80.50 |
73.84 |
43.87 |
42.19 |
83.74 |
26.10 |
大型模型(參數多於3億) |
|
|
|
|
|
|
|
|
|
|
AMBER-large |
3.15億 |
56.08 |
59.13 |
41.04 |
81.52 |
72.23 |
43.83 |
42.71 |
81.00 |
30.21 |
intfloat/multilingual-e5-large |
5.6億 |
57.06 |
60.84 |
46.17 |
81.11 |
74.88 |
44.31 |
41.91 |
84.33 |
26.67 |
📄 許可證
本模型採用Apache 2.0許可證。
引用
BibTeX:
@inproceedings{amber2025,
title = {インストラクションと複數タスクを利用した日本語向け分散表現モデルの構築},
author = {勝又智 and 木村大翼 and 西鳥羽二郎},
booktitle = {言語処理學會第31回年次大會発表論文集},
year = {2025},
}
更多信息
https://note.com/retrieva/n/n4ee9d304f44d(日語)
模型卡片作者
勝又智、木村大翼、西鳥羽二郎
模型卡片聯繫方式
pr[at]retrieva.jp