Amber Large
模型概述
模型特點
模型能力
使用案例
🚀 RetrievaEmbedding-01: AMBER
AMBER(自適應多任務雙語嵌入表示) 是由Retrieva公司訓練的文本嵌入模型。該模型主要為日語設計,但也支持英語。我們在各種與日語和英語相關的數據集上對該模型進行了訓練。
此模型規模為3.15億參數(大尺寸)。
🚀 快速開始
安裝庫
首先使用pip安裝Python庫:
pip install sentence-transformers sentencepiece
運行推理
然後你可以加載此模型並運行推理。
你可以在推理時通過在model.encode
中添加一個名為prompt
的參數來指定提示。日語基準測試中使用的提示在jmteb/tasks
中描述,英語基準測試中使用的提示在mteb/models/retrieva_en.py
中描述。
from sentence_transformers import SentenceTransformer
# 從🤗 Hub下載
model = SentenceTransformer("retrieva-jp/amber-large")
# 運行推理
queries = [
"自然言語処理とはなんですか?",
"株式會社レトリバについて教えて",
]
documents = [
"自然言語処理(しぜんげんごしょり、英語: Natural language processing、略稱:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語學の一分野である。",
"株式會社レトリバは、自然言語処理と機械學習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]
queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")
similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)
✨ 主要特性
- 多語言支持:主要支持日語,同時也支持英語。
- 基於特定架構:基於sbintuitions/modernbert-ja-310m架構,專為日語文本設計。
- 任務定製:訓練時包含自然語言提示,可生成針對特定任務的嵌入。
📦 安裝指南
安裝庫
使用pip安裝所需的Python庫:
pip install sentence-transformers sentencepiece
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
# 從🤗 Hub下載
model = SentenceTransformer("retrieva-jp/amber-large")
# 運行推理
queries = [
"自然言語処理とはなんですか?",
"株式會社レトリバについて教えて",
]
documents = [
"自然言語処理(しぜんげんごしょり、英語: Natural language processing、略稱:NLP)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語學の一分野である。",
"株式會社レトリバは、自然言語処理と機械學習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]
queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")
similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)
📚 詳細文檔
模型詳情
模型描述
AMBER模型是基於sbintuitions/modernbert-ja-310m架構的文本嵌入模型,專為日語文本設計。該模型在各種與日語相關的數據集上進行了訓練,同時也包含英語數據集,因此也可用於英語文本。在訓練過程中,包含了自然語言提示(指令),使模型能夠生成針對特定任務的嵌入。
屬性 | 詳情 |
---|---|
開發者 | Retrieva公司 |
模型類型 | 基於ModernBERT架構 |
語言(NLP) | 主要為日語(可選支持英語) |
許可證 | Apache 2.0 |
微調基礎模型 | sbintuitions/modernbert-ja-310m |
模型類型 | 句子轉換器 |
最大序列長度 | 512個標記 |
輸出維度 | 768維 |
相似度函數 | 餘弦相似度 |
用途
模型使用入門
可按照上述安裝和推理步驟使用該模型。
訓練詳情
訓練數據
我們使用多個數據集來訓練此模型。對於日語數據集,我們從llm-jp-eval、llm-japanese-dataset和hpprc/emb中選擇了一些數據集。對於英語數據集,我們主要使用了Asai等人(2023)中使用的部分數據集。此外,我們還部分使用了sentence-transformers倉庫和kilt-tasks中的英語數據集。為了考慮日語和英語之間的跨語言因素,我們還使用了日語和英語之間的翻譯數據集。
對於日語,我們使用了由大語言模型創建的合成數據來準備足夠的訓練數據。
評估
我們在以下基準測試中對模型進行了評估:
- 日語基準測試:JMTEB
- 日語檢索任務:JQaRA、JaCWIR、MLDR日語子集
- 英語基準測試:MTEB(eng, v2)
除非另有說明,表中的分數均由我們計算得出。
日語基準測試:JMTEB
請注意,以下排行榜中的Mean (TaskType)
與原始JMTEB排行榜中的Avg.
相同。評估使用的文件存儲在jmteb
目錄中。
模型 | 參數數量 | 任務類型均值 | 任務均值 | 檢索 | STS | 分類 | 重排序 | 聚類 | 成對分類 |
---|---|---|---|---|---|---|---|---|---|
基礎模型(< 3億) | |||||||||
cl-nagoya/ruri-base | 1.11億 | 72.60 | 71.56 | 69.53 | 82.87 | 75.49 | 92.91 | 52.40 | 62.38 |
AMBER-base | 1.3億 | 72.12 | 72.12 | 73.40 | 77.81 | 76.14 | 93.27 | 48.05 | 64.03 |
pkshatech/GLuCoSE-base-ja-v2 | 1.33億 | 72.89 | 72.47 | 73.03 | 82.96 | 74.02 | 93.01 | 51.96 | 62.37 |
pkshatech/RoSEtta-base-ja | 1.9億 | 72.49 | 72.05 | 73.14 | 81.39 | 72.37 | 92.69 | 53.60 | 61.74 |
intfloat/multilingual-e5-base | 2.78億 | 71.11 | 69.72 | 69.45 | 80.45 | 69.86 | 92.90 | 51.62 | 62.35 |
大型模型(> 3億) | |||||||||
AMBER-large (本模型) |
3.15億 | 72.52 | 73.22 | 75.40 | 79.32 | 77.14 | 93.54 | 48.73 | 60.97 |
cl-nagoya/ruri-large | 3.37億 | 73.20 | 73.06 | 72.86 | 83.14 | 77.15 | 93.00 | 50.78 | 62.29 |
intfloat/multilingual-e5-large | 5.6億 | 72.06 | 71.29 | 71.71 | 80.87 | 72.45 | 93.29 | 51.59 | 62.42 |
日語檢索任務:JQaRA、JaCWIR、MLDR日語子集
MLDR使用的文件存儲在mldr
目錄中。JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json
中描述的Retrieval-query
和Retrieval-passage
。
模型 | 參數數量 | JQaRA(nDCG@10) | JaCWIR(MAP@10) | MLDR日語子集(nDCG@10) |
---|---|---|---|---|
基礎模型(< 3億) | ||||
cl-nagoya/ruri-base | 1.11億 | 58.4 | 83.3 | 32.77 |
AMBER-base | 1.3億 | 57.1 | 81.6 | 35.69 |
pkshatech/GLuCoSE-base-ja-v2 | 1.33億 | 60.6 | 85.3 | 33.99 |
intfloat/multilingual-e5-base | 2.78億 | 47.1 | 85.3 | 25.46 |
大型模型(> 3億) | ||||
AMBER-large (本模型) |
3.15億 | 62.5 | 82.4 | 34.57 |
cl-nagoya/ruri-large | 3.37億 | 62.8 | 82.5 | 34.78 |
intfloat/multilingual-e5-large | 5.6億 | 55.4 | 87.3 | 29.95 |
英語基準測試:MTEB(eng, v2)
評估使用的文件存儲在mteb
目錄中。
模型 | 參數數量 | 任務類型均值 | 任務均值 | 檢索 | STS | 分類 | 重排序 | 聚類 | 成對分類 | 摘要 |
---|---|---|---|---|---|---|---|---|---|---|
基礎模型(< 3億) | ||||||||||
AMBER-base | 1.3億 | 54.75 | 58.20 | 40.11 | 81.29 | 70.39 | 42.98 | 42.27 | 80.12 | 26.08 |
intfloat/multilingual-e5-base | 2.78億 | 56.21 | 59.75 | 43.22 | 80.50 | 73.84 | 43.87 | 42.19 | 83.74 | 26.10 |
大型模型(> 3億) | ||||||||||
AMBER-large (本模型) |
3.15億 | 56.08 | 59.13 | 41.04 | 81.52 | 72.23 | 43.83 | 42.71 | 81.00 | 30.21 |
intfloat/multilingual-e5-large | 5.6億 | 57.06 | 60.84 | 46.17 | 81.11 | 74.88 | 44.31 | 41.91 | 84.33 | 26.67 |
🔧 技術細節
該模型基於ModernBERT架構,在訓練過程中結合了多種日語和英語數據集,並使用自然語言提示來生成針對特定任務的嵌入。模型的最大序列長度為512個標記,輸出維度為768維,使用餘弦相似度作為相似度函數。
📄 許可證
本模型採用Apache 2.0許可證。
引用
BibTeX:
@inproceedings{amber2025,
title = {インストラクションと複數タスクを利用した日本語向け分散表現モデルの構築},
author = {勝又智 and 木村大翼 and 西鳥羽二郎},
booktitle = {言語処理學會第31回年次大會発表論文集},
year = {2025},
}
更多信息
https://note.com/retrieva/n/n4ee9d304f44d(日語)
模型卡片作者
勝又智、木村大翼、西鳥羽二郎
模型卡片聯繫方式
pr[at]retrieva.jp







