amber-large開源日英雙語模型 - 免費支持句子相似度計算與文本分類

首頁

Amber Large

由retrieva-jp開發

基於 modernbert-ja-310m 的日英雙語句子特徵提取模型，支持句子相似度計算和文本分類任務

文本嵌入

Safetensors

支持多種語言開源協議:Apache-2.0 #日英雙語嵌入 #高精度文本分類 #學術文獻聚類

下載量 239.28k

發布時間 : 3/7/2025

模型概述

該模型專注於日英雙語場景下的句子嵌入表示，可用於句子相似度計算、文本分類和聚類任務。基於 MTEB 基準測試顯示其在分類和聚類任務上表現良好。

模型特點

日英雙語支持

專門針對日語和英語雙語場景優化，可處理兩種語言的句子嵌入表示

多任務適配

支持分類、聚類和檢索等多種自然語言處理任務

MTEB 基準驗證

在多個 MTEB 基準測試中表現良好，特別是在分類任務上準確率達到 73.34%

模型能力

句子特徵提取

句子相似度計算

文本分類

文本聚類

跨語言文本處理

使用案例

電子商務

產品評論分類

對亞馬遜等電商平臺的用戶評論進行分類

在亞馬遜反事實分類任務中達到 73.34% 準確率

學術研究

論文聚類

對 arXiv 學術論文進行層次聚類

在 arXiv 論文聚類任務中 V-measure 達到 53.39

信息檢索

論點檢索

在辯論場景中檢索相關論點

在 ArguAna 任務中 NDCG@10 達到 51.32

🚀 RetrievaEmbedding-01: AMBER

AMBER（自適應多任務雙語嵌入表示） 是由Retrieva公司訓練的文本嵌入模型。該模型主要為日語設計，但也支持英語。我們在各種與日語和英語相關的數據集上對該模型進行了訓練。

此模型規模為3.15億參數（大尺寸）。

🚀 快速開始

安裝庫

首先使用pip安裝Python庫：

pip install sentence-transformers sentencepiece

運行推理

然後你可以加載此模型並運行推理。

你可以在推理時通過在model.encode中添加一個名為prompt的參數來指定提示。日語基準測試中使用的提示在jmteb/tasks中描述，英語基準測試中使用的提示在mteb/models/retrieva_en.py中描述。

from sentence_transformers import SentenceTransformer

# 從🤗 Hub下載
model = SentenceTransformer("retrieva-jp/amber-large")
# 運行推理
queries = [
    "自然言語処理とはなんですか？",
    "株式會社レトリバについて教えて",
]
documents = [
    "自然言語処理（しぜんげんごしょり、英語: Natural language processing、略稱：NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語學の一分野である。",
    "株式會社レトリバは、自然言語処理と機械學習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]

queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")

similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)

✨ 主要特性

多語言支持：主要支持日語，同時也支持英語。
基於特定架構：基於sbintuitions/modernbert-ja-310m架構，專為日語文本設計。
任務定製：訓練時包含自然語言提示，可生成針對特定任務的嵌入。

📦 安裝指南

安裝庫

使用pip安裝所需的Python庫：

pip install sentence-transformers sentencepiece

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

# 從🤗 Hub下載
model = SentenceTransformer("retrieva-jp/amber-large")
# 運行推理
queries = [
    "自然言語処理とはなんですか？",
    "株式會社レトリバについて教えて",
]
documents = [
    "自然言語処理（しぜんげんごしょり、英語: Natural language processing、略稱：NLP）は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語學の一分野である。",
    "株式會社レトリバは、自然言語処理と機械學習を核としたAI技術で組織の課題解決を支援するテクノロジー企業である。",
]

queries_embeddings = model.encode(queries, prompt_name="Retrieval-query")
documents_embeddings = model.encode(documents, prompt_name="Retrieval-passage")

similarities = model.similarity(queries_embeddings, documents_embeddings)
print(similarities.shape)

📚 詳細文檔

模型詳情

模型描述

AMBER模型是基於sbintuitions/modernbert-ja-310m架構的文本嵌入模型，專為日語文本設計。該模型在各種與日語相關的數據集上進行了訓練，同時也包含英語數據集，因此也可用於英語文本。在訓練過程中，包含了自然語言提示（指令），使模型能夠生成針對特定任務的嵌入。

屬性	詳情
開發者	Retrieva公司
模型類型	基於ModernBERT架構
語言（NLP）	主要為日語（可選支持英語）
許可證	Apache 2.0
微調基礎模型	`sbintuitions/modernbert-ja-310m`
模型類型	句子轉換器
最大序列長度	512個標記
輸出維度	768維
相似度函數	餘弦相似度

用途

模型使用入門

可按照上述安裝和推理步驟使用該模型。

訓練詳情

訓練數據

我們使用多個數據集來訓練此模型。對於日語數據集，我們從llm-jp-eval、llm-japanese-dataset和hpprc/emb中選擇了一些數據集。對於英語數據集，我們主要使用了Asai等人（2023）中使用的部分數據集。此外，我們還部分使用了sentence-transformers倉庫和kilt-tasks中的英語數據集。為了考慮日語和英語之間的跨語言因素，我們還使用了日語和英語之間的翻譯數據集。

對於日語，我們使用了由大語言模型創建的合成數據來準備足夠的訓練數據。

評估

我們在以下基準測試中對模型進行了評估：

日語基準測試：JMTEB
日語檢索任務：JQaRA、JaCWIR、MLDR日語子集
英語基準測試：MTEB(eng, v2)

除非另有說明，表中的分數均由我們計算得出。

日語基準測試：JMTEB

請注意，以下排行榜中的Mean (TaskType)與原始JMTEB排行榜中的Avg.相同。評估使用的文件存儲在jmteb目錄中。

模型	參數數量	任務類型均值	任務均值	檢索	STS	分類	重排序	聚類	成對分類
基礎模型（< 3億）
cl-nagoya/ruri-base	1.11億	72.60	71.56	69.53	82.87	75.49	92.91	52.40	62.38
AMBER-base	1.3億	72.12	72.12	73.40	77.81	76.14	93.27	48.05	64.03
pkshatech/GLuCoSE-base-ja-v2	1.33億	72.89	72.47	73.03	82.96	74.02	93.01	51.96	62.37
pkshatech/RoSEtta-base-ja	1.9億	72.49	72.05	73.14	81.39	72.37	92.69	53.60	61.74
intfloat/multilingual-e5-base	2.78億	71.11	69.72	69.45	80.45	69.86	92.90	51.62	62.35
大型模型（> 3億）
AMBER-large （本模型）	3.15億	72.52	73.22	75.40	79.32	77.14	93.54	48.73	60.97
cl-nagoya/ruri-large	3.37億	73.20	73.06	72.86	83.14	77.15	93.00	50.78	62.29
intfloat/multilingual-e5-large	5.6億	72.06	71.29	71.71	80.87	72.45	93.29	51.59	62.42

日語檢索任務：JQaRA、JaCWIR、MLDR日語子集

MLDR使用的文件存儲在mldr目錄中。JQaRA和JaCWIR中使用的提示是config_sentence_transformers.json中描述的Retrieval-query和Retrieval-passage。

模型	參數數量	JQaRA（nDCG@10）	JaCWIR（MAP@10）	MLDR日語子集（nDCG@10）
基礎模型（< 3億）
cl-nagoya/ruri-base	1.11億	58.4	83.3	32.77
AMBER-base	1.3億	57.1	81.6	35.69
pkshatech/GLuCoSE-base-ja-v2	1.33億	60.6	85.3	33.99
intfloat/multilingual-e5-base	2.78億	47.1	85.3	25.46
大型模型（> 3億）
AMBER-large （本模型）	3.15億	62.5	82.4	34.57
cl-nagoya/ruri-large	3.37億	62.8	82.5	34.78
intfloat/multilingual-e5-large	5.6億	55.4	87.3	29.95

英語基準測試：MTEB(eng, v2)

評估使用的文件存儲在mteb目錄中。

模型	參數數量	任務類型均值	任務均值	檢索	STS	分類	重排序	聚類	成對分類	摘要
基礎模型（< 3億）
AMBER-base	1.3億	54.75	58.20	40.11	81.29	70.39	42.98	42.27	80.12	26.08
intfloat/multilingual-e5-base	2.78億	56.21	59.75	43.22	80.50	73.84	43.87	42.19	83.74	26.10
大型模型（> 3億）
AMBER-large （本模型）	3.15億	56.08	59.13	41.04	81.52	72.23	43.83	42.71	81.00	30.21
intfloat/multilingual-e5-large	5.6億	57.06	60.84	46.17	81.11	74.88	44.31	41.91	84.33	26.67

🔧 技術細節

該模型基於ModernBERT架構，在訓練過程中結合了多種日語和英語數據集，並使用自然語言提示來生成針對特定任務的嵌入。模型的最大序列長度為512個標記，輸出維度為768維，使用餘弦相似度作為相似度函數。

📄 許可證

本模型採用Apache 2.0許可證。

引用

BibTeX：

@inproceedings{amber2025,
    title = {インストラクションと複數タスクを利用した日本語向け分散表現モデルの構築},
    author = {勝又智 and 木村大翼 and 西鳥羽二郎},
    booktitle = {言語処理學會第31回年次大會発表論文集},
    year = {2025},
}