plamo-embedding-1b開源日語文本嵌入模型 - 基準測試表現優異實用之選

首頁

Plamo Embedding 1b

由pfnet開發

PLaMo-Embedding-1B是由Preferred Networks公司開發的日語文本嵌入模型，在日語文本嵌入基準測試中表現優異

文本嵌入

Transformers

日語開源協議:Apache-2.0 #日語文本嵌入 #高維向量 #信息檢索優化

下載量 33.48k

發布時間 : 4/11/2025

模型概述

該模型能將日語文本輸入轉化為數值向量，可廣泛應用於信息檢索、文本分類和聚類等場景

模型特點

日語文本嵌入

專門針對日語文本優化的嵌入模型

高性能

在日語文本嵌入基準測試(JMTEB)中取得頂級評分

長文本支持

支持最大4096 tokens的上下文長度

商業友好

採用Apache v2.0許可，允許商業用途

模型能力

文本向量化

語義相似度計算

信息檢索

文本分類

文本聚類

使用案例

信息檢索

文檔搜索

通過計算查詢與文檔的語義相似度實現精準搜索

在檢索任務中表現尤為突出

文本分析

文本分類

將文本轉換為向量後進行分類

文本聚類

基於語義相似度對文本進行分組

🚀 PLaMo-Embedding-1B

PLaMo-Embedding-1B 是由 Preferred Networks, Inc 開發的日語文本嵌入模型，可將日語文本輸入轉換為數值向量，廣泛應用於信息檢索、文本分類和聚類等領域。

🚀 快速開始

PLaMo-Embedding-1B 是一個強大的日語文本嵌入模型，以下為你介紹如何快速使用它。

✨ 主要特性

高性能：截至 2025 年 4 月上旬，在日語文本嵌入基準測試 JMTEB 中取得了一流的成績，尤其在檢索任務中表現出色。
靈活使用：提供 encode_query 和 encode_document 方法，適用於不同的文本處理場景。
商業友好：基於 Apache v2.0 許可證發佈，可免費用於商業用途。

📦 安裝指南

使用該模型前，你需要安裝以下依賴：

sentencepiece
torch
transformers

💻 使用示例

基礎用法

import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

# You can download models from the Hugging Face Hub 🤗 as follows:
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)

device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

query = "PLaMo-Embedding-1Bとは何ですか？"
documents = [
    "PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
    "最近は隨分と暖かくなりましたね。"
]

with torch.inference_mode():
    # For embedding query texts in information retrieval, please use the `encode_query` method.
    # You also need to pass the `tokenizer`.
    query_embedding = model.encode_query(query, tokenizer)
    # For other texts/sentences, please use the `encode_document` method.
    # Also, for applications other than information retrieval, please use the `encode_document` method.
    document_embeddings = model.encode_document(documents, tokenizer)

# The similarity between vectors obtained by inputting sentences into the model is high for similar sentences and low for dissimilar sentences.
# This feature can be utilized for applications such as information retrieval.
similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)
# tensor([0.8812, 0.5533])

高級用法

# 注意事項說明：對於 `encode_document` 和 `encode_query`，超過模型最大上下文長度 4096 的文本將被截斷。特別要注意的是，對於 `encode_query`，內部會添加一個前綴，使得有效最大上下文長度略短。
# 此代碼示例展示了在實際使用中，如何處理可能出現的文本長度問題以及如何利用模型的特性進行信息檢索等應用。
import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)

device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

# 模擬一個較長的查詢文本
long_query = "這是一個非常長的查詢文本，可能會超過模型的最大上下文長度，我們需要注意處理這種情況。PLaMo-Embedding-1Bとは何ですか？"
documents = [
    "PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
    "最近は隨分と暖かくなりましたね。"
]

with torch.inference_mode():
    try:
        query_embedding = model.encode_query(long_query, tokenizer)
    except Exception as e:
        print(f"查詢文本處理出錯: {e}，可能是因為文本過長。")
        # 這裡可以添加進一步的處理邏輯，如截斷文本等
    document_embeddings = model.encode_document(documents, tokenizer)

similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)

📚 詳細文檔

基準測試

我們使用日語文本嵌入基準測試 JMTEB 對模型進行了性能評估，結果如下：

模型	平均得分	檢索任務	STS	分類任務	重排序任務	聚類任務	成對分類任務
intfloat/multilingual-e5-large	70.90	70.98	79.70	72.89	92.96	51.24	62.15
pkshatech/GLuCoSE-base-ja-v2	72.23	73.36	82.96	74.21	93.01	48.65	62.37
OpenAI/text-embedding-3-large	74.05	74.48	82.52	77.58	93.58	53.32	62.35
cl-nagoya/ruri-large-v2	74.55	76.34	83.17	77.18	93.21	52.14	62.27
Sarashina-Embedding-v1-1B	75.50	77.61	82.71	78.37	93.74	53.86	62.00
PLaMo-Embedding-1B (本模型) (*)	76.10	79.94	83.14	77.20	93.57	53.47	62.37

(*)：使用上下文長度 1024 進行測量。雖然模型支持最大上下文長度為 4096，但由於訓練期間包含的上下文長度最大為 1024，因此我們在 1024 進行測量。不過，已知在 4096 進行評估對平均得分影響不大。(參考：技術博客 (日語))

模型詳情

屬性	詳情
模型類型	日語文本嵌入模型
模型大小	1B
最大上下文長度	4096 個標記
嵌入維度	2048
相似度函數	餘弦相似度
開發者	Preferred Networks, Inc
語言	日語
許可證	Apache v2.0

🔧 技術細節

如需瞭解更多技術細節，請參考以下技術博客文章（日語）：https://tech.preferred.jp/ja/blog/plamo-embedding-1b/

📄 許可證

PLaMo-Embedding-1B 基於 Apache v2.0 許可證發佈，你可以自由使用，包括用於商業目的。

如何引用

@online{PLaMoEmbedding1B,
    author    = {Preferred Networks, Inc},
    title     = {PLaMo-Embedding-1B},
    year      = {2025},
    url       = {https://huggingface.co/pfnet/plamo-embedding-1b},
    urldate   = {2025-04-17}
}