Plamo Embedding 1b
PLaMo-Embedding-1B是由Preferred Networks公司開發的日語文本嵌入模型,在日語文本嵌入基準測試中表現優異
下載量 33.48k
發布時間 : 4/11/2025
模型概述
該模型能將日語文本輸入轉化為數值向量,可廣泛應用於信息檢索、文本分類和聚類等場景
模型特點
日語文本嵌入
專門針對日語文本優化的嵌入模型
高性能
在日語文本嵌入基準測試(JMTEB)中取得頂級評分
長文本支持
支持最大4096 tokens的上下文長度
商業友好
採用Apache v2.0許可,允許商業用途
模型能力
文本向量化
語義相似度計算
信息檢索
文本分類
文本聚類
使用案例
信息檢索
文檔搜索
通過計算查詢與文檔的語義相似度實現精準搜索
在檢索任務中表現尤為突出
文本分析
文本分類
將文本轉換為向量後進行分類
文本聚類
基於語義相似度對文本進行分組
🚀 PLaMo-Embedding-1B
PLaMo-Embedding-1B 是由 Preferred Networks, Inc 開發的日語文本嵌入模型,可將日語文本輸入轉換為數值向量,廣泛應用於信息檢索、文本分類和聚類等領域。
🚀 快速開始
PLaMo-Embedding-1B 是一個強大的日語文本嵌入模型,以下為你介紹如何快速使用它。
✨ 主要特性
- 高性能:截至 2025 年 4 月上旬,在日語文本嵌入基準測試 JMTEB 中取得了一流的成績,尤其在檢索任務中表現出色。
- 靈活使用:提供
encode_query
和encode_document
方法,適用於不同的文本處理場景。 - 商業友好:基於 Apache v2.0 許可證發佈,可免費用於商業用途。
📦 安裝指南
使用該模型前,你需要安裝以下依賴:
sentencepiece
torch
transformers
💻 使用示例
基礎用法
import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer
# You can download models from the Hugging Face Hub 🤗 as follows:
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
query = "PLaMo-Embedding-1Bとは何ですか?"
documents = [
"PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
"最近は隨分と暖かくなりましたね。"
]
with torch.inference_mode():
# For embedding query texts in information retrieval, please use the `encode_query` method.
# You also need to pass the `tokenizer`.
query_embedding = model.encode_query(query, tokenizer)
# For other texts/sentences, please use the `encode_document` method.
# Also, for applications other than information retrieval, please use the `encode_document` method.
document_embeddings = model.encode_document(documents, tokenizer)
# The similarity between vectors obtained by inputting sentences into the model is high for similar sentences and low for dissimilar sentences.
# This feature can be utilized for applications such as information retrieval.
similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)
# tensor([0.8812, 0.5533])
高級用法
# 注意事項說明:對於 `encode_document` 和 `encode_query`,超過模型最大上下文長度 4096 的文本將被截斷。特別要注意的是,對於 `encode_query`,內部會添加一個前綴,使得有效最大上下文長度略短。
# 此代碼示例展示了在實際使用中,如何處理可能出現的文本長度問題以及如何利用模型的特性進行信息檢索等應用。
import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
# 模擬一個較長的查詢文本
long_query = "這是一個非常長的查詢文本,可能會超過模型的最大上下文長度,我們需要注意處理這種情況。PLaMo-Embedding-1Bとは何ですか?"
documents = [
"PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
"最近は隨分と暖かくなりましたね。"
]
with torch.inference_mode():
try:
query_embedding = model.encode_query(long_query, tokenizer)
except Exception as e:
print(f"查詢文本處理出錯: {e},可能是因為文本過長。")
# 這裡可以添加進一步的處理邏輯,如截斷文本等
document_embeddings = model.encode_document(documents, tokenizer)
similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)
📚 詳細文檔
基準測試
我們使用日語文本嵌入基準測試 JMTEB 對模型進行了性能評估,結果如下:
模型 | 平均得分 | 檢索任務 | STS | 分類任務 | 重排序任務 | 聚類任務 | 成對分類任務 |
---|---|---|---|---|---|---|---|
intfloat/multilingual-e5-large | 70.90 | 70.98 | 79.70 | 72.89 | 92.96 | 51.24 | 62.15 |
pkshatech/GLuCoSE-base-ja-v2 | 72.23 | 73.36 | 82.96 | 74.21 | 93.01 | 48.65 | 62.37 |
OpenAI/text-embedding-3-large | 74.05 | 74.48 | 82.52 | 77.58 | 93.58 | 53.32 | 62.35 |
cl-nagoya/ruri-large-v2 | 74.55 | 76.34 | 83.17 | 77.18 | 93.21 | 52.14 | 62.27 |
Sarashina-Embedding-v1-1B | 75.50 | 77.61 | 82.71 | 78.37 | 93.74 | 53.86 | 62.00 |
PLaMo-Embedding-1B (本模型) (*) | 76.10 | 79.94 | 83.14 | 77.20 | 93.57 | 53.47 | 62.37 |
(*):使用上下文長度 1024 進行測量。雖然模型支持最大上下文長度為 4096,但由於訓練期間包含的上下文長度最大為 1024,因此我們在 1024 進行測量。不過,已知在 4096 進行評估對平均得分影響不大。(參考:技術博客 (日語))
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 日語文本嵌入模型 |
模型大小 | 1B |
最大上下文長度 | 4096 個標記 |
嵌入維度 | 2048 |
相似度函數 | 餘弦相似度 |
開發者 | Preferred Networks, Inc |
語言 | 日語 |
許可證 | Apache v2.0 |
🔧 技術細節
如需瞭解更多技術細節,請參考以下技術博客文章(日語):https://tech.preferred.jp/ja/blog/plamo-embedding-1b/
📄 許可證
PLaMo-Embedding-1B 基於 Apache v2.0 許可證發佈,你可以自由使用,包括用於商業目的。
如何引用
@online{PLaMoEmbedding1B,
author = {Preferred Networks, Inc},
title = {PLaMo-Embedding-1B},
year = {2025},
url = {https://huggingface.co/pfnet/plamo-embedding-1b},
urldate = {2025-04-17}
}
⚠️ 重要提示
對於
encode_document
和encode_query
,超過模型最大上下文長度 4096 的文本將被截斷。特別要注意的是,對於encode_query
,內部會添加一個前綴,使得有效最大上下文長度略短。
💡 使用建議
在使用模型時,注意處理可能出現的文本長度問題,避免因文本過長導致信息丟失。可以在輸入文本前進行長度檢查和截斷處理。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98