🚀 PLaMo-Embedding-1B
PLaMo-Embedding-1Bは、Preferred Networks, Inc.によって開発された日本語テキスト埋め込みモデルです。このモデルは、日本語のテキストを数値ベクトルに変換することができ、情報検索、テキスト分類、クラスタリングなど、幅広いアプリケーションに利用できます。
🚀 クイックスタート
このセクションでは、PLaMo-Embedding-1Bモデルの基本的な使い方を説明します。まずは必要なライブラリをインストールし、サンプルコードを実行してみましょう。
✨ 主な機能
- 日本語テキストを数値ベクトルに変換することができます。
- 情報検索、テキスト分類、クラスタリングなどのアプリケーションに利用できます。
- JMTEBという日本語テキスト埋め込みのベンチマークで、トップクラスのスコアを達成しています。
📦 インストール
必要なライブラリ
sentencepiece
torch
transformers
これらのライブラリをインストールすることで、モデルを使用できるようになります。
💻 使用例
基本的な使用法
import torch
import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
query = "PLaMo-Embedding-1Bとは何ですか?"
documents = [
"PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
"最近は随分と暖かくなりましたね。"
]
with torch.inference_mode():
query_embedding = model.encode_query(query, tokenizer)
document_embeddings = model.encode_document(documents, tokenizer)
similarities = F.cosine_similarity(query_embedding, document_embeddings)
print(similarities)
注意事項
⚠️ 重要提示
encode_document
と encode_query
では、モデルの最大コンテキスト長である4096を超えるテキストは切り捨てられます。特に encode_query
では、内部的にプレフィックスが追加されるため、実質的な最大コンテキスト長は少し短くなります。
📚 ドキュメント
ベンチマーク
このモデルの性能評価は、JMTEBという日本語テキスト埋め込みのベンチマークを使用して行われました。以下は、いくつかのモデルの評価結果です。
(*): 測定はコンテキスト長1024で行われました。モデルは最大4096のコンテキスト長をサポートしていますが、学習時に含まれるコンテキスト長が最大1024であったため、1024で測定しました。ただし、4096で評価しても平均スコアに大きな影響はないことが知られています。(Ref: Tech Blog (Ja))
モデルの詳細
属性 |
详情 |
モデルサイズ |
1B |
最大コンテキスト長 |
4096トークン |
埋め込み次元数 |
2048 |
類似度関数 |
コサイン類似度 |
開発者 |
Preferred Networks, Inc |
言語 |
日本語 |
ライセンス |
Apache v2.0 |
📄 ライセンス
PLaMo-Embedding-1Bは、Apache v2.0ライセンスの下で公開されており、商用利用を含めて自由に使用することができます。
引用方法
@online{PLaMoEmbedding1B,
author = {Preferred Networks, Inc},
title = {PLaMo-Embedding-1B},
year = {2025},
url = {https://huggingface.co/pfnet/plamo-embedding-1b},
urldate = {2025-04-17}
}