🚀 VectorPath SearchMap:對話式電商搜索嵌入模型
VectorPath SearchMap是一款專為電商搜索場景打造的嵌入模型,它讓搜索變得更具對話性和直觀性。該模型基於Stella Embed 400M v5基礎模型微調而來,能夠出色地理解自然語言查詢,並將其與相關產品進行匹配。
🚀 快速開始
你可以在我們的交互式Colab演示中試用該模型!
✨ 主要特性
- 針對對話式電商查詢進行優化。
- 能夠處理複雜的自然語言搜索意圖。
- 支持多屬性產品搜索。
- 提供高效的1024維嵌入(可配置至8192維)。
- 專門用於產品和酒店搜索場景。
📦 安裝指南
使用Sentence Transformers
!pip install -U torch==2.5.1 transformers==4.44.2 sentence-transformers==2.7.0 xformers==0.0.28.post3
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vectopath/SearchMap_Preview', trust_remote_code=True)
query = "A treat my dog and I can eat together"
query_embedding = model.encode(query)
product_description = "Organic peanut butter dog treats, safe for human consumption..."
product_embedding = model.encode(product_description)
使用FAISS進行向量搜索
import numpy as np
import faiss
embedding_dimension = 1024
index = faiss.IndexFlatL2(embedding_dimension)
product_embeddings = model.encode(product_descriptions, show_progress_bar=True)
index.add(np.array(product_embeddings).astype('float32'))
query_embedding = model.encode([query])
distances, indices = index.search(
np.array(query_embedding).astype('float32'),
k=10
)
💻 使用示例
基礎用法
!pip install -U torch==2.5.1 transformers==4.44.2 sentence-transformers==2.7.0 xformers==0.0.28.post3
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vectopath/SearchMap_Preview', trust_remote_code=True)
query = "A treat my dog and I can eat together"
query_embedding = model.encode(query)
product_description = "Organic peanut butter dog treats, safe for human consumption..."
product_embedding = model.encode(product_description)
高級用法
import numpy as np
import faiss
embedding_dimension = 1024
index = faiss.IndexFlatL2(embedding_dimension)
product_embeddings = model.encode(product_descriptions, show_progress_bar=True)
index.add(np.array(product_embeddings).astype('float32'))
query_embedding = model.encode([query])
distances, indices = index.search(
np.array(query_embedding).astype('float32'),
k=10
)
示例搜索查詢
該模型擅長理解自然語言查詢,例如:
- “A treat my dog and I can eat together”
- “Lightweight waterproof hiking backpack for summer trails”
- “Eco-friendly kitchen gadgets for a small apartment”
- “Comfortable shoes for standing all day at work”
- “Cereal for my 4 year old son that likes to miss breakfast”
📚 詳細文檔
模型詳情
屬性 |
詳情 |
基礎模型 |
Stella Embed 400M v5 |
嵌入維度 |
可配置(512、768、1024、2048、4096、6144、8192) |
訓練數據 |
涵蓋32個類別的100,000多個電商產品 |
許可證 |
MIT |
框架 |
PyTorch / Sentence Transformers |
性能和侷限性
評估
該模型的評估指標可在MTEB排行榜上查看:
- 目前,該模型是參數規模小於10億的最佳嵌入模型,由於其內存佔用小,非常適合在小型GPU上本地運行。
- 在SemRel24STS任務中,該模型以81.12%的準確率大幅領先,擊敗了位居第二的Google Gemini嵌入模型(準確率73.14%,截至2025年3月30日)。SemRel24STS用於評估系統在14種不同語言中測量兩個句子之間語義相關性的能力。
- 從MTEB排行榜來看,該模型在法律和新聞檢索及相似度任務中表現出色。
優勢
- 擅長理解對話式和自然語言查詢。
- 在電商和酒店搜索場景中表現出色。
- 能夠處理複雜的多屬性查詢。
- 可配置嵌入維度,計算效率高。
當前侷限性
- 可能無法完全優先處理查詢中的加權術語。
- 對俚語和口語化語言的處理能力有限。
- 可能需要針對區域語言變體進行微調。
訓練詳情
該模型使用以下方法進行訓練:
- 使用Sentence Transformers進行監督學習。
- 100,000多個產品數據集,涵蓋32個類別。
- 人工智能生成的對話式搜索查詢。
- 用於對比學習的正負產品示例。
預期用途
該模型旨在用於以下場景:
- 電商產品搜索和推薦。
- 酒店和住宿搜索。
- 產品目錄向量化。
- 語義相似度匹配。
- 查詢理解和意圖檢測。
引用
如果您在研究中使用了該模型,請引用:
@misc{vectorpath2025searchmap,
title={SearchMap: Conversational E-commerce Search Embedding Model},
author={VectorPath Research Team},
year={2025},
publisher={Hugging Face},
journal={HuggingFace Model Hub},
}
聯繫和社區
📄 許可證
該模型遵循MIT許可證。有關更多詳細信息,請參閱LICENSE文件。