🚀 VectorPath SearchMap:对话式电商搜索嵌入模型
VectorPath SearchMap是一款专为电商搜索场景打造的嵌入模型,它让搜索变得更具对话性和直观性。该模型基于Stella Embed 400M v5基础模型微调而来,能够出色地理解自然语言查询,并将其与相关产品进行匹配。
🚀 快速开始
你可以在我们的交互式Colab演示中试用该模型!
✨ 主要特性
- 针对对话式电商查询进行优化。
- 能够处理复杂的自然语言搜索意图。
- 支持多属性产品搜索。
- 提供高效的1024维嵌入(可配置至8192维)。
- 专门用于产品和酒店搜索场景。
📦 安装指南
使用Sentence Transformers
!pip install -U torch==2.5.1 transformers==4.44.2 sentence-transformers==2.7.0 xformers==0.0.28.post3
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vectopath/SearchMap_Preview', trust_remote_code=True)
query = "A treat my dog and I can eat together"
query_embedding = model.encode(query)
product_description = "Organic peanut butter dog treats, safe for human consumption..."
product_embedding = model.encode(product_description)
使用FAISS进行向量搜索
import numpy as np
import faiss
embedding_dimension = 1024
index = faiss.IndexFlatL2(embedding_dimension)
product_embeddings = model.encode(product_descriptions, show_progress_bar=True)
index.add(np.array(product_embeddings).astype('float32'))
query_embedding = model.encode([query])
distances, indices = index.search(
np.array(query_embedding).astype('float32'),
k=10
)
💻 使用示例
基础用法
!pip install -U torch==2.5.1 transformers==4.44.2 sentence-transformers==2.7.0 xformers==0.0.28.post3
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vectopath/SearchMap_Preview', trust_remote_code=True)
query = "A treat my dog and I can eat together"
query_embedding = model.encode(query)
product_description = "Organic peanut butter dog treats, safe for human consumption..."
product_embedding = model.encode(product_description)
高级用法
import numpy as np
import faiss
embedding_dimension = 1024
index = faiss.IndexFlatL2(embedding_dimension)
product_embeddings = model.encode(product_descriptions, show_progress_bar=True)
index.add(np.array(product_embeddings).astype('float32'))
query_embedding = model.encode([query])
distances, indices = index.search(
np.array(query_embedding).astype('float32'),
k=10
)
示例搜索查询
该模型擅长理解自然语言查询,例如:
- “A treat my dog and I can eat together”
- “Lightweight waterproof hiking backpack for summer trails”
- “Eco-friendly kitchen gadgets for a small apartment”
- “Comfortable shoes for standing all day at work”
- “Cereal for my 4 year old son that likes to miss breakfast”
📚 详细文档
模型详情
属性 |
详情 |
基础模型 |
Stella Embed 400M v5 |
嵌入维度 |
可配置(512、768、1024、2048、4096、6144、8192) |
训练数据 |
涵盖32个类别的100,000多个电商产品 |
许可证 |
MIT |
框架 |
PyTorch / Sentence Transformers |
性能和局限性
评估
该模型的评估指标可在MTEB排行榜上查看:
- 目前,该模型是参数规模小于10亿的最佳嵌入模型,由于其内存占用小,非常适合在小型GPU上本地运行。
- 在SemRel24STS任务中,该模型以81.12%的准确率大幅领先,击败了位居第二的Google Gemini嵌入模型(准确率73.14%,截至2025年3月30日)。SemRel24STS用于评估系统在14种不同语言中测量两个句子之间语义相关性的能力。
- 从MTEB排行榜来看,该模型在法律和新闻检索及相似度任务中表现出色。
优势
- 擅长理解对话式和自然语言查询。
- 在电商和酒店搜索场景中表现出色。
- 能够处理复杂的多属性查询。
- 可配置嵌入维度,计算效率高。
当前局限性
- 可能无法完全优先处理查询中的加权术语。
- 对俚语和口语化语言的处理能力有限。
- 可能需要针对区域语言变体进行微调。
训练详情
该模型使用以下方法进行训练:
- 使用Sentence Transformers进行监督学习。
- 100,000多个产品数据集,涵盖32个类别。
- 人工智能生成的对话式搜索查询。
- 用于对比学习的正负产品示例。
预期用途
该模型旨在用于以下场景:
- 电商产品搜索和推荐。
- 酒店和住宿搜索。
- 产品目录向量化。
- 语义相似度匹配。
- 查询理解和意图检测。
引用
如果您在研究中使用了该模型,请引用:
@misc{vectorpath2025searchmap,
title={SearchMap: Conversational E-commerce Search Embedding Model},
author={VectorPath Research Team},
year={2025},
publisher={Hugging Face},
journal={HuggingFace Model Hub},
}
联系和社区
📄 许可证
该模型遵循MIT许可证。有关更多详细信息,请参阅LICENSE文件。