TY - ecomm - embed - multilingual - base - v1.2.0开源模型

首页

TY Ecomm Embed Multilingual Base V1.2.0

由 Trendyol 开发

GTE-Multilingual-Base 是一个多语言句子嵌入模型，支持多种语言的句子相似度计算。

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #多语言句子嵌入 #跨语言语义匹配 #多语言相似度计算

下载量 790

发布时间 : 5/6/2025

模型简介

该模型基于 Alibaba-NLP 的 GTE 架构，专门设计用于处理多语言文本的句子嵌入和相似度计算。

模型特点

多语言支持

支持多种语言的句子嵌入和相似度计算。

高效性能

基于 Transformer 架构，提供高效的句子嵌入计算。

开源许可

采用 Apache 2.0 许可证，允许商业和研究使用。

模型能力

句子嵌入

句子相似度计算

多语言文本处理

使用案例

信息检索

多语言文档检索

在多语言文档库中检索与查询句子相似的文档。

语义搜索

跨语言语义搜索

在不同语言的文本中搜索语义相似的句子。

🚀 Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0

Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0 是一个多语言的 sentence-transformers 嵌入模型，它在电子商务数据集上进行了微调，针对语义相似度、搜索、分类和检索任务进行了优化。该模型整合了来自数百万真实世界查询、产品描述和用户交互的特定领域信号。此模型是在 Alibaba-NLP/gte-multilingual-base 的蒸馏版本上，使用土耳其语 - 英语对翻译数据集进行微调的。

主要亮点

针对电子商务语义搜索进行了优化。
增强了对土耳其语和多语言查询的理解。
支持查询改写和释义挖掘。
对产品标签和属性提取具有较强的鲁棒性。
适用于聚类和产品分类。
在语义文本相似度方面表现出色。
支持 384 个标记的输入。
输出 768 维的密集向量。
内置余弦相似度用于推理。

🚀 快速开始

本模型可用于语义相似度、搜索、分类和检索等任务。以下是使用示例：

from sentence_transformers import SentenceTransformer

# 从 Hugging Face Hub 下载模型
matryoshka_dim = 768
model = SentenceTransformer("Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0", trust_remote_code=True, truncate_dim=matryoshka_dim)
# 运行推理
sentences = [
    '120x190 yapÄ±yor musunuz',
    'merhaba 120 x 180 mevcÃ¼ttÃ¼r',
    'ÃœrÃ¼n stoklarÄ±mÄ±zda bulunmamaktadÄ±r',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

多语言支持：支持土耳其语、阿拉伯语、英语、德语、保加利亚语、匈牙利语、罗马尼亚语、斯洛伐克语、波兰语、捷克语、希腊语等多种语言。
电子商务优化：针对电子商务语义搜索进行了优化，能够更好地处理产品相关的查询和文本。
语义理解：增强了对土耳其语和多语言查询的理解，支持查询改写和释义挖掘。
鲁棒性强：对产品标签和属性提取具有较强的鲁棒性，适用于聚类和产品分类。
高性能：在语义文本相似度方面表现出色，能够准确地计算文本之间的相似度。

📦 安装指南

首先，你需要安装 Sentence Transformers 库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从 Hugging Face Hub 下载模型
matryoshka_dim = 768
model = SentenceTransformer("Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0", trust_remote_code=True, truncate_dim=matryoshka_dim)
# 运行推理
sentences = [
    '120x190 yapÄ±yor musunuz',
    'merhaba 120 x 180 mevcÃ¼ttÃ¼r',
    'ÃœrÃ¼n stoklarÄ±mÄ±zda bulunmamaktadÄ±r',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型详情

属性	详情
模型类型	Sentence Transformer
最大序列长度	384 个标记
输出维度	768 维
Matryoshka 维度	768, 512, 128
相似度函数	余弦相似度
训练数据集	多语言和土耳其语搜索词、土耳其语指令数据集、土耳其语摘要数据集、土耳其语电子商务改写数据集、土耳其语问答对等等

模型来源

文档：Sentence Transformers 文档
仓库：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Sentence Transformers

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

🔧 技术细节

训练细节

损失函数：MatryoshkaLoss，参数如下：

{
    "loss": "CachedMultipleNegativesSymmetricRankingLoss",
    "matryoshka_dims": [
        768,
        512,
        128
    ],
    "matryoshka_weights": [
        1,
        1,
        1
    ],
    "n_dims_per_step": -1
}

训练超参数

非默认超参数

overwrite_output_dir: True
eval_strategy: steps
per_device_train_batch_size: 2048
per_device_eval_batch_size: 128
learning_rate: 0.0005
num_train_epochs: 1
warmup_ratio: 0.01
fp16: True
ddp_timeout: 300000
batch_sampler: no_duplicates

框架版本

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.48.1
PyTorch: 2.5.1+cu124
Accelerate: 1.5.1
Datasets: 2.21.0
Tokenizers: 0.21.1

📄 许可证

本模型使用 Apache-2.0 许可证。

⚠️ 重要提示

虽然该模型在与电子商务相关的数据集（包括多语言和土耳其语数据）上进行了训练，但用户应注意以下几点限制：

领域偏差：对于电子商务或产品相关领域之外的内容（如法律、医学或高度技术性的文本），模型性能可能会下降。
语言覆盖：尽管包含了多语言数据，但大部分数据集是用土耳其语创建的。
输入长度限制：超过最大序列长度（384 个标记）的输入将被截断，可能会丢失长文本中的关键上下文信息。
虚假相似度：语义相似度可能会错误地为不相关但词汇相似或在训练数据中频繁共现的短语分配高相似度分数。

💡 使用建议

人工监督：建议在输出中加入人工审核层或使用过滤器来管理和提高输出质量，特别是在面向公众的应用中。这种方法可以帮助降低意外生成不良内容的风险。
特定应用测试：打算使用 Trendyol 嵌入模型的开发者应针对其特定应用进行全面的安全测试和优化。这一点至关重要，因为模型的输出有时可能存在偏差或不准确。
负责任的开发和部署：Trendyol 嵌入模型的开发者和用户有责任确保其道德和安全应用。我们敦促用户注意模型的局限性，并采取适当的保障措施，以防止滥用或产生有害后果。

📖 引用

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}