TY Ecomm Embed Multilingual Base V1.2.0
T
TY Ecomm Embed Multilingual Base V1.2.0
由 Trendyol 开发
GTE-Multilingual-Base 是一个多语言句子嵌入模型,支持多种语言的句子相似度计算。
下载量 790
发布时间 : 5/6/2025
模型简介
该模型基于 Alibaba-NLP 的 GTE 架构,专门设计用于处理多语言文本的句子嵌入和相似度计算。
模型特点
多语言支持
支持多种语言的句子嵌入和相似度计算。
高效性能
基于 Transformer 架构,提供高效的句子嵌入计算。
开源许可
采用 Apache 2.0 许可证,允许商业和研究使用。
模型能力
句子嵌入
句子相似度计算
多语言文本处理
使用案例
信息检索
多语言文档检索
在多语言文档库中检索与查询句子相似的文档。
语义搜索
跨语言语义搜索
在不同语言的文本中搜索语义相似的句子。
🚀 Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0
Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0 是一个多语言的 sentence-transformers 嵌入模型,它在电子商务数据集上进行了微调,针对语义相似度、搜索、分类和检索任务进行了优化。该模型整合了来自数百万真实世界查询、产品描述和用户交互的特定领域信号。此模型是在 Alibaba-NLP/gte-multilingual-base 的蒸馏版本上,使用土耳其语 - 英语对翻译数据集进行微调的。
主要亮点
- 针对电子商务语义搜索进行了优化。
- 增强了对土耳其语和多语言查询的理解。
- 支持查询改写和释义挖掘。
- 对产品标签和属性提取具有较强的鲁棒性。
- 适用于聚类和产品分类。
- 在语义文本相似度方面表现出色。
- 支持 384 个标记的输入。
- 输出 768 维的密集向量。
- 内置余弦相似度用于推理。
🚀 快速开始
本模型可用于语义相似度、搜索、分类和检索等任务。以下是使用示例:
from sentence_transformers import SentenceTransformer
# 从 Hugging Face Hub 下载模型
matryoshka_dim = 768
model = SentenceTransformer("Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0", trust_remote_code=True, truncate_dim=matryoshka_dim)
# 运行推理
sentences = [
'120x190 yapıyor musunuz',
'merhaba 120 x 180 mevcüttür',
'Ürün stoklarımızda bulunmamaktadır',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
✨ 主要特性
- 多语言支持:支持土耳其语、阿拉伯语、英语、德语、保加利亚语、匈牙利语、罗马尼亚语、斯洛伐克语、波兰语、捷克语、希腊语等多种语言。
- 电子商务优化:针对电子商务语义搜索进行了优化,能够更好地处理产品相关的查询和文本。
- 语义理解:增强了对土耳其语和多语言查询的理解,支持查询改写和释义挖掘。
- 鲁棒性强:对产品标签和属性提取具有较强的鲁棒性,适用于聚类和产品分类。
- 高性能:在语义文本相似度方面表现出色,能够准确地计算文本之间的相似度。
📦 安装指南
首先,你需要安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# 从 Hugging Face Hub 下载模型
matryoshka_dim = 768
model = SentenceTransformer("Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0", trust_remote_code=True, truncate_dim=matryoshka_dim)
# 运行推理
sentences = [
'120x190 yapıyor musunuz',
'merhaba 120 x 180 mevcüttür',
'Ürün stoklarımızda bulunmamaktadır',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | Sentence Transformer |
最大序列长度 | 384 个标记 |
输出维度 | 768 维 |
Matryoshka 维度 | 768, 512, 128 |
相似度函数 | 余弦相似度 |
训练数据集 | 多语言和土耳其语搜索词、土耳其语指令数据集、土耳其语摘要数据集、土耳其语电子商务改写数据集、土耳其语问答对等等 |
模型来源
- 文档:Sentence Transformers 文档
- 仓库:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Sentence Transformers
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
🔧 技术细节
训练细节
- 损失函数:
MatryoshkaLoss
,参数如下:
{
"loss": "CachedMultipleNegativesSymmetricRankingLoss",
"matryoshka_dims": [
768,
512,
128
],
"matryoshka_weights": [
1,
1,
1
],
"n_dims_per_step": -1
}
训练超参数
非默认超参数
overwrite_output_dir
: Trueeval_strategy
: stepsper_device_train_batch_size
: 2048per_device_eval_batch_size
: 128learning_rate
: 0.0005num_train_epochs
: 1warmup_ratio
: 0.01fp16
: Trueddp_timeout
: 300000batch_sampler
: no_duplicates
框架版本
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.48.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.5.1
- Datasets: 2.21.0
- Tokenizers: 0.21.1
📄 许可证
本模型使用 Apache-2.0 许可证。
⚠️ 重要提示
虽然该模型在与电子商务相关的数据集(包括多语言和土耳其语数据)上进行了训练,但用户应注意以下几点限制:
- 领域偏差:对于电子商务或产品相关领域之外的内容(如法律、医学或高度技术性的文本),模型性能可能会下降。
- 语言覆盖:尽管包含了多语言数据,但大部分数据集是用土耳其语创建的。
- 输入长度限制:超过最大序列长度(384 个标记)的输入将被截断,可能会丢失长文本中的关键上下文信息。
- 虚假相似度:语义相似度可能会错误地为不相关但词汇相似或在训练数据中频繁共现的短语分配高相似度分数。
💡 使用建议
- 人工监督:建议在输出中加入人工审核层或使用过滤器来管理和提高输出质量,特别是在面向公众的应用中。这种方法可以帮助降低意外生成不良内容的风险。
- 特定应用测试:打算使用 Trendyol 嵌入模型的开发者应针对其特定应用进行全面的安全测试和优化。这一点至关重要,因为模型的输出有时可能存在偏差或不准确。
- 负责任的开发和部署:Trendyol 嵌入模型的开发者和用户有责任确保其道德和安全应用。我们敦促用户注意模型的局限性,并采取适当的保障措施,以防止滥用或产生有害后果。
📖 引用
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98