TY - ecomm - embed - multilingual - base - v1.2.0開源模型

首頁

TY Ecomm Embed Multilingual Base V1.2.0

由Trendyol開發

GTE-Multilingual-Base 是一個多語言句子嵌入模型，支持多種語言的句子相似度計算。

文本嵌入

Safetensors

支持多種語言開源協議:Apache-2.0 #多語言句子嵌入 #跨語言語義匹配 #多語言相似度計算

下載量 790

發布時間 : 5/6/2025

模型概述

該模型基於 Alibaba-NLP 的 GTE 架構，專門設計用於處理多語言文本的句子嵌入和相似度計算。

模型特點

多語言支持

支持多種語言的句子嵌入和相似度計算。

高效性能

基於 Transformer 架構，提供高效的句子嵌入計算。

開源許可

採用 Apache 2.0 許可證，允許商業和研究使用。

模型能力

句子嵌入

句子相似度計算

多語言文本處理

使用案例

信息檢索

多語言文檔檢索

在多語言文檔庫中檢索與查詢句子相似的文檔。

語義搜索

跨語言語義搜索

在不同語言的文本中搜索語義相似的句子。

🚀 Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0

Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0 是一個多語言的 sentence-transformers 嵌入模型，它在電子商務數據集上進行了微調，針對語義相似度、搜索、分類和檢索任務進行了優化。該模型整合了來自數百萬真實世界查詢、產品描述和用戶交互的特定領域信號。此模型是在 Alibaba-NLP/gte-multilingual-base 的蒸餾版本上，使用土耳其語 - 英語對翻譯數據集進行微調的。

主要亮點

針對電子商務語義搜索進行了優化。
增強了對土耳其語和多語言查詢的理解。
支持查詢改寫和釋義挖掘。
對產品標籤和屬性提取具有較強的魯棒性。
適用於聚類和產品分類。
在語義文本相似度方面表現出色。
支持 384 個標記的輸入。
輸出 768 維的密集向量。
內置餘弦相似度用於推理。

🚀 快速開始

本模型可用於語義相似度、搜索、分類和檢索等任務。以下是使用示例：

from sentence_transformers import SentenceTransformer

# 從 Hugging Face Hub 下載模型
matryoshka_dim = 768
model = SentenceTransformer("Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0", trust_remote_code=True, truncate_dim=matryoshka_dim)
# 運行推理
sentences = [
    '120x190 yapÄ±yor musunuz',
    'merhaba 120 x 180 mevcÃ¼ttÃ¼r',
    'ÃœrÃ¼n stoklarÄ±mÄ±zda bulunmamaktadÄ±r',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

多語言支持：支持土耳其語、阿拉伯語、英語、德語、保加利亞語、匈牙利語、羅馬尼亞語、斯洛伐克語、波蘭語、捷克語、希臘語等多種語言。
電子商務優化：針對電子商務語義搜索進行了優化，能夠更好地處理產品相關的查詢和文本。
語義理解：增強了對土耳其語和多語言查詢的理解，支持查詢改寫和釋義挖掘。
魯棒性強：對產品標籤和屬性提取具有較強的魯棒性，適用於聚類和產品分類。
高性能：在語義文本相似度方面表現出色，能夠準確地計算文本之間的相似度。

📦 安裝指南

首先，你需要安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

# 從 Hugging Face Hub 下載模型
matryoshka_dim = 768
model = SentenceTransformer("Trendyol/TY-ecomm-embed-multilingual-base-v1.2.0", trust_remote_code=True, truncate_dim=matryoshka_dim)
# 運行推理
sentences = [
    '120x190 yapÄ±yor musunuz',
    'merhaba 120 x 180 mevcÃ¼ttÃ¼r',
    'ÃœrÃ¼n stoklarÄ±mÄ±zda bulunmamaktadÄ±r',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	Sentence Transformer
最大序列長度	384 個標記
輸出維度	768 維
Matryoshka 維度	768, 512, 128
相似度函數	餘弦相似度
訓練數據集	多語言和土耳其語搜索詞、土耳其語指令數據集、土耳其語摘要數據集、土耳其語電子商務改寫數據集、土耳其語問答對等等

模型來源

文檔：Sentence Transformers 文檔
倉庫：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Sentence Transformers

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

🔧 技術細節

訓練細節

損失函數：MatryoshkaLoss，參數如下：

{
    "loss": "CachedMultipleNegativesSymmetricRankingLoss",
    "matryoshka_dims": [
        768,
        512,
        128
    ],
    "matryoshka_weights": [
        1,
        1,
        1
    ],
    "n_dims_per_step": -1
}

訓練超參數

非默認超參數

overwrite_output_dir: True
eval_strategy: steps
per_device_train_batch_size: 2048
per_device_eval_batch_size: 128
learning_rate: 0.0005
num_train_epochs: 1
warmup_ratio: 0.01
fp16: True
ddp_timeout: 300000
batch_sampler: no_duplicates

框架版本

Python: 3.11.11
Sentence Transformers: 3.4.1
Transformers: 4.48.1
PyTorch: 2.5.1+cu124
Accelerate: 1.5.1
Datasets: 2.21.0
Tokenizers: 0.21.1

📄 許可證

本模型使用 Apache-2.0 許可證。

⚠️ 重要提示

雖然該模型在與電子商務相關的數據集（包括多語言和土耳其語數據）上進行了訓練，但用戶應注意以下幾點限制：

領域偏差：對於電子商務或產品相關領域之外的內容（如法律、醫學或高度技術性的文本），模型性能可能會下降。
語言覆蓋：儘管包含了多語言數據，但大部分數據集是用土耳其語創建的。
輸入長度限制：超過最大序列長度（384 個標記）的輸入將被截斷，可能會丟失長文本中的關鍵上下文信息。
虛假相似度：語義相似度可能會錯誤地為不相關但詞彙相似或在訓練數據中頻繁共現的短語分配高相似度分數。

💡 使用建議

人工監督：建議在輸出中加入人工審核層或使用過濾器來管理和提高輸出質量，特別是在面向公眾的應用中。這種方法可以幫助降低意外生成不良內容的風險。
特定應用測試：打算使用 Trendyol 嵌入模型的開發者應針對其特定應用進行全面的安全測試和優化。這一點至關重要，因為模型的輸出有時可能存在偏差或不準確。
負責任的開發和部署：Trendyol 嵌入模型的開發者和用戶有責任確保其道德和安全應用。我們敦促用戶注意模型的侷限性，並採取適當的保障措施，以防止濫用或產生有害後果。

📖 引用

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}