开源越南语文档嵌入模型 - 支持8096标记上下文，高效处理越南语文档

Home

Vietnamese Document Embedding

Developed by dangvantuan

针对越南语的文档嵌入模型，支持最长8096个标记的上下文，基于gte-multilingual训练

文本嵌入

Transformers

OtherOpen Source License:Apache-2.0 #越南语长文本嵌入 #多损失联合训练 #语义相似度计算

Downloads 77.61k

Release Time : 8/15/2024

Model Overview

这是一个专门为越南语训练的长文本嵌入模型，能够生成精确且上下文相关的句子嵌入，适用于越南语文本的语义相似度计算和文档检索等任务。

Model Features

长文本支持

支持最长8096个标记的上下文，适合处理越南语长文档

多阶段训练

经过XNLI自然语言推理和STS语义相似性两阶段训练，提升模型性能

先进损失函数

采用多负例排序损失、Matryoshka2dLoss和相似度损失进行训练

Model Capabilities

越南语文本嵌入

句子相似度计算

文档检索

语义特征提取

Use Cases

文本检索

越南语文档检索

使用该模型为越南语文档生成嵌入，实现高效的文档检索系统

语义分析

越南语句子相似度计算

计算越南语句子之间的语义相似度，用于问答系统或聊天机器人

在STS Benchmark上达到82.45的平均斯皮尔曼得分

🚀 越南语文档嵌入模型

本项目提供的 vietnamese-document-embedding 是一个专门为越南语设计的文档嵌入模型，其上下文长度可达 8096 个标记。该模型基于 gte-multilingual 构建，使用多负排名损失、Matryoshka2dLoss 和相似性损失进行训练，能够为越南语生成精确且与上下文相关的句子嵌入。

🚀 快速开始

使用此模型前，请确保你已经安装了 sentence-transformers：

pip install -U sentence-transformers

然后，你可以按照以下方式使用该模型：

from sentence_transformers import SentenceTransformer
sentences = ["Hà Nội là thủ đô của Việt Nam", "Đà Nẵng là thành phố du lịch"]

model = SentenceTransformer('dangvantuan/vietnamese-document-embedding', trust_remote_code=True)
embeddings = model.encode(sentences)
print(embeddings)

✨ 主要特性

长文本处理能力：支持上下文长度达 8096 个标记的长文本嵌入。
针对性训练：专门针对越南语进行训练，能够更好地处理越南语句子的语义。
多损失训练：使用多负排名损失、Matryoshka2dLoss 和相似性损失进行训练，提高模型的性能。

📦 安装指南

使用此模型前，请确保你已经安装了 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
sentences = ["Hà Nội là thủ đô của Việt Nam", "Đà Nẵng là thành phố du lịch"]

model = SentenceTransformer('dangvantuan/vietnamese-document-embedding', trust_remote_code=True)
embeddings = model.encode(sentences)
print(embeddings)

高级用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset

def convert_dataset(dataset):
    dataset_samples = []
    for df in dataset:
        score = float(df['score']) / 5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
vi_sts = load_dataset("doanhieung/vi-stsbenchmark")["train"]
df_dev = vi_sts.filter(lambda example: example['split'] == 'dev')
df_test = vi_sts.filter(lambda example: example['split'] == 'test')

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

📚 详细文档

模型描述

vietnamese-document-embedding 是一个针对越南语的文档嵌入模型，其上下文长度可达 8096 个标记。该模型基于 gte-multilingual 构建，使用多负排名损失、Matryoshka2dLoss 和相似性损失进行训练。

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: VietnameseModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

训练和微调过程

该模型经过了严格的四阶段训练和微调过程，每个阶段都旨在提高其为越南语生成精确且与上下文相关的句子嵌入的能力。以下是这些阶段的概述：

阶段 1：在数据集 XNLI 上训练 NLI

数据集：XNLI-vn
方法：使用多负排名损失和 Matryoshka2dLoss 进行训练。此阶段重点提高模型辨别和排名句子语义细微差别的能力。

阶段 2：在 STS 基准上进行语义文本相似性微调

数据集：STSB-vn
方法：使用配置了 'sentence-transformers' 库的 Siamese BERT-Networks 针对语义文本相似性基准进行微调。此阶段提高了模型在捕捉各种越南语文本语义相似性方面的精度。

评估

该模型可以在 Vienamese data of stsb 上进行如下评估：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset

def convert_dataset(dataset):
    dataset_samples = []
    for df in dataset:
        score = float(df['score']) / 5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
vi_sts = load_dataset("doanhieung/vi-stsbenchmark")["train"]
df_dev = vi_sts.filter(lambda example: example['split'] == 'dev')
df_test = vi_sts.filter(lambda example: example['split'] == 'test')

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

语义文本相似性 STS 基准所有数据集的指标

Spearman 分数

模型	[STSB]	[STS12]	[STS13]	[STS14]	[STS15]	[STS16]	[SICK]	平均值
dangvantuan/vietnamese-embedding	84.84	79.04	85.30	81.38	87.06	79.95	79.58	82.45
dangvantuan/vietnamese-embedding-LongContext	85.25	75.77	83.82	81.69	88.48	81.5	78.2	82.10

🔧 技术细节

该模型基于 gte-multilingual 构建，使用多负排名损失、Matryoshka2dLoss 和相似性损失进行训练。模型的完整架构包括一个 Transformer 层、一个池化层和一个归一化层。在训练和微调过程中，模型经过了严格的四阶段训练，每个阶段都针对越南语的特点进行了优化。

📄 许可证

本项目采用 Apache-2.0 许可证。

引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{zhang2024mgte,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
  author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
  journal={arXiv preprint arXiv:2407.19669},
  year={2024}
}

@article{li2023towards,
  title={Towards general text embeddings with multi-stage contrastive learning},
  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
  journal={arXiv preprint arXiv:2308.03281},
  year={2023}
}

@article{li20242d,
  title={2d matryoshka sentence embeddings},
  author={Li, Xianming and Li, Zongxi and Li, Jing and Xie, Haoran and Li, Qing},
  journal={arXiv preprint arXiv:2402.14776},
  year={2024}
}