halong_embedding开源越南语文本嵌入模型 - 助力RAG和生产效率提升

首页

Halong Embedding

由 hiieu 开发

专注于RAG（检索增强生成）和生产效率的越南语文本嵌入模型，基于intfloat/multilingual-e5-base微调

文本嵌入

Safetensors

支持多种语言开源协议:Apache-2.0 #越南语文本嵌入 #多语言语义检索 #Matryoshka嵌入

下载量 7,651

发布时间 : 7/6/2024

模型简介

Halong Embedding是一款基于intfloat/multilingual-e5-base微调的sentence-transformers模型，专注于越南语文本嵌入，支持语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务。

模型特点

Matryoshka嵌入

采用Matryoshka损失函数训练，允许截断嵌入向量而性能损失最小，提供更快的比较速度。

多语言支持

以越南语为主，同时支持多语言处理。

高效检索

专注于RAG（检索增强生成）和生产效率，优化了信息检索性能。

模型能力

语义文本相似度计算

语义搜索

复述挖掘

文本分类

聚类分析

使用案例

信息检索

法律文档检索

在Zalo法律检索数据集上评估模型性能，用于快速查找相关法律文档。

准确率@1达到0.8294，准确率@10达到0.9687

健康领域问答

健康益处查询

检索与健康益处相关的足球信息。

相关文档按余弦相似度排序，最高相似度0.7318

🚀 下龙嵌入模型（Halong Embedding）

下龙嵌入模型（Halong Embedding）是一款专注于检索增强生成（RAG）和生产效率的越南语文本嵌入模型。它能将句子和段落映射到768维的密集向量空间，可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。

📚 该模型基于约100,000个问题及相关文档的内部数据集进行训练。
🪆 采用套娃损失（Matryoshka loss）进行训练，允许在性能损失最小的情况下截断嵌入向量，较小的嵌入向量比较起来更快。

这是一个基于 sentence-transformers 库，从 intfloat/multilingual-e5-base 微调而来的模型。你可以在这里找到评估和微调脚本，也可以查看我的研讨会视频。

🚀 快速开始

安装依赖

首先，你需要安装 sentence-transformers 库：

pip install -U sentence-transformers

运行推理

以下是使用该模型进行推理的示例代码：

from sentence_transformers import SentenceTransformer
import torch

# 从 🤗 Hub 下载模型
model = SentenceTransformer("hiieu/halong_embedding")

# 定义查询语句和文档
query = "Bóng đá có lợi ích gì cho sức khỏe?"
docs = [
    "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
    "Bóng đá là môn thể thao phổ biến nhất thế giới.",
    "Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
    "Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
    "Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
]

# 对查询语句和文档进行编码
query_embedding = model.encode([query])
doc_embeddings = model.encode(docs)
similarities = model.similarity(query_embedding, doc_embeddings).flatten()

# 根据余弦相似度对文档进行排序
sorted_indices = torch.argsort(similarities, descending=True)
sorted_docs = [docs[idx] for idx in sorted_indices]
sorted_scores = [similarities[idx].item() for idx in sorted_indices]

# 打印排序后的文档及其余弦相似度得分
for doc, score in zip(sorted_docs, sorted_scores):
    print(f"Document: {doc} - Cosine Similarity: {score:.4f}")

# Document: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Cosine Similarity: 0.7318
# Document: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Cosine Similarity: 0.6623
# Document: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Cosine Similarity: 0.6102
# Document: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Cosine Similarity: 0.4988
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.4828

套娃嵌入推理

from sentence_transformers import SentenceTransformer
import torch.nn.functional as F
import torch

matryoshka_dim = 64
model = SentenceTransformer(
    "hiieu/halong_embedding",
    truncate_dim=matryoshka_dim,
)

# 定义查询语句和文档
query = "Bóng đá có lợi ích gì cho sức khỏe?"
docs = [
    "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
    "Bóng đá là môn thể thao phổ biến nhất thế giới.",
    "Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
    "Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
    "Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
]

# 对查询语句和文档进行编码
query_embedding = model.encode([query])
doc_embeddings = model.encode(docs)
similarities = model.similarity(query_embedding, doc_embeddings).flatten()

# 根据余弦相似度对文档进行排序
sorted_indices = torch.argsort(similarities, descending=True)
sorted_docs = [docs[idx] for idx in sorted_indices]
sorted_scores = [similarities[idx].item() for idx in sorted_indices]

# 打印排序后的文档及其余弦相似度得分
for doc, score in zip(sorted_docs, sorted_scores):
    print(f"Document: {doc} - Cosine Similarity: {score:.4f}")

# Document: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Cosine Similarity: 0.8045
# Document: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Cosine Similarity: 0.7676
# Document: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Cosine Similarity: 0.6758
# Document: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Cosine Similarity: 0.5931
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.5105

✨ 主要特性

专注越南语：该模型专注于越南语文本嵌入，在越南语相关任务上表现出色。
高效训练：使用内部约100,000个问题及相关文档的数据集进行训练，保证了模型的质量。
灵活嵌入：采用套娃损失（Matryoshka loss）训练，可截断嵌入向量，在性能损失最小的情况下提高比较速度。
多用途：可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等多种任务。

📦 安装指南

要使用该模型，你需要安装 sentence-transformers 库：

pip install -U sentence-transformers

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	句子转换器（Sentence Transformer）
基础模型	intfloat/multilingual-e5-base
最大序列长度	512 个标记
输出维度	768 个标记
相似度函数	余弦相似度
语言	以越南语为主，支持多语言
许可证	apache-2.0

模型来源

文档：Sentence Transformers 文档
仓库：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Sentence Transformers

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

评估

指标

信息检索

数据集：Zalo legal retrieval dataet
注意：我们对 Zalo Legal 训练数据集的 20% 进行了采样以进行快速测试；我们的模型未在该数据集上进行训练。
使用 InformationRetrievalEvaluator 进行评估。

模型	Accuracy@1	Accuracy@3	Accuracy@5	Accuracy@10	Precision@1	Precision@3	Precision@5	Precision@10	Recall@1	Recall@3	Recall@5	Recall@10	NDCG@10	MRR@10	MAP@100
vietnamese-bi-encoder	0.8169	0.9108	0.9437	0.9640	0.8169	0.3099	0.1931	0.0987	0.8020	0.9045	0.9390	0.9601	0.8882	0.8685	0.8652
sup-SimCSE-VietNamese-phobert-base	0.5540	0.7308	0.7981	0.8748	0.5540	0.2473	0.1621	0.0892	0.5446	0.7246	0.7903	0.8693	0.7068	0.6587	0.6592
halong_embedding (768)	0.8294	0.9233	0.9437	0.9687	0.8294	0.3146	0.1931	0.0991	0.8146	0.9178	0.9390	0.9640	0.8976	0.8799	0.8763
halong_embedding (512)	0.8138	0.9233	0.9390	0.9703	0.8138	0.3146	0.1922	0.0992	0.7989	0.9178	0.9343	0.9656	0.8917	0.8715	0.8678
halong_embedding (256)	0.7934	0.8967	0.9280	0.9593	0.7934	0.3062	0.1900	0.0981	0.7786	0.8920	0.9233	0.9546	0.8743	0.8520	0.8489
halong_embedding (128)	0.7840	0.8951	0.9264	0.9515	0.7840	0.3046	0.1894	0.0975	0.7707	0.8889	0.9210	0.9476	0.8669	0.8439	0.8412
halong_embedding (64)	0.6980	0.8435	0.8920	0.9358	0.6980	0.2864	0.1815	0.0958	0.6854	0.8365	0.8842	0.9311	0.8145	0.7805	0.7775

📄 许可证

本项目采用 apache-2.0 许可证。

📝 引用

你可以按以下方式引用我们的工作：

@misc{HalongEmbedding,
  title={HalongEmbedding: A Vietnamese Text Embedding},
  author={Ngo Hieu},
  year={2024},
  publisher={Huggingface},
}

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning}, 
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}