halong_embedding開源越南語文本嵌入模型 - 助力RAG和生產效率提升

首頁

Halong Embedding

由hiieu開發

專注於RAG（檢索增強生成）和生產效率的越南語文本嵌入模型，基於intfloat/multilingual-e5-base微調

文本嵌入

Safetensors

支持多種語言開源協議:Apache-2.0 #越南語文本嵌入 #多語言語義檢索 #Matryoshka嵌入

下載量 7,651

發布時間 : 7/6/2024

模型概述

Halong Embedding是一款基於intfloat/multilingual-e5-base微調的sentence-transformers模型，專注于越南語文本嵌入，支持語義文本相似度、語義搜索、複述挖掘、文本分類、聚類等任務。

模型特點

Matryoshka嵌入

採用Matryoshka損失函數訓練，允許截斷嵌入向量而性能損失最小，提供更快的比較速度。

多語言支持

以越南語為主，同時支持多語言處理。

高效檢索

專注於RAG（檢索增強生成）和生產效率，優化了信息檢索性能。

模型能力

語義文本相似度計算

語義搜索

複述挖掘

文本分類

聚類分析

使用案例

信息檢索

法律文檔檢索

在Zalo法律檢索數據集上評估模型性能，用於快速查找相關法律文檔。

準確率@1達到0.8294，準確率@10達到0.9687

健康領域問答

健康益處查詢

檢索與健康益處相關的足球信息。

相關文檔按餘弦相似度排序，最高相似度0.7318

🚀 下龍嵌入模型（Halong Embedding）

下龍嵌入模型（Halong Embedding）是一款專注於檢索增強生成（RAG）和生產效率的越南語文本嵌入模型。它能將句子和段落映射到768維的密集向量空間，可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。

📚 該模型基於約100,000個問題及相關文檔的內部數據集進行訓練。
🪆 採用套娃損失（Matryoshka loss）進行訓練，允許在性能損失最小的情況下截斷嵌入向量，較小的嵌入向量比較起來更快。

這是一個基於 sentence-transformers 庫，從 intfloat/multilingual-e5-base 微調而來的模型。你可以在這裡找到評估和微調腳本，也可以查看我的研討會視頻。

🚀 快速開始

安裝依賴

首先，你需要安裝 sentence-transformers 庫：

pip install -U sentence-transformers

運行推理

以下是使用該模型進行推理的示例代碼：

from sentence_transformers import SentenceTransformer
import torch

# 從 🤗 Hub 下載模型
model = SentenceTransformer("hiieu/halong_embedding")

# 定義查詢語句和文檔
query = "Bóng đá có lợi ích gì cho sức khỏe?"
docs = [
    "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
    "Bóng đá là môn thể thao phổ biến nhất thế giới.",
    "Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
    "Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
    "Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
]

# 對查詢語句和文檔進行編碼
query_embedding = model.encode([query])
doc_embeddings = model.encode(docs)
similarities = model.similarity(query_embedding, doc_embeddings).flatten()

# 根據餘弦相似度對文檔進行排序
sorted_indices = torch.argsort(similarities, descending=True)
sorted_docs = [docs[idx] for idx in sorted_indices]
sorted_scores = [similarities[idx].item() for idx in sorted_indices]

# 打印排序後的文檔及其餘弦相似度得分
for doc, score in zip(sorted_docs, sorted_scores):
    print(f"Document: {doc} - Cosine Similarity: {score:.4f}")

# Document: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Cosine Similarity: 0.7318
# Document: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Cosine Similarity: 0.6623
# Document: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Cosine Similarity: 0.6102
# Document: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Cosine Similarity: 0.4988
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.4828

套娃嵌入推理

from sentence_transformers import SentenceTransformer
import torch.nn.functional as F
import torch

matryoshka_dim = 64
model = SentenceTransformer(
    "hiieu/halong_embedding",
    truncate_dim=matryoshka_dim,
)

# 定義查詢語句和文檔
query = "Bóng đá có lợi ích gì cho sức khỏe?"
docs = [
    "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
    "Bóng đá là môn thể thao phổ biến nhất thế giới.",
    "Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
    "Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
    "Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
]

# 對查詢語句和文檔進行編碼
query_embedding = model.encode([query])
doc_embeddings = model.encode(docs)
similarities = model.similarity(query_embedding, doc_embeddings).flatten()

# 根據餘弦相似度對文檔進行排序
sorted_indices = torch.argsort(similarities, descending=True)
sorted_docs = [docs[idx] for idx in sorted_indices]
sorted_scores = [similarities[idx].item() for idx in sorted_indices]

# 打印排序後的文檔及其餘弦相似度得分
for doc, score in zip(sorted_docs, sorted_scores):
    print(f"Document: {doc} - Cosine Similarity: {score:.4f}")

# Document: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Cosine Similarity: 0.8045
# Document: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Cosine Similarity: 0.7676
# Document: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Cosine Similarity: 0.6758
# Document: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Cosine Similarity: 0.5931
# Document: Bóng đá là môn thể thao phổ biến nhất thế giới. - Cosine Similarity: 0.5105

✨ 主要特性

專注越南語：該模型專注于越南語文本嵌入，在越南語相關任務上表現出色。
高效訓練：使用內部約100,000個問題及相關文檔的數據集進行訓練，保證了模型的質量。
靈活嵌入：採用套娃損失（Matryoshka loss）訓練，可截斷嵌入向量，在性能損失最小的情況下提高比較速度。
多用途：可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等多種任務。

📦 安裝指南

要使用該模型，你需要安裝 sentence-transformers 庫：

pip install -U sentence-transformers

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	句子轉換器（Sentence Transformer）
基礎模型	intfloat/multilingual-e5-base
最大序列長度	512 個標記
輸出維度	768 個標記
相似度函數	餘弦相似度
語言	以越南語為主，支持多語言
許可證	apache-2.0

模型來源

文檔：Sentence Transformers 文檔
倉庫：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Sentence Transformers

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

評估

指標

信息檢索

數據集：Zalo legal retrieval dataet
注意：我們對 Zalo Legal 訓練數據集的 20% 進行了採樣以進行快速測試；我們的模型未在該數據集上進行訓練。
使用 InformationRetrievalEvaluator 進行評估。

模型	Accuracy@1	Accuracy@3	Accuracy@5	Accuracy@10	Precision@1	Precision@3	Precision@5	Precision@10	Recall@1	Recall@3	Recall@5	Recall@10	NDCG@10	MRR@10	MAP@100
vietnamese-bi-encoder	0.8169	0.9108	0.9437	0.9640	0.8169	0.3099	0.1931	0.0987	0.8020	0.9045	0.9390	0.9601	0.8882	0.8685	0.8652
sup-SimCSE-VietNamese-phobert-base	0.5540	0.7308	0.7981	0.8748	0.5540	0.2473	0.1621	0.0892	0.5446	0.7246	0.7903	0.8693	0.7068	0.6587	0.6592
halong_embedding (768)	0.8294	0.9233	0.9437	0.9687	0.8294	0.3146	0.1931	0.0991	0.8146	0.9178	0.9390	0.9640	0.8976	0.8799	0.8763
halong_embedding (512)	0.8138	0.9233	0.9390	0.9703	0.8138	0.3146	0.1922	0.0992	0.7989	0.9178	0.9343	0.9656	0.8917	0.8715	0.8678
halong_embedding (256)	0.7934	0.8967	0.9280	0.9593	0.7934	0.3062	0.1900	0.0981	0.7786	0.8920	0.9233	0.9546	0.8743	0.8520	0.8489
halong_embedding (128)	0.7840	0.8951	0.9264	0.9515	0.7840	0.3046	0.1894	0.0975	0.7707	0.8889	0.9210	0.9476	0.8669	0.8439	0.8412
halong_embedding (64)	0.6980	0.8435	0.8920	0.9358	0.6980	0.2864	0.1815	0.0958	0.6854	0.8365	0.8842	0.9311	0.8145	0.7805	0.7775

📄 許可證

本項目採用 apache-2.0 許可證。

📝 引用

你可以按以下方式引用我們的工作：

@misc{HalongEmbedding,
  title={HalongEmbedding: A Vietnamese Text Embedding},
  author={Ngo Hieu},
  year={2024},
  publisher={Huggingface},
}

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning}, 
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}