GreenNode-Embedding-Large-VN-Mixed-V1開源模型 - 支持英越雙語語義相似度計算與檢索

首頁

Greennode Embedding Large VN Mixed V1

由GreenNode開發

這是一個基於sentence-transformers的越南語嵌入模型，支持英語和越南語，可將文本映射到1024維向量空間，用於語義相似度計算和檢索任務。

文本嵌入

Safetensors

支持多種語言開源協議:MIT #越南語語義檢索 #多語言混合嵌入 #高維向量表示

下載量 400

發布時間 : 4/11/2025

模型概述

該模型專門針對越南語優化，同時支持英語，適用於語義文本相似性、語義搜索、文本分類和聚類等任務。

模型特點

多語言支持

同時支持越南語和英語的文本嵌入

長文本處理

支持最大8192個標記的長文本序列

高性能檢索

在越南語文本檢索任務上表現優於同類模型

大向量空間

輸出1024維的密集向量表示

模型能力

語義文本相似度計算

語義搜索

文本分類

文本聚類

特徵提取

使用案例

信息檢索

法律文檔檢索

在法律文檔庫中檢索相關法律條文

在ZacLegalTextRetrieval數據集上達到74.95%的平均性能

表格數據檢索

從結構化表格中檢索相關信息

在GreenNodeTableRetrieval數據集上達到44.89%的平均性能

問答系統

越南語問答

構建越南語問答系統的檢索模塊

在VieQuADRetrieval數據集上達到56.86%的平均性能

🚀 SentenceTransformer

SentenceTransformer 是一個經過訓練的 sentence-transformers 模型。它可以將句子和段落映射到一個 1024 維的密集向量空間，可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。

🚀 快速開始

直接使用（Sentence Transformers）

首先安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

然後你可以加載這個模型並進行推理。

from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載
model = SentenceTransformer("GreenNode/GreenNode-Embedding-Large-VN-Mixed-V1")
# 進行推理
sentences = [
    'The weather is lovely today.',
    "It's so sunny outside!",
    'He drove to the stadium.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

多用途：可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等多種自然語言處理任務。
高維映射：能夠將句子和段落映射到 1024 維的密集向量空間。
支持多語言：支持越南語等多種語言。

📦 安裝指南

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載
model = SentenceTransformer("GreenNode/GreenNode-Embedding-Large-VN-Mixed-V1")
# 進行推理
sentences = [
    'The weather is lovely today.',
    "It's so sunny outside!",
    'He drove to the stadium.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	Sentence Transformer
最大序列長度	8192 個標記
輸出維度	1024 個標記
相似度函數	餘弦相似度
訓練數據集	GreenNode/GreenNode-Table-Markdown-Retrieval
語言	越南語

模型來源

文檔：Sentence Transformers 文檔
倉庫：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Sentence Transformers

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

評估

表：各模型在 GreenNodeTableRetrieval 上的性能比較

數據集：GreenNode/GreenNode-Table-Markdown-Retrieval

模型名稱	MAP@5 ↑	MRR@5 ↑	NDCG@5 ↑	Recall@5 ↑	Mean ↑
多語言嵌入模型
me5_small	33.75	33.75	35.68	41.49	36.17
me5_large	38.16	38.16	40.27	46.62	40.80
M3-Embedding	36.52	36.52	38.60	44.84	39.12
OpenAI-embedding-v3	30.61	30.61	32.57	38.46	33.06
越南語嵌入模型（先前工作）
halong-embedding	32.15	32.15	34.13	40.09	34.63
sup-SimCSE-VietNamese-phobert_base	10.90	10.90	12.03	15.41	12.31
vietnamese-bi-encoder	13.61	13.61	14.63	17.68	14.89
GreenNode-Embedding（我們的工作）
M3-GN-VN	41.85	41.85	44.15	57.05	46.23
M3-GN-VN-Mixed	42.08	42.08	44.33	51.06	44.89

表：各模型在 ZacLegalTextRetrieval 上的性能比較

數據集：GreenNode/zalo-ai-legal-text-retrieval-vn

模型名稱	MAP@5 ↑	MRR@5 ↑	NDCG@5 ↑	Recall@5 ↑	Mean ↑
多語言嵌入模型
me5_small	54.68	54.37	58.32	69.16	59.13
me5_large	60.14	59.62	64.17	76.02	64.99
M3-Embedding	69.34	68.96	73.70	86.68	74.67
OpenAI-embedding-v3	38.68	38.80	41.53	49.94	41.74
越南語嵌入模型（先前工作）
halong-embedding	52.57	52.28	56.64	68.72	57.55
sup-SimCSE-VietNamese-phobert_base	25.15	25.07	27.81	35.79	28.46
vietnamese-bi-encoder	54.88	54.47	59.10	79.51	61.99
GreenNode-Embedding（我們的工作）
M3-GN-VN	65.03	64.80	69.19	81.66	70.17
M3-GN-VN-Mixed	69.75	69.28	74.01	86.74	74.95

表：各模型在 VieQuADRetrieval 上的性能比較

數據集：taidng/UIT-ViQuAD2.0

模型名稱	MAP@5 ↑	MRR@5 ↑	NDCG@5 ↑	Recall@5 ↑	Mean ↑
多語言嵌入模型
me5_small	40.42	69.21	50.05	50.71	52.60
me5_large	44.18	67.81	53.04	55.86	55.22
M3-Embedding	44.08	72.28	54.07	56.01	56.61
OpenAI-embedding-v3	32.39	53.97	40.48	43.02	42.47
越南語嵌入模型（先前工作）
halong-embedding	39.42	62.31	48.63	52.73	50.77
sup-SimCSE-VietNamese-phobert_base	20.45	35.99	26.73	29.59	28.19
vietnamese-bi-encoder	31.89	54.62	40.26	42.53	42.33
GreenNode-Embedding（我們的工作）
M3-GN-VN	42.85	71.98	52.90	54.25	55.50
M3-GN-VN-Mixed	44.20	72.64	54.30	56.30	56.86

表：各模型在 GreenNodeTableRetrieval 上的命中率比較

模型名稱	Hit Rate@1 ↑	Hit Rate@5 ↑	Hit Rate@10 ↑	Hit Rate@20 ↑
多語言嵌入模型
me5_small	38.99	53.37	59.28	65.09
me5_large	43.99	59.74	65.74	71.59
bge-m3	42.15	57.00	63.05	68.96
OpenAI-embedding-v3	-	-	-	-
越南語嵌入模型（先前工作）
halong-embedding	37.22	52.49	58.57	64.64
sup-SimCSE-VietNamese-phobert_base	14.00	24.74	30.32	36.44
vietnamese-bi-encoder	16.89	25.94	30.50	35.70
GreenNode-Embedding（我們的工作）
M3-GN-VN	48.31	64.60	70.83	76.46
M3-GN-VN-Mixed	47.94	64.24	70.43	76.14