ホーム

Greennode Embedding Large VN V1

GreenNodeによって開発

これはベトナム語に最適化された文埋め込みモデルで、テキストを1024次元ベクトルに変換でき、意味的類似性や検索タスクに適しています。

テキスト埋め込み

Safetensors

その他#ベトナム語意味検索 #高次元ベクトル埋め込み #表データ最適化

ダウンロード数 785

リリース時間 : 4/11/2025

モデル概要

XLM-RoBERTaアーキテクチャに基づく文埋め込みモデルで、ベトナム語テキストに特化して最適化されており、意味的類似性計算、テキスト検索、クラスタリングなどのタスクをサポートします。

モデル特徴

ベトナム語最適化

ベトナム語テキストに特化して訓練されており、ベトナム語検索タスクで汎用多言語モデルよりも優れた性能を発揮します

長文サポート

最大8192トークンのシーケンス長をサポートし、長いドキュメントの処理に適しています

高性能検索

複数のベトナム語検索ベンチマークで優れた性能を示し、特に表検索タスクで顕著です

モデル能力

意味的テキスト類似性計算

意味検索

テキストクラスタリング

テキスト分類

言い換えマイニング

使用事例

情報検索

法律文書検索

法律テキストライブラリから関連文書を迅速に検索

Zac法律文書検索データセットで74.95%の平均性能を達成

表データ検索

構造化された表データから関連情報を検索

GreenNode表検索データセットで46.23%の平均性能を達成

質問応答システム

ベトナム語Q&A

ベトナム語質問応答システムの検索コンポーネントを構築

VieQuADデータセットで56.86%の平均性能を達成

datasets:

GreenNode/GreenNode-Table-Markdown-Retrieval language:
vi library_name: sentence-transformers pipeline_tag: sentence-similarity tags:
sentence-transformers
sentence-similarity
feature-extraction widget: [] metrics:
InfoNCE license: cc-by-4.0

SentenceTransformer

これはsentence-transformersモデルです。文や段落を1024次元の密なベクトル空間にマッピングし、意味的なテキスト類似性、意味検索、パラフレーズマイニング、テキスト分類、クラスタリングなどに使用できます。

モデル詳細

モデル説明

モデルタイプ: センテンストランスフォーマー

最大シーケンス長: 8192トークン
出力次元数: 1024トークン
類似度関数: コサイン類似度
トレーニングデータセット: - GreenNode/GreenNode-Table-Markdown-Retrieval
言語: ベトナム語
ライセンス: cc-by-4.0

モデルソース

ドキュメント: センテンストランスフォーマードキュメント
リポジトリ: GitHubのセンテンストランスフォーマー
Hugging Face: Hugging Faceのセンテンストランスフォーマー

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

使用方法

直接使用（センテンストランスフォーマー）

まずセンテンストランスフォーマーライブラリをインストール:

pip install -U sentence-transformers

その後、このモデルをロードして推論を実行できます。

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("sentence_transformers_model_id")
# 推論実行
sentences = [
    '今日は天気が良いです。',
    "外はとても晴れています！",
    '彼はスタジアムまで車で行きました。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 埋め込みの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

トレーニング詳細

評価

表: GreenNodeTableRetrievalにおける各種モデルの性能比較

データセット: GreenNode/GreenNode-Table-Markdown-Retrieval

モデル名	MAP@5 ↑	MRR@5 ↑	NDCG@5 ↑	Recall@5 ↑	平均 ↑
多言語埋め込みモデル
me5_small	33.75	33.75	35.68	41.49	36.17
me5_large	38.16	38.16	40.27	46.62	40.80
M3-Embedding	36.52	36.52	38.60	44.84	39.12
OpenAI-embedding-v3	30.61	30.61	32.57	38.46	33.06
ベトナム語埋め込みモデル（先行研究）
halong-embedding	32.15	32.15	34.13	40.09	34.63
sup-SimCSE-VietNamese-phobert_base	10.90	10.90	12.03	15.41	12.31
vietnamese-bi-encoder	13.61	13.61	14.63	17.68	14.89
GreenNode-Embedding（当社研究）
M3-GN-VN	41.85	41.85	44.15	57.05	46.23
M3-GN-VN-Mixed	42.08	42.08	44.33	51.06	44.89

表: ZacLegalTextRetrievalにおける各種モデルの性能比較

データセット: GreenNode/zalo-ai-legal-text-retrieval-vn

モデル名	MAP@5 ↑	MRR@5 ↑	NDCG@5 ↑	Recall@5 ↑	平均 ↑
多言語埋め込みモデル
me5_small	54.68	54.37	58.32	69.16	59.13
me5_large	60.14	59.62	64.17	76.02	64.99
M3-Embedding	69.34	68.96	73.70	86.68	74.67
OpenAI-embedding-v3	38.68	38.80	41.53	49.94	41.74
ベトナム語埋め込みモデル（先行研究）
halong-embedding	52.57	52.28	56.64	68.72	57.55
sup-SimCSE-VietNamese-phobert_base	25.15	25.07	27.81	35.79	28.46
vietnamese-bi-encoder	54.88	54.47	59.10	79.51	61.99
GreenNode-Embedding（当社研究）
M3-GN-VN	65.03	64.80	69.19	81.66	70.17
M3-GN-VN-Mixed	69.75	69.28	74.01	86.74	74.95

表: VieQuADRetrievalにおける各種モデルの性能比較

データセット: taidng/UIT-ViQuAD2.0

モデル名	MAP@5 ↑	MRR@5 ↑	NDCG@5 ↑	Recall@5 ↑	平均 ↑
多言語埋め込みモデル
me5_small	40.42	69.21	50.05	50.71	52.60
me5_large	44.18	67.81	53.04	55.86	55.22
M3-Embedding	44.08	72.28	54.07	56.01	56.61
OpenAI-embedding-v3	32.39	53.97	40.48	43.02	42.47
ベトナム語埋め込みモデル（先行研究）
halong-embedding	39.42	62.31	48.63	52.73	50.77
sup-SimCSE-VietNamese-phobert_base	20.45	35.99	26.73	29.59	28.19
vietnamese-bi-encoder	31.89	54.62	40.26	42.53	42.33
GreenNode-Embedding（当社研究）
M3-GN-VN	42.85	71.98	52.90	54.25	55.50
M3-GN-VN-Mixed	44.20	72.64	54.30	56.30	56.86

表: GreenNodeTableRetrievalにおける各種モデルの性能比較（ヒット率）

モデル名	ヒット率@1 ↑	ヒット率@5 ↑	ヒット率@10 ↑	ヒット率@20 ↑
多言語埋め込みモデル
me5_small	38.99	53.37	59.28	65.09
me5_large	43.99	59.74	65.74	71.59
bge-m3	42.15	57.00	63.05	68.96
OpenAI-embedding-v3	-	-	-	-
ベトナム語埋め込みモデル（先行研究）
halong-embedding	37.22	52.49	58.57	64.64
sup-SimCSE-VietNamese-phobert_base	14.00	24.74	30.32	36.44
vietnamese-bi-encoder	16.89	25.94	30.50	35.70
GreenNode-Embedding（当社研究）
M3-GN-VN	48.31	64.60	70.83	76.46
M3-GN-VN-Mixed	47.94	64.24	70.43	76.14