Vietnamese_Embeddingオープンソースベトナム語埋め込みモデル

ホーム

Vietnamese Embedding

AITeamVNによって開発

BGE-M3をファインチューニングしたベトナム語埋め込みモデル、ベトナム語検索能力を強化

テキスト埋め込み

Safetensors

その他#ベトナム語検索強化 #長文埋め込み #法律分野最適化

ダウンロード数 14.26k

リリース時間 : 3/17/2025

モデル概要

Vietnamese_EmbeddingはBGE-M3モデルをファインチューニングした埋め込みモデルで、ベトナム語検索タスクに特化して最適化されており、約30万組のベトナム語クエリ、ポジティブドキュメント、ネガティブドキュメントのトリプルでトレーニングされています。

モデル特徴

ベトナム語最適化

ベトナム語検索タスクに特化してファインチューニングされ、ベトナム語テキストの埋め込み品質を向上

長文サポート

最大2048トークンのシーケンス長をサポート、長文書処理に適している

高性能

法律文書検索タスクにおいてベースモデルBGE-M3や他のベトナム語埋め込みモデルよりも優れた性能

モデル能力

ベトナム語テキスト埋め込み

文類似度計算

文書検索

使用事例

情報検索

法律文書検索

法律テキストデータセットで高精度な文書検索を実現

Legal Zalo 2021データセットでAccuracy@1が0.7274を達成

汎用文書検索

様々なベトナム語文書の検索タスクに適用可能

🚀 ベトナム語埋め込みモデル

Vietnamese_Embeddingは、ベトナム語の検索能力を強化するために、BGE - M3モデル (https://huggingface.co/BAAI/bge-m3) をファインチューニングした埋め込みモデルです。

🚀 クイックスタート

Vietnamese_Embeddingは、ベトナム語の検索能力を向上させるために、BGE - M3モデルをベースにファインチューニングされた埋め込みモデルです。このモデルは、約30万のベトナム語のクエリ、肯定文書、否定文書のトリプレットで訓練され、最大シーケンス長は2048です。

✨ 主な機能

ベトナム語の検索能力を強化するために、BGE - M3モデルをファインチューニング。
約30万のベトナム語のトリプレットデータで訓練。
最大シーケンス長2048で訓練。

📚 ドキュメント

モデルの詳細

モデルの説明

属性	詳情
モデルタイプ	Sentence Transformer
ベースモデル	BAAI/bge-m3
最大シーケンス長	2048トークン
出力次元数	1024次元
類似度関数	ドット積類似度
言語	ベトナム語
ライセンス	Apache 2.0

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
import torch

model = SentenceTransformer("AITeamVN/Vietnamese_Embedding")
model.max_seq_length = 2048
sentences_1 = ["Trí tuệ nhân tạo là gì", "Lợi ích của giấc ngủ"]
sentences_2 = ["Trí tuệ nhân tạo là công nghệ giúp máy móc suy nghĩ và học hỏi như con người. Nó hoạt động bằng cách thu thập dữ liệu, nhận diện mẫu và đưa ra quyết định.", 
               "Giấc ngủ giúp cơ thể và não bộ nghỉ ngơi, hồi phục năng lượng và cải thiện trí nhớ. Ngủ đủ giấc giúp tinh thần tỉnh táo và làm việc hiệu quả hơn."]
query_embedding = model.encode(sentences_1)
doc_embeddings = model.encode(sentences_2)
similarity = query_embedding @ doc_embeddings.T
print(similarity)

'''
array([[0.66212064, 0.33066642],
       [0.25866613, 0.5865289 ]], dtype=float32)
'''

評価

データセット: Legal Zalo 2021の全訓練データセット。このモデルはこのデータセットで訓練されていません。

モデル	Accuracy@1	Accuracy@3	Accuracy@5	Accuracy@10	MRR@10
Vietnamese_Reranker	0.7944	0.9324	0.9537	0.9740	0.8672
Vietnamese_Embedding_v2	0.7262	0.8927	0.9268	0.9578	0.8149
Vietnamese_Embedding (public)	0.7274	0.8992	0.9305	0.9568	0.8181
Vietnamese - bi - encoder (BKAI)	0.7109	0.8680	0.9014	0.9299	0.7951
BGE - M3	0.5682	0.7728	0.8382	0.8921	0.6822

Vietnamese_RerankerとVietnamese_Embedding_v2は、110万のトリプレットで訓練されています。Vietnamese_Embedding_v2の法的ドメインでのスコアは多少低下しますが、このフェーズのデータがはるかに多いため、他のドメインにも非常に適しています。

あなたは以下のリンクから2つのモデルにアクセスできます: Vietnamese_Embedding_v2, Vietnamese_Reranker

評価結果は、Pythonコード evaluation_model.py を実行することで再現できます (データはKaggleからダウンロード)。

お問い合わせ

Email: nguyennhotrung3004@gmail.com

開発者 メンバー: Nguyễn Nho Trung, Nguyễn Nhật Quang

引用

@misc{Vietnamese_Embedding,
  title={Vietnamese_Embedding: Embedding model in Vietnamese language.},
  author={Nguyen Nho Trung, Nguyen Nhat Quang},
  year={2025},
  publisher={Huggingface},
}