🚀 ベトナム語埋め込みモデル
Vietnamese_Embeddingは、ベトナム語の検索能力を強化するために、BGE - M3モデル (https://huggingface.co/BAAI/bge-m3) をファインチューニングした埋め込みモデルです。
🚀 クイックスタート
Vietnamese_Embeddingは、ベトナム語の検索能力を向上させるために、BGE - M3モデルをベースにファインチューニングされた埋め込みモデルです。このモデルは、約30万のベトナム語のクエリ、肯定文書、否定文書のトリプレットで訓練され、最大シーケンス長は2048です。
✨ 主な機能
- ベトナム語の検索能力を強化するために、BGE - M3モデルをファインチューニング。
- 約30万のベトナム語のトリプレットデータで訓練。
- 最大シーケンス長2048で訓練。
📚 ドキュメント
モデルの詳細
モデルの説明
属性 |
詳情 |
モデルタイプ |
Sentence Transformer |
ベースモデル |
BAAI/bge-m3 |
最大シーケンス長 |
2048トークン |
出力次元数 |
1024次元 |
類似度関数 |
ドット積類似度 |
言語 |
ベトナム語 |
ライセンス |
Apache 2.0 |
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
import torch
model = SentenceTransformer("AITeamVN/Vietnamese_Embedding")
model.max_seq_length = 2048
sentences_1 = ["Trí tuệ nhân tạo là gì", "Lợi ích của giấc ngủ"]
sentences_2 = ["Trí tuệ nhân tạo là công nghệ giúp máy móc suy nghĩ và học hỏi như con người. Nó hoạt động bằng cách thu thập dữ liệu, nhận diện mẫu và đưa ra quyết định.",
"Giấc ngủ giúp cơ thể và não bộ nghỉ ngơi, hồi phục năng lượng và cải thiện trí nhớ. Ngủ đủ giấc giúp tinh thần tỉnh táo và làm việc hiệu quả hơn."]
query_embedding = model.encode(sentences_1)
doc_embeddings = model.encode(sentences_2)
similarity = query_embedding @ doc_embeddings.T
print(similarity)
'''
array([[0.66212064, 0.33066642],
[0.25866613, 0.5865289 ]], dtype=float32)
'''
評価
- データセット: Legal Zalo 2021の全訓練データセット。このモデルはこのデータセットで訓練されていません。
モデル |
Accuracy@1 |
Accuracy@3 |
Accuracy@5 |
Accuracy@10 |
MRR@10 |
Vietnamese_Reranker |
0.7944 |
0.9324 |
0.9537 |
0.9740 |
0.8672 |
Vietnamese_Embedding_v2 |
0.7262 |
0.8927 |
0.9268 |
0.9578 |
0.8149 |
Vietnamese_Embedding (public) |
0.7274 |
0.8992 |
0.9305 |
0.9568 |
0.8181 |
Vietnamese - bi - encoder (BKAI) |
0.7109 |
0.8680 |
0.9014 |
0.9299 |
0.7951 |
BGE - M3 |
0.5682 |
0.7728 |
0.8382 |
0.8921 |
0.6822 |
Vietnamese_RerankerとVietnamese_Embedding_v2は、110万のトリプレットで訓練されています。Vietnamese_Embedding_v2の法的ドメインでのスコアは多少低下しますが、このフェーズのデータがはるかに多いため、他のドメインにも非常に適しています。
あなたは以下のリンクから2つのモデルにアクセスできます: Vietnamese_Embedding_v2, Vietnamese_Reranker
評価結果は、Pythonコード evaluation_model.py
を実行することで再現できます (データはKaggleからダウンロード)。
お問い合わせ
Email: nguyennhotrung3004@gmail.com
開発者
メンバー: Nguyễn Nho Trung, Nguyễn Nhật Quang
引用
@misc{Vietnamese_Embedding,
title={Vietnamese_Embedding: Embedding model in Vietnamese language.},
author={Nguyen Nho Trung, Nguyen Nhat Quang},
year={2025},
publisher={Huggingface},
}
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。