datasets:
- GreenNode/GreenNode-Table-Markdown-Retrieval
language:
- vi
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
widget: []
metrics:
- InfoNCE
license: cc-by-4.0
SentenceTransformer
これはsentence-transformersモデルです。文や段落を1024次元の密なベクトル空間にマッピングし、意味的なテキスト類似性、意味検索、パラフレーズマイニング、テキスト分類、クラスタリングなどに使用できます。
モデル詳細
モデル説明
- 最大シーケンス長: 8192トークン
- 出力次元数: 1024トークン
- 類似度関数: コサイン類似度
- トレーニングデータセット: - GreenNode/GreenNode-Table-Markdown-Retrieval
- 言語: ベトナム語
- ライセンス: cc-by-4.0
モデルソース
完全なモデルアーキテクチャ
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方法
直接使用(センテンストランスフォーマー)
まずセンテンストランスフォーマーライブラリをインストール:
pip install -U sentence-transformers
その後、このモデルをロードして推論を実行できます。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sentence_transformers_model_id")
sentences = [
'今日は天気が良いです。',
"外はとても晴れています!",
'彼はスタジアムまで車で行きました。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
トレーニング詳細
評価
表: GreenNodeTableRetrievalにおける各種モデルの性能比較
データセット: GreenNode/GreenNode-Table-Markdown-Retrieval
モデル名 |
MAP@5 ↑ |
MRR@5 ↑ |
NDCG@5 ↑ |
Recall@5 ↑ |
平均 ↑ |
多言語埋め込みモデル |
|
|
|
|
|
me5_small |
33.75 |
33.75 |
35.68 |
41.49 |
36.17 |
me5_large |
38.16 |
38.16 |
40.27 |
46.62 |
40.80 |
M3-Embedding |
36.52 |
36.52 |
38.60 |
44.84 |
39.12 |
OpenAI-embedding-v3 |
30.61 |
30.61 |
32.57 |
38.46 |
33.06 |
ベトナム語埋め込みモデル(先行研究) |
|
|
|
|
|
halong-embedding |
32.15 |
32.15 |
34.13 |
40.09 |
34.63 |
sup-SimCSE-VietNamese-phobert_base |
10.90 |
10.90 |
12.03 |
15.41 |
12.31 |
vietnamese-bi-encoder |
13.61 |
13.61 |
14.63 |
17.68 |
14.89 |
GreenNode-Embedding(当社研究) |
|
|
|
|
|
M3-GN-VN |
41.85 |
41.85 |
44.15 |
57.05 |
46.23 |
M3-GN-VN-Mixed |
42.08 |
42.08 |
44.33 |
51.06 |
44.89 |
表: ZacLegalTextRetrievalにおける各種モデルの性能比較
データセット: GreenNode/zalo-ai-legal-text-retrieval-vn
モデル名 |
MAP@5 ↑ |
MRR@5 ↑ |
NDCG@5 ↑ |
Recall@5 ↑ |
平均 ↑ |
多言語埋め込みモデル |
|
|
|
|
|
me5_small |
54.68 |
54.37 |
58.32 |
69.16 |
59.13 |
me5_large |
60.14 |
59.62 |
64.17 |
76.02 |
64.99 |
M3-Embedding |
69.34 |
68.96 |
73.70 |
86.68 |
74.67 |
OpenAI-embedding-v3 |
38.68 |
38.80 |
41.53 |
49.94 |
41.74 |
ベトナム語埋め込みモデル(先行研究) |
|
|
|
|
|
halong-embedding |
52.57 |
52.28 |
56.64 |
68.72 |
57.55 |
sup-SimCSE-VietNamese-phobert_base |
25.15 |
25.07 |
27.81 |
35.79 |
28.46 |
vietnamese-bi-encoder |
54.88 |
54.47 |
59.10 |
79.51 |
61.99 |
GreenNode-Embedding(当社研究) |
|
|
|
|
|
M3-GN-VN |
65.03 |
64.80 |
69.19 |
81.66 |
70.17 |
M3-GN-VN-Mixed |
69.75 |
69.28 |
74.01 |
86.74 |
74.95 |
表: VieQuADRetrievalにおける各種モデルの性能比較
データセット: taidng/UIT-ViQuAD2.0
モデル名 |
MAP@5 ↑ |
MRR@5 ↑ |
NDCG@5 ↑ |
Recall@5 ↑ |
平均 ↑ |
多言語埋め込みモデル |
|
|
|
|
|
me5_small |
40.42 |
69.21 |
50.05 |
50.71 |
52.60 |
me5_large |
44.18 |
67.81 |
53.04 |
55.86 |
55.22 |
M3-Embedding |
44.08 |
72.28 |
54.07 |
56.01 |
56.61 |
OpenAI-embedding-v3 |
32.39 |
53.97 |
40.48 |
43.02 |
42.47 |
ベトナム語埋め込みモデル(先行研究) |
|
|
|
|
|
halong-embedding |
39.42 |
62.31 |
48.63 |
52.73 |
50.77 |
sup-SimCSE-VietNamese-phobert_base |
20.45 |
35.99 |
26.73 |
29.59 |
28.19 |
vietnamese-bi-encoder |
31.89 |
54.62 |
40.26 |
42.53 |
42.33 |
GreenNode-Embedding(当社研究) |
|
|
|
|
|
M3-GN-VN |
42.85 |
71.98 |
52.90 |
54.25 |
55.50 |
M3-GN-VN-Mixed |
44.20 |
72.64 |
54.30 |
56.30 |
56.86 |
表: GreenNodeTableRetrievalにおける各種モデルの性能比較(ヒット率)
モデル名 |
ヒット率@1 ↑ |
ヒット率@5 ↑ |
ヒット率@10 ↑ |
ヒット率@20 ↑ |
多言語埋め込みモデル |
|
|
|
|
me5_small |
38.99 |
53.37 |
59.28 |
65.09 |
me5_large |
43.99 |
59.74 |
65.74 |
71.59 |
bge-m3 |
42.15 |
57.00 |
63.05 |
68.96 |
OpenAI-embedding-v3 |
- |
- |
- |
- |
ベトナム語埋め込みモデル(先行研究) |
|
|
|
|
halong-embedding |
37.22 |
52.49 |
58.57 |
64.64 |
sup-SimCSE-VietNamese-phobert_base |
14.00 |
24.74 |
30.32 |
36.44 |
vietnamese-bi-encoder |
16.89 |
25.94 |
30.50 |
35.70 |
GreenNode-Embedding(当社研究) |
|
|
|
|
M3-GN-VN |
48.31 |
64.60 |
70.83 |
76.46 |
M3-GN-VN-Mixed |
47.94 |
64.24 |
70.43 |
76.14 |
フレームワークバージョン
- Python: 3.10.14
- センテンストランスフォーマー: 3.0.1
- トランスフォーマー: 4.42.4
- PyTorch: 2.3.1
- Accelerate: 0.33.0
- データセット: 2.20.0
- トークナイザー: 0.19.1