bge-m3-spa-law-qaオープンソースモデル - 法律分野向けに最適化され、スペイン語のセマンティック検索と情報検索をサポート

ホーム

Bge M3 Spa Law Qa

littlejohn-aiによって開発

BAAI/bge-m3を微調整したスペイン語の文埋め込みモデルで、法律分野に特化して最適化されており、意味検索や情報検索タスクに適しています。

テキスト埋め込み

Safetensors

スペイン語オープンソースライセンス:Apache-2.0 #法律テキストの埋め込み #スペイン語の意味検索 #高次元ベクトル表現

ダウンロード数 309

リリース時間 : 7/22/2024

モデル概要

このモデルは文や段落を1024次元の密ベクトル空間にマッピングし、意味テキスト類似度、意味検索、复述マイニング、テキスト分類、クラスタリングなどの様々なタスクに使用でき、特に法律分野のスペイン語テキスト処理に適しています。

モデル特徴

法律分野の最適化

スペイン語の法律テキストに特化して微調整されており、法律分野の意味理解と検索タスクで優れた性能を発揮します。

長文サポート

最大8192トークンのシーケンス長をサポートし、法律文書などの長文テキストの処理に適しています。

高次元埋め込み

1024次元の密ベクトル表現を生成し、テキストの豊富な意味情報を捉えることができます。

多タスクサポート

意味類似度計算、情報検索、テキスト分類などの様々な自然言語処理タスクに使用できます。

モデル能力

意味テキスト類似度計算

意味検索

复述マイニング

テキスト分類

テキストクラスタリング

情報検索

使用事例

法律情報検索

法律質問応答システム

法律分野の質問応答システムの構築に使用し、関連する法律条文や判例を迅速に検索します。

評価でMAP@100スコア0.6991を達成しました

法律文書分析

大量の法律文書を分析して分類し、重要な情報を抽出します。

法律テキスト類似度計算

法律条文や契約条項などのテキスト間の意味類似度を計算します。

政府機関のアプリケーション

法令検索システム

政府職員が関連する法令や政策を迅速に検索するのを支援します。

🚀 BGE large Legal Spanish

このモデルは、sentence-transformers ライブラリに基づき、BAAI/bge-m3 から微調整されたものです。文章や段落を 1024 次元の密ベクトル空間にマッピングすることができ、意味的なテキスト類似度計算、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのタスクに利用できます。

🚀 クイックスタート

直接使用（Sentence Transformers）

まず、Sentence Transformers ライブラリをインストールします。

pip install -U sentence-transformers

次に、このモデルをロードして推論を行うことができます。

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载
model = SentenceTransformer("littlejohn-ai/bge-m3-spanish-boe-qa")
# 进行推理
sentences = [
    'El plazo máximo para resolver y notificar la resolución expresa que ponga fin al procedimiento será de nueve meses, a contar desde la fecha de inicio del procedimiento administrativo sancionador, que se corresponde con la fecha del acuerdo de incoación.',
    '¿Cuál es el plazo para la resolución del procedimiento sancionador en el caso de infracciones graves o muy graves?',
    '¿Cuál es el objetivo de la cooperación española para el desarrollo sostenible en relación con la igualdad de género?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主な機能

多タスク適用性：意味的なテキスト類似度計算、意味検索、言い換えマイニング、テキスト分類、クラスタリングなど、様々な自然言語処理タスクに使用できます。
長シーケンス処理：最大シーケンス長は 8192 トークンまでで、長いテキストを処理することができます。
高次元出力：出力次元は 1024 で、豊富な意味情報を捉えることができます。
コサイン類似度：類似度の測定にコサイン類似度を使用しており、意味的なマッチングが容易です。

📦 インストール

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载
model = SentenceTransformer("littlejohn-ai/bge-m3-spanish-boe-qa")
# 进行推理
sentences = [
    'El plazo máximo para resolver y notificar la resolución expresa que ponga fin al procedimiento será de nueve meses, a contar desde la fecha de inicio del procedimiento administrativo sancionador, que se corresponde con la fecha del acuerdo de incoación.',
    '¿Cuál es el plazo para la resolución del procedimiento sancionador en el caso de infracciones graves o muy graves?',
    '¿Cuál es el objetivo de la cooperación española para el desarrollo sostenible en relación con la igualdad de género?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 ドキュメント

モデル詳細

モデルの説明

属性	詳細
モデルタイプ	Sentence Transformer
ベースモデル	BAAI/bge-m3
最大シーケンス長	8192 トークン
出力次元	1024 トークン
類似度関数	コサイン類似度
言語	スペイン語
ライセンス	apache-2.0

モデルの出所

ドキュメント：Sentence Transformers ドキュメント
リポジトリ：GitHub 上の Sentence Transformers
Hugging Face：Hugging Face 上の Sentence Transformers

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

評価

情報検索指標

データセット	cosine_accuracy@1	cosine_accuracy@3	cosine_accuracy@5	cosine_accuracy@10	cosine_precision@1	cosine_precision@3	cosine_precision@5	cosine_precision@10	cosine_recall@1	cosine_recall@3	cosine_recall@5	cosine_recall@10	cosine_ndcg@10	cosine_mrr@10	cosine_map@100
dim_1024	0.6258	0.745	0.7834	0.8314	0.6258	0.2483	0.1567	0.0831	0.6258	0.745	0.7834	0.8314	0.7276	0.6945	0.6991
dim_768	0.6212	0.7488	0.7855	0.8298	0.6212	0.2496	0.1571	0.083	0.6212	0.7488	0.7855	0.8298	0.7263	0.6931	0.6978
dim_512	0.6186	0.7417	0.7813	0.8285	0.6186	0.2472	0.1563	0.0828	0.6186	0.7417	0.7813	0.8285	0.7231	0.6894	0.6939
dim_256	0.6077	0.7379	0.7741	0.8184	0.6077	0.246	0.1548	0.0818	0.6077	0.7379	0.7741	0.8184	0.713	0.6792	0.684
dim_128	0.5921	0.7101	0.7497	0.8019	0.5921	0.2367	0.1499	0.0802	0.5921	0.7101	0.7497	0.8019	0.6949	0.661	0.666
dim_64	0.5478	0.6696	0.7219	0.7708	0.5478	0.2232	0.1444	0.0771	0.5478	0.6696	0.7219	0.7708	0.6562	0.6199	0.6253

学習詳細

学習ハイパーパラメータ

非デフォルトのハイパーパラメータ

eval_strategy: epoch
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
gradient_accumulation_steps: 16
learning_rate: 2e-05
num_train_epochs: 50
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: True
tf32: True
load_best_model_at_end: True
optim: adamw_torch_fused
gradient_checkpointing: True
batch_sampler: no_duplicates

すべてのハイパーパラメータ

クリックして展開

overwrite_output_dir: False
do_predict: False
eval_strategy: epoch
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 16
eval_accumulation_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 50
max_steps: -1
lr_scheduler_type: cosine
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: True
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: True
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

学習ログ

クリックして展開

Epoch	Step	Training Loss	loss	dim_1024_cosine_map@100	dim_128_cosine_map@100	dim_256_cosine_map@100	dim_512_cosine_map@100	dim_64_cosine_map@100	dim_768_cosine_map@100
0.0599	5	1.9323	-	-	-	-	-	-	-
0.1199	10	1.9518	-	-	-	-	-	-	-
0.1798	15	1.6396	-	-	-	-	-	-	-
0.2397	20	1.4917	-	-	-	-	-	-	-
0.2996	25	1.6039	-	-	-	-	-	-	-
0.3596	30	1.5937	-	-	-	-	-	-	-
0.4195	35	1.6291	-	-	-	-	-	-	-
0.4794	40	1.4753	-	-	-	-	-	-	-
0.5393	45	1.5017	-	-	-	-	-	-	-
0.5993	50	1.1626	-	-	-	-	-	-	-
0.6592	55	1.3464	-	-	-	-	-	-	-
0.7191	60	1.2526	-	-	-	-	-	-	-
0.7790	65	1.0611	-	-	-	-	-	-	-
0.8390	70	0.8765	-	-	-	-	-	-	-
0.8989	75	1.1155	-	-	-	-	-	-	-
0.9588	80	1.0203	-	-	-	-	-	-	-
0.9948	83	-	0.7719	0.7324	0.6718	0.7088	0.7264	0.5874	0.7314
1.0187	85	0.9165	-	-	-	-	-	-	-
1.0787	90	1.0342	-	-	-	-	-	-	-
1.1386	95	1.0683	-	-	-	-	-	-	-
1.1985	100	0.8871	-	-	-	-	-	-	-
1.2584	105	0.7145	-	-	-	-	-	-	-
1.3184	110	0.8022	-	-	-	-	-	-	-
1.3783	115	0.9062	-	-	-	-	-	-	-
1.4382	120	0.7868	-	-	-	-	-	-	-
1.4981	125	0.9797	-	-	-	-	-	-	-
1.5581	130	0.7075	-	-	-	-	-	-	-
1.6180	135	0.7265	-	-	-	-	-	-	-
1.6779	140	0.8166	-	-	-	-	-	-	-
1.7378	145	0.659	-	-	-	-	-	-	-
1.7978	150	0.5744	-	-	-	-	-	-	-
1.8577	155	0.6818	-	-	-	-	-	-	-
1.9176	160	0.513	-	-	-	-	-	-	-
1.9775	165	0.6822	-	-	-	-	-	-	-
1.9895	166	-	0.5653	0.7216	0.6823	0.7047	0.7167	0.62	0.719
2.0375	170	0.6274	-	-	-	-	-	-	-
2.0974	175	0.6535	-	-	-	-	-	-	-
2.1573	180	0.595	-	-	-	-	-	-	-
2.2172	185	0.5968	-	-	-	-	-	-	-
2.2772	190	0.4913	-	-	-	-	-	-	-
2.3371	195	0.459	-	-	-	-	-	-	-
2.3970	200	0.5674	-	-	-	-	-	-	-
2.4569	205	0.4594	-	-	-	-	-	-	-
2.5169	210	0.6119	-	-	-	-	-	-	-
2.5768	215	0.3534	-	-	-	-	-	-	-
2.6367	220	0.4264	-	-	-	-	-	-	-
2.6966	225	0.5078	-	-	-	-	-	-	-
2.7566	230	0.4046	-	-	-	-	-	-	-
2.8165	235	0.2651	-	-	-	-	-	-	-
2.8764	240	0.4282	-	-	-	-	-	-	-
2.9363	245	0.3342	-	-	-	-	-	-	-
2.9963	250	0.3695	0.4851	0.7158	0.6818	0.7036	0.7134	0.6274	0.7163
3.0562	255	0.3598	-	-	-	-	-	-	-
3.1161	260	0.4304	-	-	-	-	-	-	-
3.1760	265	0.3588	-	-	-	-	-	-	-
3.2360	270	0.2714	-	-	-	-	-	-	-
3.2959	275	0.2657	-	-	-	-	-	-	-
3.3558	280	0.2575	-	-	-	-	-	-	-
3.4157	285	0.3314	-	-	-	-	-	-	-
3.4757	290	0.3018	-	-	-	-	-	-	-
3.5356	295	0.3443	-	-	-	-	-	-	-
3.5955	300	0.185	-	-	-	-	-	-	-
3.6554	305	0.2771	-	-	-	-	-	-	-
3.7154	310	0.2529	-	-	-	-	-	-	-
3.7753	315	0.184	-	-	-	-	-	-	-
3.8352	320	0.1514	-	-	-	-	-	-	-
3.8951	325	0.2335	-	-	-	-	-	-	-
3.9551	330	0.2045	-	-	-	-	-	-	-
3.9910	333	-	0.4436	0.7110	0.6719	0.6946	0.7063	0.6201	0.7119
4.0150	335	0.2053	-	-	-	-	-	-	-
4.0749	340	0.1771	-	-	-	-	-	-	-
4.1348	345	0.2444	-	-	-	-	-	-	-
4.1948	350	0.1765	-	-	-	-	-	-	-
4.2547	355	0.1278	-	-	-	-	-	-	-
4.3146	360	0.1262	-	-	-	-	-	-	-
4.3745	365	0.1546	-	-	-	-	-	-	-
4.4345	370	0.1441	-	-	-	-	-	-	-
4.4944	375	0.1974	-	-	-	-	-	-	-
4.5543	380	0.1331	-	-	-	-	-	-	-
4.6142	385	0.1239	-	-	-	-	-	-	-
4.6742	390	0.1376	-	-	-	-	-	-	-
4.7341	395	0.1133	-	-	-	-	-	-	-
4.7940	400	0.0893	-	-	-	-	-	-	-
4.8539	405	0.1184	-	-	-	-	-	-	-
4.9139	410	0.0917	-	-	-	-	-	-	-
4.9738	415	0.1231	-	-	-	-	-	-	-
4.9978	417	-	0.4321	0.7052	0.6651	0.6863	0.7048	0.6176	0.7067
5.0337	420	0.1021	-	-	-	-	-	-	-
5.0936	425	0.1436	-	-	-	-	-	-	-
5.1536	430	0.1032	-	-	-	-	-	-	-
5.2135	435	0.0942	-	-	-	-	-	-	-
5.2734	440	0.0819	-	-	-	-	-	-	-
5.3333	445	0.0724	-	-	-	-	-	-	-
5.3933	450	0.1125	-	-	-	-	-	-	-
5.4532	455	0.0893	-	-	-	-	-	-	-
5.5131	460	0.0919	-	-	-	-	-	-	-
5.5730	465	0.0914	-	-	-	-	-	-	-
5.6330	470	0.0728	-	-	-	-	-	-	-
5.6929	475	0.0781	-	-	-	-	-	-	-
5.7528	480	0.0561	-	-	-	-	-	-	-
5.8127	485	0.0419	-	-	-	-	-	-	-
5.8727	490	0.0816	-	-	-	-	-	-	-
5.9326	495	0.0599	-	-	-	-	-	-	-
5.9925	500	0.0708	0.4462	0.7026	0.6653	0.6848	0.6969	0.6195	0.7021
6.0524	505	0.0619	-	-	-	-	-	-	-
6.1124	510	0.0916	-	-	-	-	-	-	-
6.1723	515	0.0474	-	-	-	-	-	-	-
6.2322	520	0.0457	-	-	-	-	-	-	-
6.2921	525	0.0401	-	-	-	-	-	-	-
6.3521	530	0.0368	-	-	-	-	-	-	-
6.4120	535	0.0622	-	-	-	-	-	-	-
6.4719	540	0.0499	-	-	-	-	-	-	-
6.5318	545	0.0771	-	-	-	-	-	-	-
6.5918	550	0.041	-	-	-	-	-	-	-
6.6517	555	0.0457	-	-	-	-	-	-	-
6.7116	560	0.0413	-	-	-	-	-	-	-
6.7715	565	0.0287	-	-	-	-	-	-	-
6.8315	570	0.025	-	-	-	-	-	-	-
6.8914	575	0.0492	-	-	-	-	-	-	-
6.9513	580	0.0371	-	-	-	-	-	-	-
6.9993	584	-	0.4195	0.6991	0.6660	0.6840	0.6939	0.6253	0.6978

太字の行は保存されたチェックポイントを表します。

フレームワークのバージョン

Python: 3.10.12
Sentence Transformers: 3.0.1
Transformers: 4.42.3
PyTorch: 2.1.0+cu118
Accelerate: 0.32.1
Datasets: 2.20.0
Tokenizers: 0.19.1

🔧 技術詳細

微調整プロセス

BGE-M3 モデルの微調整は、高度な最適化技術とハイパーパラメータの調整によって行われ、法的文脈における高品質な埋め込みを生成する能力を向上させることに重点が置かれています。

方法

データセットの準備：23,700 個のエントリを含むデータセットを整理し、前処理しました。これには、さまざまな法的分野の詳細な質問、回答、およびコンテキストが含まれています。
学習：教師あり学習技術を適用して、モデルのパラメータを調整し、埋め込み生成の性能を最適化します。
評価：生成された埋め込みの品質と関連性を評価するために、特定の指標を実装し、高精度とコンテキストの一貫性を確保します。

結果と利点

埋め込みの品質

微調整された BGE-M3 モデルは、法的言語とコンテキストの複雑さを効果的に捉える能力が向上しており、情報検索の精度と関連性が大幅に向上しています。

実際の応用

情報検索システム：法的検索エンジンの精度が向上し、関連する文書や判例法に迅速にアクセスできるようになります。
バーチャルアシスタント：チャットボットや法的アシスタントが最適化され、複雑なコンテキストに基づいて正確な回答を提供できるようになります。
文書分析：大量の法的テキストから重要な情報を分析して抽出する能力が強化されます。

性能評価

埋め込みの精度：特定の法的クエリに対して生成される埋め込みの精度が 84% 向上しました。
コンテキストの関連性：検索された情報の一貫性と関連性が 67% 向上しました。
処理時間：関連情報の生成と検索に必要な時間が 16% 削減されました。

📄 ライセンス

このモデルは apache-2.0 ライセンスで提供されています。

引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning}, 
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

用語集

はじめに

私たちは、BGE-M3 モデルの微調整作業が完了したことを嬉しく思います。このモデルは、誘導型情報検索（RAG）アプリケーションに特化して最適化されています。この微調整では、23,700 個の法的質問、回答、およびコンテキストを含む詳細なデータセットを使用し、法的分野で正確かつ関連性の高い埋め込みを生成する能力を確保しています。