camembert-base-lleqaオープンソースモデル - フランス語の法律情報検索用に特別設計され、テキストをベクトルに変換

ホーム

Camembert Base Lleqa

maastrichtlawtechによって開発

CamemBERTベースのフランス語文章埋め込みモデルで、フランス語法律情報検索タスクに特化して最適化されており、テキストを768次元ベクトル空間表現に変換できます。

テキスト埋め込み

PyTorch

フランス語オープンソースライセンス:Apache-2.0 #フランス語法律意味検索 #高再現率特徴抽出 #ベルギー法規Q&A

ダウンロード数 25

リリース時間 : 9/28/2023

モデル概要

このモデルはフランス語法律Q&AデータセットLLeQAでファインチューニングされた文章埋め込みモデルで、法律条項検索、意味的類似度計算などのタスクに適しており、フランス語法律テキストを効果的に処理できます。

モデル特徴

法律分野最適化

フランス語法律テキストに特化してファインチューニングされており、ベルギー法規検索タスクで優れた性能を発揮

効率的な意味符号化

任意の長さの文章/段落を固定768次元密ベクトルに符号化可能で、大規模検索に適している

対照学習トレーニング

Q&A-条項対照学習目標を採用し、関連法律条項を区別するモデルの能力を強化

モデル能力

フランス語文章埋め込み

意味的類似度計算

法律条項検索

テキスト特徴抽出

使用事例

法律情報検索

市民法律Q&Aシステム

自然言語質問に基づいて関連法律条項を自動検索

テストセットで58.27%のR@10再現率を達成

法規条項クラスタリング

法律条文を意味的にクラスタリング分析

ドキュメント処理

法律文書類似度比較

異なる法律文書間の意味的類似度を計算

🚀 camembert-base-lleqa

このモデルはsentence-transformersを使用しており、文章や段落を768次元の密ベクトル空間にマッピングします。クラスタリングや意味検索などのタスクに使用できます。このモデルは、フランス語の法的情報検索のためにLLeQAデータセットで学習されています。

🚀 クイックスタート

このモデルは、文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに使用できる。
フランス語の法的情報検索のために学習されている。

📦 インストール

Sentence-Transformers

sentence-transformersをインストールすると、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('maastrichtlawtech/camembert-base-lleqa')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

sentence-transformersを使用せずに、このモデルを使用することもできます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みの上に適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('maastrichtlawtech/camembert-base-lleqa')
model = AutoModel.from_pretrained('maastrichtlawtech/camembert-base-lleqa')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
print(sentence_embeddings)

📚 ドキュメント

評価

このモデルは、LLeQAのテストセットで評価されています。このセットは、27.9Kの候補記事の知識コーパスを持つ195の法的質問で構成されています。平均逆順位（MRR）、正規化割引累積ゲイン（NDCG）、平均平均精度（MAP）、およびさまざまなカットオフでの再現率（R@k）を報告しています。

MRR@10	NDCG@10	MAP@10	R@10	R@100	R@500
36.55	39.27	30.64	58.27	82.43	92.41

学習

背景

このモデルは、camembert-baseモデルを利用し、9.3Kのフランス語の質問-記事ペアで微調整されています。対照学習の目的で使用されており、与えられた短い法的質問に対して、サンプリングされた法的記事のセットの中から、実際にデータセットでペアになっている記事を予測する必要があります。正式には、バッチ内のすべての可能なペアからコサイン類似度を計算します。その後、真のペアと比較して温度0.05の交差エントロピー損失を適用します。

ハイパーパラメータ

このモデルは、32GBのメモリを持つ単一のTesla V100 GPUで20エポック（すなわち5.4kステップ）、バッチサイズ32で学習されました。AdamWオプティマイザを使用し、初期学習率は2e-05、重み減衰は0.01、最初の50ステップで学習率をウォームアップし、学習率を線形減衰させました。シーケンス長は384トークンに制限されています。

データ

このモデルは、Long-form Legal Question Answering (LLeQA)データセットを使用して微調整されています。LLeQAは、法的情報検索と質問応答を研究するためのフランス語のネイティブデータセットです。ベルギーの法律から収集された27,941の法定記事の知識コーパスと、ベルギーの市民によって提起され、経験豊富な法学者によってコーパスからの関連記事に根ざした包括的な回答でラベル付けされた1,868の法的質問で構成されています。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

🔧 技術詳細

属性	详情
パイプラインタグ	文章の類似度
言語	フランス語
ライセンス	Apache-2.0
データセット	maastrichtlawtech/lleqa
評価指標	再現率
タグ	特徴抽出、文章の類似度
ライブラリ名	sentence-transformers
推論	有効

📚 引用

@article{louis2023interpretable,
  author = {Louis, Antoine and van Dijck, Gijs and Spanakis, Gerasimos},
  title = {Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models},
  journal = {CoRR},
  volume = {abs/2309.17050},
  year = {2023},
  url = {https://arxiv.org/abs/2309.17050},
  eprinttype = {arXiv},
  eprint = {2309.17050},
}