sentence - camembert - baseオープンソースモデル - 高度なフランス語文の類似度計算機能を実現

ホーム

Sentence Camembert Base

Lajavanessによって開発

CamemBERTベースのフランス語文埋め込みモデル。強化SBERT手法でstsbデータセットにファインチューニングされ、最先端のフランス語文類似度計算を実現

テキスト埋め込み

Safetensors

フランス語オープンソースライセンス:Apache-2.0 #フランス語文類似度 #高精度埋め込み #テキストマッチング

ダウンロード数 1,041

リリース時間 : 10/25/2023

モデル概要

このモデルはフランス語文間の意味的類似度計算に特化しており、CamemBERTアーキテクチャを基盤とし強化SBERT手法で最適化されています。複数のフランス語テキスト類似度ベンチマークで優れた性能を発揮

モデル特徴

強化SBERT訓練手法

先進的な強化SBERT訓練戦略を採用し、CrossEncoderと大規模モデルを組み合わせたペアサンプリング最適化を実現

複数ベンチマークでの優れた性能

STS-B、STS12-frなどのフランス語テキスト類似度ベンチマークでリーダーボードを獲得

効率的なパラメータ規模

わずか1億1000万パラメータで、より大規模なモデルと同等あるいはそれ以上の性能を達成

モデル能力

フランス語文埋め込み

文類似度計算

意味的テキストマッチング

使用事例

情報検索

類似ドキュメント検索

フランス語ドキュメントコレクションから意味的に類似したドキュメントを検索

検索精度と再現率の向上

質問応答システム

質問類似度マッチング

ユーザーの質問とナレッジベースの質問間の意味的類似度を識別

QAシステムの精度向上

テキストクラスタリング

フランス語テキストクラスタリング

意味的類似度に基づきフランス語テキストを自動グループ化

教師なしテキスト分類の実現

🚀 sentence-camembert-base

この事前学習済みの文章埋め込みモデルは、フランス語の文章埋め込みにおける最先端技術です。

🚀 クイックスタート

このモデルは、dangvantuan/sentence-camembert-base をベースに、Augmented SBERT を用いて stsb データセットで微調整し、CrossEncoder-camembert-large と dangvantuan/sentence-camembert-large の2つのモデルを通じたペアサンプリング戦略を適用して改良されています。

✨ 主な機能

フランス語の文章埋め込みに最適化された事前学習済みモデル。
微調整とペアサンプリング戦略により、性能が向上しています。

📦 インストール

このモデルは sentence-transformers ライブラリを使用しており、以下のようにインストールできます。

pip install sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-base")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

高度な使用法

このモデルは、stsb のフランス語テストデータで以下のように評価できます。

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

評価結果

開発データセット

モデル	ピアソン相関係数	スピアマン相関係数	パラメータ数
Lajavaness/sentence-camembert-base	86.88	86.73	110M
dangvantuan/sentence-camembert-base	86.73	86.54	110M
inokufu/flaubert-base-uncased-xnli-sts	85.85	85.71	137M
distiluse-base-multilingual-cased	79.22	79.16	135M

テストデータセット（ピアソンスコア）

モデル	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	パラメータ数
Lajavaness/sentence-camembert-base	83.46	84.49	84.61	83.94	86.94	75.20	82.86	110M
inokufu/flaubert-base-uncased-xnli-sts	82.82	84.79	85.76	82.81	85.38	74.05	82.23	137M
dangvantuan/sentence-camembert-base	82.36	82.06	84.08	81.51	85.54	73.97	80.91	110M
sentence-transformers/distiluse-base-multilingual-cased-v2	78.63	72.51	67.25	70.12	79.93	66.67	77.76	135M
hugorosen/flaubert_base_uncased-xnli-sts	78.38	79.00	77.61	76.56	79.03	71.22	80.58	137M
antoinelouis/biencoder-camembert-base-mmarcoFR	76.97	71.43	73.50	70.56	78.44	71.23	77.62	110M

テストデータセット（スピアマンスコア）

モデル	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	パラメータ数
Lajavaness/sentence-camembert-base	82.92	77.71	84.19	81.83	87.04	76.81	76.36	110M
inokufu/flaubert-base-uncased-xnli-sts	83.07	77.34	85.88	80.96	85.70	76.43	77.00	137M
dangvantuan/sentence-camembert-base	81.64	75.45	83.86	78.63	85.66	75.36	74.18	110M
sentence-transformers/distiluse-base-multilingual-cased-v2	77.49	69.80	68.85	68.17	80.27	70.04	72.49	135M
hugorosen/flaubert_base_uncased-xnli-sts	76.93	68.96	77.62	71.87	79.33	72.86	73.91	137M
antoinelouis/biencoder-camembert-base-mmarcoFR	75.55	66.89	73.90	67.14	78.78	72.64	72.03	110M

📚 ドキュメント

このモデルに関する詳細な情報は、Hugging Faceのモデルページを参照してください。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

📚 引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}

@article{thakur2020augmented,
  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
  journal={arXiv e-prints},
  pages={arXiv--2010},
  year={2020}
}