sentence - camembert - base開源模型 - 實現先進的法語句子相似度計算功能

首頁

Sentence Camembert Base

由Lajavaness開發

基於CamemBERT的法語句子嵌入模型，通過增強SBERT方法在stsb數據集上微調，實現最先進的法語句子相似度計算

文本嵌入

Safetensors

法語開源協議:Apache-2.0 #法語句子相似度 #高精度嵌入 #文本匹配

下載量 1,041

發布時間 : 10/25/2023

模型概述

該模型專門用於計算法語句子之間的語義相似度，基於CamemBERT架構並通過增強SBERT方法優化，在多個法語文本相似度基準測試中表現優異

模型特點

增強SBERT訓練方法

採用先進的增強SBERT訓練策略，結合CrossEncoder和大型模型進行配對採樣優化

多基準測試優異表現

在STS-B、STS12-fr等多個法語文本相似度基準測試中取得領先成績

高效參數規模

僅110M參數即達到與更大模型相當甚至更好的性能

模型能力

法語句子嵌入

句子相似度計算

語義文本匹配

使用案例

信息檢索

相似文檔檢索

在法語文檔庫中查找語義相似的文檔

提高檢索準確率和召回率

問答系統

問題相似度匹配

識別用戶問題與知識庫問題的語義相似度

提升問答系統準確率

文本聚類

法語文本聚類

基於語義相似度對法語文本進行自動分組

實現無監督的文本分類

🚀 法語句子嵌入預訓練模型

本項目提供的預訓練句子嵌入模型是法語句子嵌入領域的先進解決方案，可高效實現句子相似度計算等功能。

🚀 快速開始

預訓練的句子嵌入模型代表了法語句子嵌入的先進水平。此模型在 dangvantuan/sentence-camembert-base 的基礎上進行了改進。具體方法是，在 stsb 數據集上使用 Augmented SBERT 進行微調，並結合通過 CrossEncoder-camembert-large 和 dangvantuan/sentence-camembert-large 這兩個模型的配對採樣策略。

✨ 主要特性

先進技術：基於先進的 Transformer 架構，結合 Augmented SBERT 微調技術，提升句子嵌入效果。
多模型融合：通過兩個不同的模型進行配對採樣策略，增強模型性能。
廣泛應用：可用於句子相似度計算、文本分類等多種自然語言處理任務。

📦 安裝指南

原文檔未提及安裝步驟，此章節跳過。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-base")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

高級用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

📚 詳細文檔

評估結果

該模型可以在 stsb 的法語測試數據上進行如下評估。

測試結果：性能通過在 sts-benchmark 上的皮爾遜和斯皮爾曼相關性進行衡量：

開發集 | 模型 | 皮爾遜相關係數 | 斯皮爾曼相關係數 | 參數數量 | | ---- | ---- | ---- | ---- | | Lajavaness/sentence-camembert-base | 86.88 | 86.73 | 1.1 億 | | dangvantuan/sentence-camembert-base | 86.73 | 86.54 | 1.1 億 | | inokufu/flaubert-base-uncased-xnli-sts | 85.85 | 85.71 | 1.37 億 | | distiluse-base-multilingual-cased | 79.22 | 79.16 | 1.35 億 |
測試集：在多個不同的基準數據集上評估皮爾遜和斯皮爾曼相關性。

皮爾遜得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	參數數量
Lajavaness/sentence-camembert-base	83.46	84.49	84.61	83.94	86.94	75.20	82.86	1.1 億
inokufu/flaubert-base-uncased-xnli-sts	82.82	84.79	85.76	82.81	85.38	74.05	82.23	1.37 億
dangvantuan/sentence-camembert-base	82.36	82.06	84.08	81.51	85.54	73.97	80.91	1.1 億
sentence-transformers/distiluse-base-multilingual-cased-v2	78.63	72.51	67.25	70.12	79.93	66.67	77.76	1.35 億
hugorosen/flaubert_base_uncased-xnli-sts	78.38	79.00	77.61	76.56	79.03	71.22	80.58	1.37 億
antoinelouis/biencoder-camembert-base-mmarcoFR	76.97	71.43	73.50	70.56	78.44	71.23	77.62	1.1 億

斯皮爾曼得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	參數數量
Lajavaness/sentence-camembert-base	82.92	77.71	84.19	81.83	87.04	76.81	76.36	1.1 億
inokufu/flaubert-base-uncased-xnli-sts	83.07	77.34	85.88	80.96	85.70	76.43	77.00	1.37 億
dangvantuan/sentence-camembert-base	81.64	75.45	83.86	78.63	85.66	75.36	74.18	1.1 億
sentence-transformers/distiluse-base-multilingual-cased-v2	77.49	69.80	68.85	68.17	80.27	70.04	72.49	1.35 億
hugorosen/flaubert_base_uncased-xnli-sts	76.93	68.96	77.62	71.87	79.33	72.86	73.91	1.37 億
antoinelouis/biencoder-camembert-base-mmarcoFR	75.55	66.89	73.90	67.14	78.78	72.64	72.03	1.1 億

🔧 技術細節

原文檔未提供足夠的技術實現細節，此章節跳過。

📄 許可證

本項目採用 Apache 2.0 許可證。

📚 引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}

@article{thakur2020augmented,
  title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
  author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
  journal={arXiv e-prints},
  pages={arXiv--2010},
  year={2020}
}