sentence-camembert-large開源法語句子嵌入模型 - 免費提供強大語義搜索能力

首頁

Sentence Camembert Large

由Lajavaness開發

基於CamemBERT-large的法語句子嵌入模型，提供強大的語義搜索能力

文本嵌入法語開源協議:Apache-2.0 #法語句子嵌入 #語義搜索 #高精度相似度

下載量 3,729

發布時間 : 10/25/2023

模型概述

該模型旨在將法語句子的內容和語義表示為數學向量，使其能夠理解查詢和文檔中文本的含義，而不僅僅是單個單詞。

模型特點

強大的語義理解能力

能夠理解法語句子的深層語義，而不僅僅是表面詞彙

改進的魯棒性

相比基礎版本，在所有STS基準數據集上表現更優

結合Augmented SBERT訓練

使用配對採樣策略增強模型性能

模型能力

法語句子嵌入

語義相似度計算

語義搜索

使用案例

信息檢索

語義搜索

基於語義而非關鍵詞匹配的文檔檢索

提高搜索相關性和準確性

文本分析

句子相似度計算

計算兩個法語句子之間的語義相似度

皮爾遜相關係數達88.63

🚀 句子CamemBERT大模型

句子CamemBERT大模型是由La Javaness開發的法語嵌入模型。該模型旨在將法語句子的內容和語義表示為數學向量，使模型在查詢和文檔中理解文本含義時，能夠超越單個單詞的層面，具備強大的語義搜索能力。

🚀 快速開始

本模型可直接使用（無需語言模型），以下是使用示例：

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

✨ 主要特性

該Lajavaness/sentence-camembert-large模型是對dangvantuan/sentence-camembert-base的改進，在所有STS基準數據集上具有更強的魯棒性和更好的性能。
它使用預訓練的facebook/camembert-large和Siamese BERT-Networks with 'sentences-transformers'在stsb數據集上進行微調。
此外，它還在stsb數據集上結合了Augmented SBERT。
該模型受益於使用兩個模型的配對採樣策略：CrossEncoder-camembert-large和dangvantuan/sentence-camembert-large。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

高級用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

📚 詳細文檔

評估

該模型可以在stsb的法語測試數據上進行如下評估：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

測試結果

性能使用皮爾遜和斯皮爾曼相關性進行衡量：

開發集

模型	皮爾遜相關係數	斯皮爾曼相關係數	參數數量
Lajavaness/sentence-camembert-large	88.63	88.46	336M
dangvantuan/sentence-camembert-large	88.2	88.02	336M
Sahajtomar/french_semanti	87.44	87.30	336M
Lajavaness/sentence-flaubert-base	87.14	87.10	137M
GPT-3 (text-davinci-003)	85	無	175B
GPT-(text-embedding-ada-002)	79.75	80.44	無

測試集

在許多不同的基準數據集上評估皮爾遜和斯皮爾曼相關性：

皮爾遜得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	參數數量
Lajavaness/sentence-camembert-large	86.26	87.42	89.34	88.05	88.91	77.15	83.13	336M
dangvantuan/sentence-camembert-large	85.88	87.28	89.25	87.91	88.54	76.90	83.26	336M
Sahajtomar/french_semantic	85.80	86.05	88.50	86.57	87.49	77.85	83.27	336M
Lajavaness/sentence-flaubert-base	85.39	86.64	87.24	85.68	87.99	75.78	82.84	137M
GPT3 (text-embedding-ada-002)	79.03	66.16	75.48	70.69	77.88	65.18	-	-

斯皮爾曼得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	參數數量
Lajavaness/sentence-camembert-large	86.14	81.22	88.61	86.28	89.01	78.65	77.71	336M
dangvantuan/sentence-camembert-large	85.78	81.09	88.68	85.81	88.56	78.49	77.70	336M
Sahajtomar/french_semantic	85.55	77.92	87.85	83.96	87.63	79.07	77.14	336M
Lajavaness/sentence-flaubert-base	85.67	79.97	86.91	84.57	88.10	77.84	77.55	137M
GPT3 (text-embedding-ada-002)	77.53	64.27	76.41	69.63	78.65	75.30	-	-

📄 許可證

本模型採用Apache 2.0許可證。

📚 引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}