sentence-camembert-large开源法语句子嵌入模型 - 免费提供强大语义搜索能力

首页

Sentence Camembert Large

由 Lajavaness 开发

基于CamemBERT-large的法语句子嵌入模型，提供强大的语义搜索能力

文本嵌入法语开源协议:Apache-2.0 #法语句子嵌入 #语义搜索 #高精度相似度

下载量 3,729

发布时间 : 10/25/2023

模型简介

该模型旨在将法语句子的内容和语义表示为数学向量，使其能够理解查询和文档中文本的含义，而不仅仅是单个单词。

模型特点

强大的语义理解能力

能够理解法语句子的深层语义，而不仅仅是表面词汇

改进的鲁棒性

相比基础版本，在所有STS基准数据集上表现更优

结合Augmented SBERT训练

使用配对采样策略增强模型性能

模型能力

法语句子嵌入

语义相似度计算

语义搜索

使用案例

信息检索

语义搜索

基于语义而非关键词匹配的文档检索

提高搜索相关性和准确性

文本分析

句子相似度计算

计算两个法语句子之间的语义相似度

皮尔逊相关系数达88.63

🚀 句子CamemBERT大模型

句子CamemBERT大模型是由La Javaness开发的法语嵌入模型。该模型旨在将法语句子的内容和语义表示为数学向量，使模型在查询和文档中理解文本含义时，能够超越单个单词的层面，具备强大的语义搜索能力。

🚀 快速开始

本模型可直接使用（无需语言模型），以下是使用示例：

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

✨ 主要特性

该Lajavaness/sentence-camembert-large模型是对dangvantuan/sentence-camembert-base的改进，在所有STS基准数据集上具有更强的鲁棒性和更好的性能。
它使用预训练的facebook/camembert-large和Siamese BERT-Networks with 'sentences-transformers'在stsb数据集上进行微调。
此外，它还在stsb数据集上结合了Augmented SBERT。
该模型受益于使用两个模型的配对采样策略：CrossEncoder-camembert-large和dangvantuan/sentence-camembert-large。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("Lajavaness/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

高级用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

📚 详细文档

评估

该模型可以在stsb的法语测试数据上进行如下评估：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

测试结果

性能使用皮尔逊和斯皮尔曼相关性进行衡量：

开发集

模型	皮尔逊相关系数	斯皮尔曼相关系数	参数数量
Lajavaness/sentence-camembert-large	88.63	88.46	336M
dangvantuan/sentence-camembert-large	88.2	88.02	336M
Sahajtomar/french_semanti	87.44	87.30	336M
Lajavaness/sentence-flaubert-base	87.14	87.10	137M
GPT-3 (text-davinci-003)	85	无	175B
GPT-(text-embedding-ada-002)	79.75	80.44	无

测试集

在许多不同的基准数据集上评估皮尔逊和斯皮尔曼相关性：

皮尔逊得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	参数数量
Lajavaness/sentence-camembert-large	86.26	87.42	89.34	88.05	88.91	77.15	83.13	336M
dangvantuan/sentence-camembert-large	85.88	87.28	89.25	87.91	88.54	76.90	83.26	336M
Sahajtomar/french_semantic	85.80	86.05	88.50	86.57	87.49	77.85	83.27	336M
Lajavaness/sentence-flaubert-base	85.39	86.64	87.24	85.68	87.99	75.78	82.84	137M
GPT3 (text-embedding-ada-002)	79.03	66.16	75.48	70.69	77.88	65.18	-	-

斯皮尔曼得分

模型	STS-B	STS12-fr	STS13-fr	STS14-fr	STS15-fr	STS16-fr	SICK-fr	参数数量
Lajavaness/sentence-camembert-large	86.14	81.22	88.61	86.28	89.01	78.65	77.71	336M
dangvantuan/sentence-camembert-large	85.78	81.09	88.68	85.81	88.56	78.49	77.70	336M
Sahajtomar/french_semantic	85.55	77.92	87.85	83.96	87.63	79.07	77.14	336M
Lajavaness/sentence-flaubert-base	85.67	79.97	86.91	84.57	88.10	77.84	77.55	137M
GPT3 (text-embedding-ada-002)	77.53	64.27	76.41	69.63	78.65	75.30	-	-

📄 许可证

本模型采用Apache 2.0许可证。

📚 引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}