sentence-camembert-large开源法语句子嵌入模型

首页

Sentence Camembert Large

由 dangvantuan 开发

由La Javaness开发的法语句子嵌入模型，基于CamemBERT-large预训练模型微调，专注于法语句子语义表示和相似度计算。

文本嵌入法语开源协议:Apache-2.0 #法语句子嵌入 #语义搜索优化 #高精度相似度

下载量 43.27k

发布时间 : 3/2/2022

模型简介

该模型将法语句子的内容和语义表示为数学向量，提供强大的语义搜索能力，适用于法语句子相似度计算和语义搜索任务。

模型特点

法语专用模型

专门针对法语优化的句子嵌入模型，能更好地理解法语语义。

大模型性能

基于CamemBERT-large架构，336M参数规模，提供更精准的语义表示。

语义搜索能力

能够理解查询和文档中文本的深层语义，超越简单的关键词匹配。

模型能力

法语句子嵌入

语义相似度计算

语义搜索

使用案例

信息检索

文档相似度匹配

计算两个法语文档或句子的语义相似度

在STSB法语测试集上达到85.9的皮尔逊相关系数

推荐系统

内容推荐

基于语义相似度的内容推荐系统

🚀 句子CamemBERT大模型

Sentence-CamemBERT-Large 是由 La Javaness 开发的法语嵌入模型。该嵌入模型旨在将法语句子的内容和语义表示为数学向量，使其能够理解查询和文档中超越单个单词的文本含义，提供强大的语义搜索功能。

🚀 快速开始

本模型可直接使用（无需语言模型），如下所示：

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

✨ 主要特性

预训练句子嵌入模型：是法语句子嵌入的先进模型。
微调基础：使用预训练的 facebook/camembert-large 和 Siamese BERT-Networks with 'sentences-transformers' 在 stsb 数据集上进行微调。

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

📚 详细文档

评估

该模型可以在 stsb 的法语测试数据上进行如下评估：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

测试结果

性能通过皮尔逊和斯皮尔曼相关性进行衡量：

开发集

模型	皮尔逊相关系数	斯皮尔曼相关系数	参数数量
dangvantuan/sentence-camembert-large	88.2	88.02	3.36亿
dangvantuan/sentence-camembert-base	86.73	86.54	1.1亿
distiluse-base-multilingual-cased	79.22	79.16	1.35亿
GPT-3 (text-davinci-003)	85	无	1.75万亿
GPT-(text-embedding-ada-002)	79.75	80.44	无

测试集

模型	皮尔逊相关系数	斯皮尔曼相关系数
dangvantuan/sentence-camembert-large	85.9	85.8
dangvantuan/sentence-camembert-base	82.36	81.64
distiluse-base-multilingual-cased	78.62	77.48
GPT-3 (text-davinci-003)	82	无
GPT-(text-embedding-ada-002)	79.05	77.56

引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}

📄 许可证

本项目采用 Apache 2.0 许可证。

📦 模型信息

属性	详情
模型类型	句子嵌入模型
训练数据	stsb_multi_mt 数据集
微调基础模型	facebook/camembert-large
微调方法	Siamese BERT-Networks with 'sentences-transformers'