sentence-camembert-large開源法語句子嵌入模型

首頁

Sentence Camembert Large

由dangvantuan開發

由La Javaness開發的法語句子嵌入模型，基於CamemBERT-large預訓練模型微調，專注於法語句子語義表示和相似度計算。

文本嵌入法語開源協議:Apache-2.0 #法語句子嵌入 #語義搜索優化 #高精度相似度

下載量 43.27k

發布時間 : 3/2/2022

模型概述

該模型將法語句子的內容和語義表示為數學向量，提供強大的語義搜索能力，適用於法語句子相似度計算和語義搜索任務。

模型特點

法語專用模型

專門針對法語優化的句子嵌入模型，能更好地理解法語語義。

大模型性能

基於CamemBERT-large架構，336M參數規模，提供更精準的語義表示。

語義搜索能力

能夠理解查詢和文檔中文本的深層語義，超越簡單的關鍵詞匹配。

模型能力

法語句子嵌入

語義相似度計算

語義搜索

使用案例

信息檢索

文檔相似度匹配

計算兩個法語文檔或句子的語義相似度

在STSB法語測試集上達到85.9的皮爾遜相關係數

推薦系統

內容推薦

基於語義相似度的內容推薦系統

🚀 句子CamemBERT大模型

Sentence-CamemBERT-Large 是由 La Javaness 開發的法語嵌入模型。該嵌入模型旨在將法語句子的內容和語義表示為數學向量，使其能夠理解查詢和文檔中超越單個單詞的文本含義，提供強大的語義搜索功能。

🚀 快速開始

本模型可直接使用（無需語言模型），如下所示：

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

✨ 主要特性

預訓練句子嵌入模型：是法語句子嵌入的先進模型。
微調基礎：使用預訓練的 facebook/camembert-large 和 Siamese BERT-Networks with 'sentences-transformers' 在 stsb 數據集上進行微調。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
model =  SentenceTransformer("dangvantuan/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.",
          "Un homme joue d'une grande flûte.",
          "Un homme étale du fromage râpé sur une pizza.",
          "Une personne jette un chat au plafond.",
          "Une personne est en train de plier un morceau de papier.",
          ]

embeddings = model.encode(sentences)

📚 詳細文檔

評估

該模型可以在 stsb 的法語測試數據上進行如下評估：

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

測試結果

性能通過皮爾遜和斯皮爾曼相關性進行衡量：

開發集

模型	皮爾遜相關係數	斯皮爾曼相關係數	參數數量
dangvantuan/sentence-camembert-large	88.2	88.02	3.36億
dangvantuan/sentence-camembert-base	86.73	86.54	1.1億
distiluse-base-multilingual-cased	79.22	79.16	1.35億
GPT-3 (text-davinci-003)	85	無	1.75萬億
GPT-(text-embedding-ada-002)	79.75	80.44	無

測試集

模型	皮爾遜相關係數	斯皮爾曼相關係數
dangvantuan/sentence-camembert-large	85.9	85.8
dangvantuan/sentence-camembert-base	82.36	81.64
distiluse-base-multilingual-cased	78.62	77.48
GPT-3 (text-davinci-003)	82	無
GPT-(text-embedding-ada-002)	79.05	77.56

引用

@article{reimers2019sentence,
   title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
   author={Nils Reimers, Iryna Gurevych},
   journal={https://arxiv.org/abs/1908.10084},
   year={2019}
}

@article{martin2020camembert,
   title={CamemBERT: a Tasty French Language Mode},
   author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
   journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
   year={2020}
}

📄 許可證

本項目採用 Apache 2.0 許可證。

📦 模型信息

屬性	詳情
模型類型	句子嵌入模型
訓練數據	stsb_multi_mt 數據集
微調基礎模型	facebook/camembert-large
微調方法	Siamese BERT-Networks with 'sentences-transformers'