CrossEncoder-camembert-large開源模型 - 免費計算法語句子語義相似度分值

首頁

Crossencoder Camembert Large

由dangvantuan開發

這是一個基於CamemBERT的法語句子相似度計算模型，用於預測兩個句子之間的語義相似度分值。

文本嵌入

Transformers

法語開源協議:Apache-2.0 #法語語義相似度 #高精度排序 #句子對評分

下載量 167

發布時間 : 3/28/2022

模型概述

該模型使用Cross-Encoder架構訓練，專門用於計算法語句子對的語義相似度，輸出0-1之間的相似度分值。

模型特點

高效句子相似度計算

專門優化用於法語句子對的相似度計算任務

基於CamemBERT-large

使用強大的法語預訓練模型CamemBERT-large作為基礎架構

高準確度

在法語STS測試集上達到88.16的皮爾遜相關係數

模型能力

法語句子相似度計算

語義相關性評分

文本對比較

使用案例

文本匹配

問答系統

評估用戶問題與候選答案的匹配程度

提高問答系統的準確率

信息檢索

重排序檢索結果，提高相關性

提升搜索結果質量

自然語言處理

文本去重

識別語義相似的文本內容

有效減少重複內容

🚀 句子相似度跨編碼器模型

這是一個用於句子相似度任務的跨編碼器模型，基於sentence-transformers訓練，可對兩個句子的語義相似度進行打分。

🚀 快速開始

本模型是用於句子相似度任務的跨編碼器，它基於sentence-transformers庫的跨編碼器類進行訓練。

✨ 主要特性

基於camembert-base架構，適用於法語句子相似度任務。
可預測兩個句子語義相似度的得分，範圍在 0 到 1 之間。

📦 安裝指南

若要使用此模型，需先安裝sentence-transformers庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import CrossEncoder
model = CrossEncoder('dangvantuan/CrossEncoder-camembert-large', max_length=128)
scores = model.predict([('Un avion est en train de décoller.', "Un homme joue d'une grande flûte."), ("Un homme étale du fromage râpé sur une pizza.", "Une personne jette un chat au plafond") ])

高級用法

from sentence_transformers.readers import InputExample
from sentence_transformers.cross_encoder.evaluation import CECorrelationEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = CECorrelationEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set

test_samples = convert_dataset(df_test)
test_evaluator = CECorrelationEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(models, output_path="./")