CrossEncoder-camembert-largeオープンソースフランス語モデル - 文章の類似度を正確に計算し、優れた性能を発揮

ホーム

Crossencoder Camembert Large

Lajavanessによって開発

これはCamemBERTベースのフランス語文章類似度計算モデルで、dangvantuan/CrossEncoder-camembert-largeから改良され、より強力なロバスト性と優れた性能を備えています。

テキスト埋め込み

Transformers

フランス語オープンソースライセンス:Apache-2.0 #フランス語意味的類似性 #高精度テキストランキング #クロスセンテンスエンコーダ

ダウンロード数 129

リリース時間 : 10/25/2023

モデル概要

このモデルは2つのフランス語文章の意味的類似度を計算し、0から1の間のスコアを出力します。STSベンチマークデータセットでトレーニングされ、強化型SBERT技術を統合しています。

モデル特徴

性能改善

オリジナルモデルと比較し、複数のフランス語STSテストセットでより高いピアソンおよびスピアマン相関係数を示しています

ロバスト性強化

トレーニング戦略とモデルアーキテクチャの改善により、モデルの安定性と汎化能力を向上させました

意味理解

フランス語文章間の意味的関係を正確に捉え、精密な類似度スコアを出力できます

モデル能力

フランス語文章類似度計算

意味的関係分析

テキストペアスコアリング

使用事例

情報検索

検索結果ランキング

クエリとドキュメントの意味的類似度に基づいて検索結果を再ランキングします

検索結果の関連性を向上させます

質問応答システム

回答選択

候補回答から質問と意味的に最も一致する回答を選択します

QAシステムの精度を向上させます

テキストマッチング

重複質問検出

コミュニティQAプラットフォームの重複質問を識別します

重複コンテンツを削減し、プラットフォーム品質を向上させます

🚀 文章ランキング用Cross-Encoderモデル

このモデルは、文章の類似度を評価するためのCross-Encoderモデルです。dangvantuan/CrossEncoder-camembert-large をベースに、堅牢性と性能を向上させています。

🚀 クイックスタート

インストール

このモデルを使用するには、 sentence-transformers をインストールする必要があります。

pip install -U sentence-transformers

使用例

from sentence_transformers import CrossEncoder
model = CrossEncoder('Lajavaness/CrossEncoder-camembert-large', max_length=512)
scores = model.predict([('Un avion est en train de décoller.', "Un homme joue d'une grande flûte."), ("Un homme étale du fromage râpé sur une pizza.", "Une personne jette un chat au plafond") ])

✨ 主な機能

文章の類似度を0から1のスコアで予測することができます。
dangvantuan/CrossEncoder-camembert-large よりも堅牢性と性能が向上しています。

📦 インストール

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import CrossEncoder
model = CrossEncoder('Lajavaness/CrossEncoder-camembert-large', max_length=512)
scores = model.predict([('Un avion est en train de décoller.', "Un homme joue d'une grande flûte."), ("Un homme étale du fromage râpé sur une pizza.", "Une personne jette un chat au plafond") ])

📚 ドキュメント

モデル

このモデルは、文章の類似度を評価するためのCross-Encoderモデルです。 dangvantuan/CrossEncoder-camembert-large をベースに、堅牢性と性能を向上させています。

学習データ

このモデルは、 STS benchmark dataset で学習され、 Augmented SBERT と組み合わされています。モデルは、 CrossEncoder-camembert-large と dangvantuan/sentence-camembert-large の2つのモデルを使用したペアサンプリング戦略の恩恵を受けています。モデルは、2つの文章の意味的な類似度について0から1のスコアを予測します。

評価

このモデルは、stsbのフランス語のテストデータで以下のように評価することができます。

from sentence_transformers.readers import InputExample
from sentence_transformers.cross_encoder.evaluation import CECorrelationEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
    dataset_samples=[]
    for df in dataset:
        score = float(df['similarity_score'])/5.0  # Normalize score to range 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], 
                                    df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convert the dataset for evaluation

# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = CECorrelationEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# For Test set, the Pearson and Spearman correlation are evaluated on many different benchmark datasets:

test_samples = convert_dataset(df_test)
test_evaluator = CECorrelationEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(models, output_path="./")