模型概述
模型特點
模型能力
使用案例
🚀 法語句子嵌入預訓練模型
本項目提供的預訓練句子嵌入模型是法語句子嵌入領域的先進解決方案,可高效實現句子相似度計算等功能。
🚀 快速開始
預訓練的句子嵌入模型代表了法語句子嵌入的先進水平。此模型在 dangvantuan/sentence-camembert-base 的基礎上進行了改進。具體方法是,在 stsb 數據集上使用 Augmented SBERT 進行微調,並結合通過 CrossEncoder-camembert-large 和 dangvantuan/sentence-camembert-large 這兩個模型的配對採樣策略。
✨ 主要特性
- 先進技術:基於先進的 Transformer 架構,結合 Augmented SBERT 微調技術,提升句子嵌入效果。
- 多模型融合:通過兩個不同的模型進行配對採樣策略,增強模型性能。
- 廣泛應用:可用於句子相似度計算、文本分類等多種自然語言處理任務。
📦 安裝指南
原文檔未提及安裝步驟,此章節跳過。
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Lajavaness/sentence-camembert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
高級用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0 # Normalize score to range 0 ... 1
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
# Loading the dataset for evaluation
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
# Convert the dataset for evaluation
# For Dev set:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
# For Test set:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
📚 詳細文檔
評估結果
該模型可以在 stsb 的法語測試數據上進行如下評估。
測試結果: 性能通過在 sts-benchmark 上的皮爾遜和斯皮爾曼相關性進行衡量:
-
開發集 | 模型 | 皮爾遜相關係數 | 斯皮爾曼相關係數 | 參數數量 | | ---- | ---- | ---- | ---- | | Lajavaness/sentence-camembert-base | 86.88 | 86.73 | 1.1 億 | | dangvantuan/sentence-camembert-base | 86.73 | 86.54 | 1.1 億 | | inokufu/flaubert-base-uncased-xnli-sts | 85.85 | 85.71 | 1.37 億 | | distiluse-base-multilingual-cased | 79.22 | 79.16 | 1.35 億 |
-
測試集:在多個不同的基準數據集上評估皮爾遜和斯皮爾曼相關性。
皮爾遜得分
模型 | STS-B | STS12-fr | STS13-fr | STS14-fr | STS15-fr | STS16-fr | SICK-fr | 參數數量 |
---|---|---|---|---|---|---|---|---|
Lajavaness/sentence-camembert-base | 83.46 | 84.49 | 84.61 | 83.94 | 86.94 | 75.20 | 82.86 | 1.1 億 |
inokufu/flaubert-base-uncased-xnli-sts | 82.82 | 84.79 | 85.76 | 82.81 | 85.38 | 74.05 | 82.23 | 1.37 億 |
dangvantuan/sentence-camembert-base | 82.36 | 82.06 | 84.08 | 81.51 | 85.54 | 73.97 | 80.91 | 1.1 億 |
sentence-transformers/distiluse-base-multilingual-cased-v2 | 78.63 | 72.51 | 67.25 | 70.12 | 79.93 | 66.67 | 77.76 | 1.35 億 |
hugorosen/flaubert_base_uncased-xnli-sts | 78.38 | 79.00 | 77.61 | 76.56 | 79.03 | 71.22 | 80.58 | 1.37 億 |
antoinelouis/biencoder-camembert-base-mmarcoFR | 76.97 | 71.43 | 73.50 | 70.56 | 78.44 | 71.23 | 77.62 | 1.1 億 |
斯皮爾曼得分
模型 | STS-B | STS12-fr | STS13-fr | STS14-fr | STS15-fr | STS16-fr | SICK-fr | 參數數量 |
---|---|---|---|---|---|---|---|---|
Lajavaness/sentence-camembert-base | 82.92 | 77.71 | 84.19 | 81.83 | 87.04 | 76.81 | 76.36 | 1.1 億 |
inokufu/flaubert-base-uncased-xnli-sts | 83.07 | 77.34 | 85.88 | 80.96 | 85.70 | 76.43 | 77.00 | 1.37 億 |
dangvantuan/sentence-camembert-base | 81.64 | 75.45 | 83.86 | 78.63 | 85.66 | 75.36 | 74.18 | 1.1 億 |
sentence-transformers/distiluse-base-multilingual-cased-v2 | 77.49 | 69.80 | 68.85 | 68.17 | 80.27 | 70.04 | 72.49 | 1.35 億 |
hugorosen/flaubert_base_uncased-xnli-sts | 76.93 | 68.96 | 77.62 | 71.87 | 79.33 | 72.86 | 73.91 | 1.37 億 |
antoinelouis/biencoder-camembert-base-mmarcoFR | 75.55 | 66.89 | 73.90 | 67.14 | 78.78 | 72.64 | 72.03 | 1.1 億 |
🔧 技術細節
原文檔未提供足夠的技術實現細節,此章節跳過。
📄 許可證
本項目採用 Apache 2.0 許可證。
📚 引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
@article{thakur2020augmented,
title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
journal={arXiv e-prints},
pages={arXiv--2010},
year={2020}
}







