🚀 sentence-camembert-base
この事前学習済みの文章埋め込みモデルは、フランス語の文章埋め込みにおける最先端技術です。
🚀 クイックスタート
このモデルは、dangvantuan/sentence-camembert-base をベースに、Augmented SBERT を用いて stsb データセットで微調整し、CrossEncoder-camembert-large と dangvantuan/sentence-camembert-large の2つのモデルを通じたペアサンプリング戦略を適用して改良されています。
✨ 主な機能
- フランス語の文章埋め込みに最適化された事前学習済みモデル。
- 微調整とペアサンプリング戦略により、性能が向上しています。
📦 インストール
このモデルは sentence-transformers
ライブラリを使用しており、以下のようにインストールできます。
pip install sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Lajavaness/sentence-camembert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
高度な使用法
このモデルは、stsb
のフランス語テストデータで以下のように評価できます。
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
評価結果
開発データセット
テストデータセット(ピアソンスコア)
テストデータセット(スピアマンスコア)
📚 ドキュメント
このモデルに関する詳細な情報は、Hugging Faceのモデルページ を参照してください。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
📚 引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
@article{thakur2020augmented,
title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
journal={arXiv e-prints},
pages={arXiv--2010},
year={2020}
}