🚀 sentence-flaubert-base
この事前学習済みの文埋め込みモデルは、フランス語の文埋め込みにおける最先端技術です。
🚀 クイックスタート
この事前学習済みの文埋め込みモデルは、フランス語の文埋め込みにおける最先端技術です。モデルは、事前学習済みのflaubert/flaubert_base_uncasedとSiamese BERT-Networks with 'sentences-transformers'を使用し、Augmented SBERTと組み合わせて、データセットstsbで微調整されています。また、2つのモデルCrossEncoder-camembert-largeとdangvantuan/sentence-camembert-largeを通じたペアサンプリング戦略も使用されています。
✨ 主な機能
- フランス語の文埋め込みに最適化された事前学習済みモデル。
- 高精度の文の類似度評価が可能。
📦 インストール
このモデルは、以下のように直接使用することができます(言語モデルなしで)。
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Lajavaness/sentence-flaubert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
📚 ドキュメント
評価
モデルは、stsbのフランス語のテストデータで以下のように評価することができます。
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
テスト結果
モデルは、stsベンチマークでのPearsonおよびSpearmanの相関係数を使用して評価されます。
開発データセット
テストデータセット
Pearsonスコア
Spearmanスコア
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
🔧 技術詳細
モデルの技術的な詳細については、以下の引用文献を参照してください。
引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
@article{thakur2020augmented,
title={Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks},
author={Thakur, Nandan and Reimers, Nils and Daxenberger, Johannes and Gurevych, Iryna},
journal={arXiv e-prints},
pages={arXiv--2010},
year={2020}
}