🚀 sentence-camembert-base
このモデルは、フランス語の文章埋め込みにおける最先端の事前学習済み文章埋め込みモデルです。
🚀 クイックスタート
事前学習済みの文章埋め込みモデルは、フランス語の文章埋め込みにおける最先端技術です。このモデルは、事前学習済みのfacebook/camembert-baseとSiamese BERT-Networks with 'sentences-transformers'を使用して、データセットstsbで微調整されています。
✨ 主な機能
- 文章埋め込み:フランス語の文章を埋め込むことができます。
- 文章類似度:文章間の類似度を計算することができます。
📦 インストール
このモデルは、sentence-transformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install sentence-transformers
💻 使用例
基本的な使用法
このモデルは、以下のように直接使用することができます(言語モデルなし)。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("dangvantuan/sentence-camembert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
評価
このモデルは、stsbのフランス語テストデータで以下のように評価することができます。
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
テスト結果:
パフォーマンスは、PearsonおよびSpearmanの相関を使用して測定されます。
📚 ドキュメント
- モデル名:sentence-camembert-base by Van Tuan DANG
- ライセンス:apache-2.0
- データセット:stsb_multi_mt
- タスク:文章埋め込み、文章類似度
属性 |
详情 |
モデルタイプ |
事前学習済み文章埋め込みモデル |
学習データ |
stsb_multi_mt |
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
📚 引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}