🚀 Sentence-CamemBERT-Large
Sentence-CamemBERT-Large は、La Javaness によって開発されたフランス語用の埋め込みモデルです。この埋め込みモデルは、フランス語の文章の内容と意味を数学的なベクトルで表現し、クエリやドキュメント内の個々の単語を超えた文章の意味を理解し、強力な意味検索を提供します。
🚀 クイックスタート
Sentence-CamemBERT-Largeは、フランス語の文章埋め込みに最適な事前学習済みモデルです。このモデルは、事前学習済みの facebook/camembert-large を使用し、Siamese BERT-Networks with 'sentences-transformers' を用いて stsb データセットで微調整されています。
✨ 主な機能
- フランス語の文章を数学的なベクトルで表現することができます。
- 文章の意味を理解し、強力な意味検索を提供します。
📦 インストール
このモデルは、sentence-transformers
ライブラリを使用して直接利用できます。以下のようにインストールしてください。
pip install sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("dangvantuan/sentence-camembert-large")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
📚 ドキュメント
評価
このモデルは、stsbのフランス語のテストデータで以下のように評価できます。
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
テスト結果
このモデルは、PearsonおよびSpearmanの相関係数を使用して評価されています。
開発データセット
テストデータセット
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で公開されています。
📚 引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}