🚀 Sentence-CamemBERT-Large
このSentence-CamemBERT-Largeモデルは、La Javanessによって開発されたフランス語用の埋め込みモデルです。この埋め込みモデルの目的は、フランス語の文章の内容と意味を数学的なベクトルとして表現し、クエリやドキュメント内の個々の単語を超えたテキストの意味を理解できるようにすることです。強力な意味検索機能を提供します。
🚀 クイックスタート
このモデルは、フランス語の文章の埋め込み表現を生成するために使用できます。以下のセクションでは、モデルの使用方法と評価方法について説明します。
✨ 主な機能
- フランス語の文章を数学的なベクトルとして表現することができます。
- 強力な意味検索機能を提供し、文章間の意味的な類似性を判断できます。
- 事前学習済みのモデルを微調整することで、高い性能を発揮します。
📦 インストール
このモデルはsentence-transformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install sentence-transformers
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Lajavaness/sentence-camembert-large")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
高度な使用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0
inp_example = InputExample(texts=[df['sentence1'],
df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
📚 ドキュメント
モデル情報
Property |
Details |
パイプラインタグ |
文章の類似性 |
言語 |
フランス語 |
データセット |
stsb_multi_mt |
タグ |
テキスト、文章の類似性、文章の埋め込み、camembert-large |
ライセンス |
apache-2.0 |
ライブラリ名 |
sentence-transformers |
評価結果
開発データセットでの評価
テストデータセットでの評価
ピアソンスコア
スピアマンスコア
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
📚 引用
@article{reimers2019sentence,
title={Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks},
author={Nils Reimers, Iryna Gurevych},
journal={https://arxiv.org/abs/1908.10084},
year={2019}
}
@article{martin2020camembert,
title={CamemBERT: a Tasty French Language Mode},
author={Martin, Louis and Muller, Benjamin and Suárez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
journal={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}