sts-distilcamembert-baseオープンソースモデル - フランス語の文を無料でエンコードし、類似度計算に使用

ホーム

Sts Distilcamembert Base

h4c5によって開発

これはDistilCamemBERTをベースにしたフランス語の文埋め込みモデルで、文や段落を768次元ベクトルにエンコードし、文の類似度計算などのタスクに使用できます。

テキスト埋め込み

Transformers

フランス語オープンソースライセンス:MIT #フランス語文埋め込み #効率的な蒸留モデル #文類似度計算

ダウンロード数 48

リリース時間 : 2/26/2024

モデル概要

このモデルはDistilCamemBERTの基本モデルを微調整し、sentence-transformersライブラリを使用して得られたもので、特にフランス語の文類似度計算と特徴抽出タスクに特化しています。

モデル特徴

効率的な蒸留モデル

DistilCamemBERTをベースにしており、パラメータ数が半分になり、推論時間が短縮されつつ、良好な性能を維持しています。

フランス語文埋め込み

フランス語テキストに最適化されており、高品質な文埋め込み表現を生成できます。

高い類似度計算精度

STSbフランス語データセットで0.8165のピアソン相関係数を達成し、優れた性能を示しています。

モデル能力

フランス語文埋め込み

文類似度計算

テキスト特徴抽出

使用事例

テキスト類似度

意味検索

フランス語の意味検索エンジンを構築するために使用でき、クエリとドキュメントの意味的類似度に基づいて結果を返します。

重複コンテンツ検出

異なる表現だが意味的に類似したテキストコンテンツを識別し、コンテンツの重複排除に使用します。

情報検索

ドキュメントクラスタリング

文埋め込みに基づいてフランス語ドキュメントのクラスタリング分析を行います。

🚀 sentence-transformers

このライブラリは、文章や段落をベクトルにエンコードする機能を提供し、特徴抽出や文章の類似度計算などのタスクに役立ちます。

🚀 クイックスタート

このセクションでは、sentence-transformers ライブラリを使用して、文章をベクトルにエンコードする基本的な手順を説明します。

✨ 主な機能

文章や段落を768次元のベクトルにエンコードすることができます。
ベースとなるモデルはDistilCamemBERTで、パラメータ数を半分に削減し、推論時間を改善しています。

📦 インストール

`sentence-transformers` ライブラリを使用する場合

pip install -U sentence-transformers

`transformers` ライブラリを使用する場合

pip install -U transformers

💻 使用例

基本的な使用法

`sentence-transformers` ライブラリを使用する場合

from sentence_transformers import SentenceTransformer
sentences = ["Ceci est un exemple", "deuxième exemple"]

model = SentenceTransformer('h4c5/sts-distilcamembert-base')
embeddings = model.encode(sentences)
print(embeddings)

`transformers` ライブラリを使用する場合

from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("h4c5/sts-distilcamembert-base")
model = AutoModel.from_pretrained("h4c5/sts-distilcamembert-base")
model.eval()


# Mean Pooling
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[
        0
    ]  # First element of model_output contains all token embeddings
    input_mask_expanded = (
        attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    )
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(
        input_mask_expanded.sum(1), min=1e-9
    )

# Tokenization et calcul des embeddings des tokens
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
model_output = model(**encoded_input)

# Mean pooling
sentence_embeddings = mean_pooling(model_output, encoded_input["attention_mask"])

print(sentence_embeddings)

📚 ドキュメント

評価

このモデルは、STSb fr データセットで評価されました。

from datasets import load_dataset
from sentence_transformers import InputExample, evaluation


def dataset_to_input_examples(dataset):
    return [
        InputExample(
            texts=[example["sentence1"], example["sentence2"]],
            label=example["similarity_score"] / 5.0,
        )
        for example in dataset
    ]


sts_test_dataset = load_dataset("stsb_multi_mt", name="fr", split="test")
sts_test_examples = dataset_to_input_examples(sts_test_dataset)

sts_test_evaluator = evaluation.EmbeddingSimilarityEvaluator.from_input_examples(
    sts_test_examples, name="sts-test"
)

sts_test_evaluator(model, ".")

結果

以下は、モデルを stsb_multi_mt データセット（fr データ、test 分割）で評価した結果です。

モデル	ピアソン相関係数	パラメータ数
`h4c5/sts-camembert-base`	0.837	110M
`Lajavaness/sentence-camembert-base`	0.835	110M
`inokufu/flaubert-base-uncased-xnli-sts`	0.828	137M
`h4c5/sts-distilcamembert-base`	0.817	68M
`sentence-transformers/distiluse-base-multilingual-cased-v2`	0.786	135M

学習

このモデルは以下のパラメータで学習されました。

DataLoader: torch.utils.data.dataloader.DataLoader の長さは180で、以下のパラメータが使用されました。

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失関数: sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit() メソッドのパラメータ:

{
    "epochs": 10,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

モデルのアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: CamembertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

🔧 技術詳細

このモデルは、cmarkea/distilcamembert-base をベースに、sentence-transformers ライブラリを使用してファインチューニングされています。ベースとなる DistilCamemBERT は、CamemBERT の蒸留モデルで、パラメータ数を半分に削減し、推論時間を改善しています。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

引用

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    journal={"https://arxiv.org/abs/1908.10084"},
}

@inproceedings{sanh2019distilbert,
    title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
    author={Sanh, Victor and Debut, Lysandre and Chaumond, Julien and Wolf, Thomas},
    booktitle={NeurIPS EMC^2 Workshop},
    journal={https://arxiv.org/abs/1910.01108},
    year={2019}
}

@inproceedings{martin2020camembert,
    title={CamemBERT: a Tasty French Language Model},
    author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
    booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
    journal={https://arxiv.org/abs/1911.03894},
    year={2020}
}

@inproceedings{delestre:hal-03674695,
    TITLE = {{DistilCamemBERT : une distillation du mod{\`e}le fran{\c c}ais CamemBERT}},
    AUTHOR = {Delestre, Cyrile and Amar, Abibatou},
    URL = {https://hal.archives-ouvertes.fr/hal-03674695},
    BOOKTITLE = {{CAp (Conf{\'e}rence sur l'Apprentissage automatique)}},
    ADDRESS = {Vannes, France},
    YEAR = {2022},
    MONTH = Jul,
    KEYWORDS = {NLP ; Transformers ; CamemBERT ; Distillation},
    PDF = {https://hal.archives-ouvertes.fr/hal-03674695/file/cap2022.pdf},
    HAL_ID = {hal-03674695},
    HAL_VERSION = {v1},
    journal={https://arxiv.org/abs/2205.11111},
}