simcse-roberta-large-zhオープンソースモデル - 無料でデプロイし、中国語文の類似度を正確に計算する

ホーム

Simcse Roberta Large Zh

hellonlpによって開発

SimCSE(sup) は中国語文の類似度タスクに使用されるモデルで、文を埋め込みベクトルにエンコードし、文間のコサイン類似度を計算することができます。

テキスト埋め込み

Transformers

中国語オープンソースライセンス:MIT #中国語文の文の埋め込み #意味的類似度計算 #RoBERTaアーキテクチャ

ダウンロード数 179

リリース時間 : 1/9/2024

モデル概要

このモデルは主に中国語文の類似度計算タスクに使用され、文を高品質の埋め込みベクトルに変換し、コサイン類似度を通じて文間の意味的類似度を測定することができます。

モデル特徴

高品質の文の埋め込み

高品質の文の埋め込みベクトルを生成し、文の意味を効果的に捉えることができます。

中国語最適化

中国語テキストに特化して最適化と訓練が行われています。

複数のデータセットでの評価

複数の中国語データセットで全面的な評価が行われました。

モデル能力

文のベクトル化

意味的類似度計算

中国語テキスト処理

使用事例

テキスト類似度

質問応答システム

ユーザーの質問と知識ベースの質問の類似度を判断するために使用されます。

意味的に類似した質問を正確にマッチングできます。

情報検索

検索結果の関連性の並べ替えを改善します。

意味ベースの検索効果を向上させます。

自然言語処理

テキストクラスタリング

意味的に類似したドキュメントを自動的にグループ化します。

クラスタリングの品質を向上させます。

🚀 SimCSE(sup)

SimCSE(sup) は、文章の類似度タスクに使用されるモデルです。文章を埋め込みベクトルにエンコードし、文章間のコサイン類似度を計算することができます。このプロジェクトでは、複数の中国語データセットを用いて評価を行い、モデルの使用例も提供しています。

🚀 クイックスタート

このプロジェクトは文章の類似度に関するタスクに使用できます。提供されているモデルを使って文章を埋め込みベクトルにエンコードしたり、2つの文章間のコサイン類似度を計算したりすることができます。

✨ 主な機能

文章を埋め込みベクトルにエンコードすることができます。
2つの文章間のコサイン類似度を計算することができます。
複数の中国語データセットを用いて評価を行い、評価結果は加重平均法を用いて算出されます。

📦 インストール

ドキュメントではインストール手順が提供されていません。transformers ライブラリのインストール方法を参考にしてください。

pip install transformers

💻 使用例

基本的な使用法

import torch
from transformers import BertTokenizer
from transformers import BertModel
from sklearn.metrics.pairwise import cosine_similarity

# model
simcse_sup_path = "hellonlp/simcse-roberta-large-zh"
tokenizer = BertTokenizer.from_pretrained(simcse_sup_path)
MODEL = BertModel.from_pretrained(simcse_sup_path)

def get_vector_simcse(sentence):
    """
    预测simcse的语义向量。
    """
    input_ids = torch.tensor(tokenizer.encode(sentence)).unsqueeze(0)
    output = MODEL(input_ids)
    return output.last_hidden_state[:, 0].squeeze(0)

embeddings = get_vector_simcse("武汉是一个美丽的城市。")
print(embeddings.shape)
#torch.Size([1024])

高度な使用法

def get_similarity_two(sentence1, sentence2):
    vec1 = get_vector_simcse(sentence1).tolist()
    vec2 = get_vector_simcse(sentence2).tolist()
    similarity_list = cosine_similarity([vec1], [vec2]).tolist()[0][0]
    return similarity_list

sentence1 = '你好吗'
sentence2 = '你还好吗'
result = get_similarity_two(sentence1,sentence2)
print(result)
#0.848331

📚 ドキュメント

データセット一覧

以下のデータセットはすべて中国語データセットです。

データセット	訓練セット規模	検証セット規模	テストセット規模
ATEC	62477	20000	20000
BQ	100000	10000	10000
LCQMC	238766	8802	12500
PAWSX	49401	2000	2000
STS-B	5231	1458	1361
SNLI	146828	2699	2618
MNLI	122547	2932	2397

モデル一覧

評価データセットは中国語で、異なる方法で同じ言語モデル RoBERTa base を使用しています。また、一部のデータセットのテストセットが小さいため、評価精度に大きな偏差が生じる可能性があることを考慮し、ここでの評価データには訓練セット、検証セット、テストセットの両方を使用し、最終的な評価結果は 加重平均 (w-avg) 法を用いています。