sup-simcse-ja-baseオープンソース日本語埋め込みモデル - 文章の類似度計算と特徴抽出に無料で利用可能

Home

Sup Simcse Ja Base

Developed by cl-nagoya

教師ありSimCSE手法でファインチューニングされた日本語文埋め込みモデルで、文の類似度計算や特徴抽出タスクに適しています。

テキスト埋め込み

Transformers

Japanese#日本語文埋め込み #教師ありSimCSE #JSNLIファインチューニング

Downloads 3,027

Release Time : 10/2/2023

Model Overview

このモデルはBERTアーキテクチャに基づく日本語文埋め込みモデルで、教師ありSimCSE手法を用いてJSNLIデータセットでファインチューニングされており、高品質な文埋め込み表現を生成でき、文の類似度計算や情報検索などの自然言語処理タスクに適用可能です。

Model Features

教師ありSimCSEファインチューニング

教師ありSimCSE手法でファインチューニングされており、文埋め込みの品質と識別性が向上しています。

日本語最適化

日本語BERTモデル(cl-tohoku/bert-base-japanese-v3)を基に構築されており、日本語テキストに特化して最適化されています。

効率的なプーリング戦略

CLSトークンプーリング戦略を採用し、訓練時に追加のMLP層を加えることで、文の表現能力を強化しています。

Model Capabilities

文埋め込み生成

文の類似度計算

日本語テキスト特徴抽出

情報検索

Use Cases

自然言語処理

意味的検索

日本語の意味的検索エンジンを構築するために使用され、クエリ文の意味的類似度に基づいて関連文書を検索します。

テキストクラスタリング

日本語テキストのクラスタリング分析を行い、類似した内容やテーマを発見します。

質問応答システム

質問応答システムのコンポーネントとして、質問と関連知識スニペットをマッチングするために使用されます。

🚀 sup-simcse-ja-base

このモデルは、日本語の文埋め込みを生成し、文の類似度を計算するためのものです。Sentence-TransformersやHuggingFace Transformersを使って簡単に利用できます。

🚀 クイックスタート

📦 インストール

sentence-transformersをインストールすると、このモデルを簡単に使うことができます。

pip install -U fugashi[unidic-lite] sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["こんにちは、世界！", "文埋め込み最高！文埋め込み最高と叫びなさい", "極度乾燥しなさい"]

model = SentenceTransformer("cl-nagoya/sup-simcse-ja-base")
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

sentence-transformersを使わない場合、以下のようにモデルを使用できます。まず、入力をTransformerモデルに通し、その後、文脈化された単語埋め込みに対して適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained("cl-nagoya/sup-simcse-ja-base")
model = AutoModel.from_pretrained("cl-nagoya/sup-simcse-ja-base")

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細ドキュメント

🔧 技術詳細

モデルの全体構成

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

モデルの概要

属性	详情
微調整方法	Supervised SimCSE
ベースモデル	cl-tohoku/bert-base-japanese-v3
学習データセット	JSNLI
プーリング戦略	cls (学習時のみ追加のMLPレイヤーを使用)
隠れ層のサイズ	768
学習率	5e-5
バッチサイズ	512
温度	0.05
最大シーケンス長	64
学習例の数	2^20
検証間隔（ステップ）	2^6
ウォームアップ率	0.1
データ型	BFloat16

詳細な実験設定については、GitHubリポジトリを参照してください。

📄 ライセンス

このモデルはCC BY-SA 4.0ライセンスの下で提供されています。

📖 引用と作者

@misc{
  hayato-tsukagoshi-2023-simple-simcse-ja,
  author = {Hayato Tsukagoshi},
  title = {Japanese Simple-SimCSE},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/hppRC/simple-simcse-ja}}
}