albert-small-kor-sbert-v1オープンソースモデル－文章と段落のマッピングを実現し、クラスタリングと意味検索を支援する

ホーム

Albert Small Kor Sbert V1

bongsooによって開発

albert-small-kor-v1モデルをベースに構築されたSentenceBERTバージョンで、文や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに適しています。

テキスト埋め込み

Transformers

#韓国語文の埋め込み #多言語類似度計算 #ALBERTの軽量最適化

ダウンロード数 128

リリース時間 : 1/11/2023

モデル概要

これはsentence-transformersモデルで、文や段落の密ベクトル表現を生成するために専用に設計されており、韓国語と英語をサポートしています。

モデル特徴

多言語サポート

韓国語と英語の文の埋め込み生成をサポートします。

効率的な訓練

STS、蒸留、NLIの3つの段階を通じて訓練され、モデルの性能が最適化されています。

高次元ベクトル空間

文や段落を768次元の密ベクトル空間にマッピングし、様々な下流タスクに適しています。

モデル能力

文の埋め込み生成

意味検索

テキストクラスタリング

文の類似度計算

使用事例

意味検索

文書検索

クエリ文と意味的に類似した文書を検索するために使用します。

高い精度の意味マッチング。

テキストクラスタリング

ニュース分類

類似したニュース記事をまとめてクラスタリングします。

効率的なテキストグルーピング。

🚀 albert-small-kor-sbert-v1

このモデルはsentence-transformersを用いたもので、文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに利用できます。

これはalbert-small-kor-v1モデルをSentenceBERTで構築したものです。

🚀 クイックスタート

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに利用可能。

📦 インストール

sentence-transformersをインストールすることで、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('bongsoo/albert-small-kor-sbert-v1')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('bongsoo/albert-small-kor-sbert-v1')
model = AutoModel.from_pretrained('bongsoo/albert-small-kor-sbert-v1')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

性能測定には、以下の韓国語（kor）と英語（en）の評価コーパスを使用しました。
- 韓国語: korsts(1,379ペアの文章) と klue - sts(519ペアの文章)
- 英語: stsb_multi_mt(1,376ペアの文章) と glue:stsb (1,500ペアの文章)
性能指標は cosin.spearman です。
評価測定コードはこちらを参照してください。

モデル	korsts	klue - sts	glue(stsb)	stsb_multi_mt(en)
distiluse - base - multilingual - cased - v2	0.7475	0.7855	0.8193	0.8075
paraphrase - multilingual - mpnet - base - v2	0.8201	0.7993	0.8907	0.8682
bongsoo/moco - sentencedistilbertV2.1	0.8390	0.8767	0.8805	0.8548
bongsoo/albert - small - kor - sbert - v1	0.8305	0.8588	0.8419	0.7965

このモデルの自動評価については、Sentence Embeddings Benchmark: https://seb.sbert.net を参照してください。

トレーニング

albert-small-kor-v1モデルをsts(10)-distil(10)-nli(3)-sts(10)でトレーニングしました。

モデルは以下のパラメータでトレーニングされました。

共通

do_lower_case = 1, correct_bios = 0, polling_mode = cls

1. STS

コーパス: korsts(5,749) + kluestsV1.1(11,668) + stsb_multi_mt(5,749) + mteb/sickr - sts(9,927) + glue stsb(5,749) (合計: 38,842)
パラメータ: lr: 1e - 4, eps: 1e - 6, warm_step = 10%, epochs: 10, train_batch: 32, eval_batch: 64, max_token_len: 72
トレーニングコードはこちらを参照してください。

2. distilation

教師モデル: paraphrase - multilingual - mpnet - base - v2(max_token_len: 128)
コーパス: news_talk_en_ko_train.tsv (英語 - 韓国語の会話 - ニュースの並列コーパス: 1.38M)
パラメータ: lr: 5e - 5, eps: 1e - 8, epochs: 10, train_batch: 32, eval/test_batch: 64, max_token_len: 128(教師モデルが128なので合わせる)
トレーニングコードはこちらを参照してください。

3. NLI

コーパス: トレーニング(967,852): kornli(550,152), kluenli(24,998), glue - mnli(392,702) / 評価(3,519): korsts(1,500), kluests(519), gluests(1,500)
ハイパーパラメータ: lr: 3e - 5, eps: 1e - 8, warm_step = 10%, epochs: 3, train/eval_batch: 64, max_token_len: 128
トレーニングコードはこちらを参照してください。

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': True}) with Transformer model: AlbertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)