๐ SentenceTransformer based on snunlp/KR-Medium-extended
This model is a sentence-transformers model fine-tuned from snunlp/KR-Medium-extended on the korpat-triplet dataset. It maps sentences and paragraphs to a 768 - dimensional dense vector space, which can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
๐ Quick Start
Direct Usage (Sentence Transformers)
First, install the Sentence Transformers library:
pip install -U sentence-transformers
Then, you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("snunlp/KR-SBERT-Medium-extended-patent2024-hn")
sentences = [
'๋ณธ ๋ฐ๋ช
์ ์ ์ถ์ ํ์ ์ฅ์น์ ๊ดํ ๊ฒ์ผ๋ก, ๋ณด๋ค ์์ธํ๊ฒ๋ ํ๋ถ์ฐฉ ๊ฐ๋ฅํ ๊ตฌ์กฐ์ ์ ์ถ์ ํก์ฐฉ๋ถ๋ฅผ ํตํด ๊ฐ ํด์ ํ๊ฒฝ ์กฐ๊ฑด ๋ฐ ์ ์ถ์ ์ ์ข
๋ฅ์ ์ ํฉํ ์ ์ถ์ ํ์๋ฅผ ์งํํ ์ ์๋๋ก ํ๋ ์ ์ถ์ ํ์ ์ฅ์น์ ๊ดํ ๊ฒ์ด๋ค.',
'๋ณธ ๋ฐ๋ช
์ ์ผ ์ค์์์ ๋ฐ๋ฅธ ์ ์ถ์ ํ์ ์ฅ์น๋, ํด์์ ๋ถ์ ํ๋๋ก ๋ถ๋ ฅ์ ์ ๊ณตํ๊ณ ํด์์ ์ ์ถ์ ๊ฐ ํผํฉ๋ ์ ์๋ฅผ ํด์์ ์ ์ถ์ ๋ก ๊ฐ๊ฐ ๋ถ๋ฆฌํ๋๋ก ๊ตฌ๋น๋๋ ๋ชธ์ฒด๋ถ; ๋ฐ ์๊ธฐ ๋ชธ์ฒด๋ถ์ ์ฐ๊ฒฐ๋์ด ํ์๋ ์ ์ถ์ ๋ฅผ ์ ์ฅํ๋ ์ ์ฅ ๋ชธ์ฒด๊ฐ ๊ตฌ์ฑ๋๋ ์ ์ถ์ ์ ์ฅ๋ถ;๋ฅผ ํฌํจํ๋ฉฐ, ์๊ธฐ ๋ชธ์ฒด๋ถ๋, ํด์์ ์ ์๊ฐ ์ ์
๋๋๋ก ์๊ธฐ ๋ชธ์ฒด๋ถ์ ์ผ๋จ์ ์์ ์์ญ์ ๊ณต๊ฐ์ ํ์ฑํ๋ ์ ์ ์ ์
๋ถ; ์๊ธฐ ์ ์ ์ ์
๋ถ์ ์ฐํต๋์ด ์ ์
๋ ์ ์์ ์ ์ถ์ ๋ฅผ ๋ถ๋ฆฌํ๋๋ก ๊ตฌ๋น๋๋ ์ ์ถ์ ๋ถ๋ฆฌ๋ถ; ๋ฐ ์๊ธฐ ์ ์ถ์ ๋ถ๋ฆฌ๋ถ๋ก๋ถํฐ ๋ถ๋ฆฌ๋ ๊ธฐ๋ฆ์ ์ ๋ฌ๋ฐ์ ์๊ธฐ ์ ์ถ์ ์ ์ฅ๋ถ๋ก ์ด์กํ๋๋ก ๊ตฌ๋น๋๋ ์ ์ถ์ ์์์ ์ฅ๋ถ;๋ฅผ ํฌํจํ๋ ๊ฒ์ ํน์ง์ผ๋ก ํ๋ค.',
'๋ณธ ๋ฐ๋ช
์์ ๋ณต์์ ์ ํต๊ฒฝ๋ก ์ค ํน์ ์ ํต๊ฒฝ๋ก๋ก ๋๊ฐ๋งค์ฒด๊ฐ ํต๊ณผ๋๋๋ก ํ๊ฑฐ๋ ๋๋ ์ฐจ๋จ๋๋๋ก ํ๋ค. ๋ํ, ๋๊ฐ๋งค์ฒด์ ์ ํต์ ๋ฐ๋ฅธ ํ๋ฆ์ ์ด์ฉํ์ฌ ์ค๋ง ์ฑ๋ฅ์ด ํฅ์๋๋๋ก ํ๋ ๋ฉํฐ์จ์ด๋ฐธ๋ธ ์ฅ์น๊ฐ ์๊ฐ๋๋ค.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
โจ Features
- Maps sentences & paragraphs to a 768 - dimensional dense vector space.
- Can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
๐ฆ Installation
pip install -U sentence-transformers
๐ Documentation
Model Details
Model Description
Property |
Details |
Model Type |
Sentence Transformer |
Base model |
snunlp/KR-Medium-extended |
Maximum Sequence Length |
512 tokens |
Output Dimensionality |
768 tokens |
Similarity Function |
Cosine Similarity |
Training Dataset |
korpat - triplet |
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Training Details
Training Dataset - korpat - triplet
- Dataset: korpat - triplet
- Size: 1,795,000 training samples
- Columns:
anchor
, positive
, and negative
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
negative |
type |
string |
string |
string |
details |
- min: 5 tokens
- mean: 42.64 tokens
- max: 131 tokens
|
- min: 14 tokens
- mean: 172.32 tokens
- max: 340 tokens
|
- min: 3 tokens
- mean: 99.52 tokens
- max: 476 tokens
|
- Samples:
anchor |
positive |
negative |
๋ณธ ๊ฐ์๋ ์คํ ๋ฆฌ์ง ์ปจํธ๋กค๋ฌ์ ๊ดํ ๊ฒ์ผ๋ก, ๋ณด๋ค ์์ธํ๊ฒ๋, ์กํฐ๋ธ ์กด ๋ฆฌํ๋ ์๋ฅผ ์ํํ๋ ์คํ ๋ฆฌ์ง ์ปจํธ๋กค๋ฌ, ๊ทธ๊ฒ์ ๋์ํ๋ ๋ฐฉ๋ฒ, ๋ฐ ๊ทธ๊ฒ์ ํฌํจํ๋ ์คํ ๋ฆฌ์ง ์ฅ์น์ ๋์ํ๋ ๋ฐฉ๋ฒ์ ๊ดํ ๊ฒ์ด๋ค. |
๋ณธ ๊ฐ์์ ์ผ ์ค์ ์์ ๋ฐ๋ฅธ ์คํ ๋ฆฌ์ง ์ปจํธ๋กค๋ฌ๋ ํธ์คํธ ๋ฐ ๋น - ํ๋ฐ์ฑ ๋ฉ๋ชจ๋ฆฌ ์ฅ์น์ ํต์ ํ๋ค. ์คํ ๋ฆฌ์ง ์ปจํธ๋กค๋ฌ์ ๋์ํ๋ ๋ฐฉ๋ฒ์, ํธ์คํธ๋ก๋ถํฐ, ์ฅ์น ์คํ์ ์ํ ์ 1 ์ํ ์ฒ์ด ์์ฒญ์ ์์ ํ๋ ๋จ๊ณ, ์ 1 ์ํ ์ฒ์ด ์์ฒญ์ ์๋ตํ์ฌ, ๋น - ํ๋ฐ์ฑ ๋ฉ๋ชจ๋ฆฌ ์ฅ์น์ ์ 1 ์กํฐ๋ธ ์กด ๋ฆฌํ๋ ์๋ฅผ ์ํํ๋ ๋จ๊ณ๋ก์, ๋น - ํ๋ฐ์ฑ ๋ฉ๋ชจ๋ฆฌ ์ฅ์น์ ๋ณต์์ ์กด๋ค ์ค์์, ์ง์ ํ์ - ์คํ ์ ์ ์กํฐ๋ธ ์ํ๋ฅผ ๊ฐ๋ ์กด์ ํ๋์ ๋ธ๋ก์์ ์์ฐจ์ ์ผ๋ก ์ฐ๊ธฐ ๊ฐ๋ฅํ๋๋ก ์ฒ๋ฆฌ๋๋ ๊ฒ, ์ 1 ์กํฐ๋ธ ์กด ๋ฆฌํ๋ ์๋ฅผ ์ํํ ํ, ์ 1 ๋ฒํผ ๋ฉ๋ชจ๋ฆฌ์ ์ํด, ์ 1 ์ฐ๊ธฐ ์์ฒญ์ ๋ฐ๋ผ ํธ์คํธ๋ก๋ถํฐ ๋ณต์์ ์กด๋ค ์ค ์ 1 ์กด์ ์ 1 ๋ธ๋ก์ ์ ์ฅ๋ ์ 1 ํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ์์ ํ๋ ๋จ๊ณ, ์ 1 ์ฐ๊ธฐ ์์ฒญ์ ์ฒ๋ฆฌํ๋ ๋์, ํธ์คํธ๋ก๋ถํฐ ์ 1 ํ์ - ์คํ ์์ฒญ์ ์์ ํ๋ ๋จ๊ณ, ๋ฐ ์ 1 ํ์ - ์คํ ์์ฒญ์ ๊ธฐ์ดํ์ฌ ์ 1 ๋ธ๋ก ๋์ ๋น - ํ๋ฐ์ฑ ๋ฉ๋ชจ๋ฆฌ ์ฅ์น์ ์ 1 PLP(power loss protection) ๋ธ๋ก์ ์ 1 ํ๊ฒ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ ๋จ๊ณ๋ฅผ ํฌํจํ๋ค. |
๋ณธ ๋ฐ๋ช
์ ๋ฐ๋ฅธ ์์ ์ ์ ์๋น์ค ์ค๊ฐ ์์คํ
์, ํฌ๋กค๋ง ๋ชจ๋๋ถ๋ฅผ ํฌํจํ๊ณ , ๋์์ ์ฝํ
์ธ ํ๋ซํผ๊ณผ ์ฐ๋ํ์ฌ ๋ณต์์ ํฌ๋ฆฌ์์ดํฐ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ํฌ๋ฆฌ์์ดํฐ ๋ฐ์ดํฐ ์์ง๋ถ; ์๋ขฐ์ธ์ ํ๋ณด์์์ ์ ์๋ขฐ์ ๋ํ ์ ๋ณด๋ฅผ ์
๋ ฅ๋ฐ๋ ์๋ขฐ์ธ ๋จ๋ง ์ฐ๋๋ถ; ๋ณต์์ ํฌ |