๐ Kobart Summary
This is a summarization model fine - tuned on the KoBART architecture, aiming to generate high - quality summaries for various types of text.
๐ Quick Start
โจ Features
๐ฆ Installation
This model is based on the transformers
library. You can install it via the following command:
pip install transformers
๐ป Usage Examples
Basic Usage
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration
tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-summary-v3")
model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-summary-v3")
input_text = "10๋
๋
ผ๋ ๋์ ๋ฐ๊ธ์จ๊น์ง ์๊ธฐ๊ณ ์ ์ ์๋ฃ๋ฅผ ๋์์ ๋ โ๊ดํ๋ฌธ ํํโ์ ์์ ์์ ์ฌ๊ฒํ ํด ํ๊ธ ํํ์ผ๋ก ๊ต์ฒดํ์๋ ์ฃผ์ฅ์ด ๋ฌธํ๊ณ ๋ช
์ฌ๋ค์ด ํฌํจ๋ ์์นญ โ์๋ฏผ๋ชจ์โ์์ ๋์๋ค.\n ์ด๋ค์ ๋ฌธํ์ฌ์ฒญ์ด ์ง๋ํด 8์ ์ต์ข
ํ์ ํ ๋ณต์์์ด ์๋ฏผ ์๊ฒฌ๊ณผ ์๋์ ์ ์ ๋ฐ์ํ ๊ฒ์ด ์๋๋ผ๋ฉด์ ์ค๋ ํ๊ธ๋ ๊น์ง ๋๋์ ์ธ ํํ ๊ต์ฒด ์๋ฏผ์ด๋์ ๋ฒ์ด๊ฒ ๋ค๊ณ ์๊ณ ํ๋ค.\n โ๊ดํ๋ฌธ ํํ ํ๋ฏผ์ ์์ฒด๋ก ์๋ฏผ๋ชจ์โ(๊ณต๋๋ํ ๊ฐ๋ณ์ธโงํ์ฌ์ค, ์ดํ โ์๋ฏผ๋ชจ์โ)์ ์ด๋ฆ์ ์ฌ๋ฆฐ ๋ฌธํ์์ ์ธ์ ํ์ฌ๊น์ง ์ด 24๋ช
.\n ์ด ์ค์ 2014~2016๋
์์ธ์ ์ด๊ด๊ฑด์ถ๊ฐ๋ฅผ ์ง๋ธ ์นํจ์ ์ด๋ก์ฌ ๋ํ์ โ์์์์ฒดโ๋ก ์ ๋ช
ํ ์์์ ํ์ฃผํ์ดํฌ๊ทธ๋ผํผํ๊ต ๊ต์ฅ, ์ ์์ ์ ํ๊ฒฝ๋ถ์ฅ๊ด(์ธ์ข
์ฌ๋๋ฐฉ ํ์ฅ), ์์ฅ์ ๋ฏธ์ ๊ฐ ๋ฑ์ด ์๋ค.\n ๊ณต๋๋ํ์ธ ๊ฐ๋ณ์ธ ์๊ฐ๋ โ์ฐธ์ด์ฌโ โํ์โ ๋ฑ์ ์ํ ๊ธ์จ๋ก ์ ๋ช
ํ ์บ๋ฆฌ๊ทธ๋ผํผ(์์ฒด) ์๊ฐ๋ค.\n โ์๋ฏผ๋ชจ์โ์ 14์ผ ์คํ ์์ธ ์ข
๋ก๊ตฌ์ ํ ์์ ์์ ๊ธฐ์๊ฐ๋ดํ๋ฅผ ์ด๊ณ ์ด ๊ฐ์ ์
์ฅ๊ณผ ํจ๊ป ํ๋ฏผ์ ์ ํด๋ก ๊ธ์๊ผด๋ก ์๋ฒ ์ ์ํ ๋ชจํ ํํ(1/2 ํฌ๊ธฐ ์ถ์ํ)๋ ๊ณต๊ฐํ ์์ ์ด๋ค.\n ๊ฐ ๊ณต๋๋ํ๋ 13์ผ ๊ธฐ์์ ํตํ์์ โ์ ํํ ์ ์ ๊ณผ์ ์์ ํ๊ธ๋ก ๋ง๋ค์๋ ์๊ฒฌ์ ๋ฌต์ด๋๋คโ๋ฉด์ โ์ง๋ํด 8์ ์ดํ ๋ฌธํ์ฌ์ฒญ์ ๊ฑฐ๋ญ ์
์ฅ์ ์ ํ์ง๋ง ๋ฐ์๋์ง ์์ ์๋ฏผ์ด๋์ ๋์๊ธฐ๋ก ํ๋คโ๊ณ ๋งํ๋ค.\n ์ผ๋จ ๋ฌธํ์์ ์ธ ์ฃผ์ถ์ผ๋ก ๊พธ๋ ธ์ง๋ง ์กฐ๋ง๊ฐ ํ๊ธํํ ๋ฑ ํ๊ธ ๊ด๋ จ๋จ์ฒด๋ค๊ณผ ์ฐ๋ํ๋ค๋ ๋ฐฉ์นจ์ด๋ค.\n ์ด๋ค์ด ๋ฐฐํฌํ ์ฌ์ ์๋ฃ์ ^ํ์ํํ ์ค์น๋ ์ค๊ตญ์ ์๊ตญ์์ ํ์ํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฏผ๊ตญ ์ ์ฒด์ฑ์ ๋์์ด ๋์ง ์๊ณ ^๊ดํ๋ฌธ์ 21์ธ๊ธฐ์ ์ค๊ฑด์ด์ง ๋ณต์์ด ์๋๋ฏ๋ก ๋น๋์ ์๋์ ์ ์ธ ํ๊ธ๋ก ํํ์ ์จ์ผํ๋ฉฐ ^ํ๊ธํํ์ ๋ฏธ๋์ ๋จ๊ฒจ์ค ์ฐ๋ฆฌ ์ ์ฐ์ ์ฌ์ฐฝ์กฐํ๋ค๋ ์๋ฏธ๋ผ๋ ์ฃผ์ฅ์ด ๋ด๊ฒผ๋ค.\n ํ์ฌ ๊ดํ๋ฌธ ํํ์ ๋ํด์ โ๊ณ ์ข
์ด ๊ฒฝ๋ณต๊ถ์ ์ค๊ฑดํ ๋ ๋น์ ํ๋ จ๋์ฅ์ด๋ ์ํ์์ด ์ด ๊ดํ๋ฌธ ํํ์ ๊ธ์จ๋ฅผ ์กฐ๊ทธ๋ง ์ฌ์ง์์ ์ค์บ๋ํ๊ณ ์ด๋ฅผ ๋ค๋ฌ์ด ์ด๋ช
๋ฐ์ ๋ถ ๋ ์ค์น๋ ๊ฒโ์ด๋ผ๋ฉด์ ๋ณต์ ๊ธฐ์ค์ผ๋ก์์ ์ ๋น์ฑ์ ๊น์๋ด๋ ธ๋ค.\n โ์๋ฏผ๋ชจ์โ์ ์ฐธ์ฌํ ์นํจ์ ๋ํ๋ ๊ฐ์ธ์๊ฒฌ์ ์ ์ ๋ก โํํ์ ๊ผญ ํ๊ฐ์ง๋ง ๊ณ ์งํ ํ์๋ ์๋ค.\n ๋งค๋
๊ต์ฒดํ ์๋ ์๊ณ , ๊ด์ฅ์์ ๋ณด์ด๋ ์ ๋ฉด์ ํ๊ธํํ, ๋ฐ๋ํธ์ ํ์ํํ์ ๋ค๋ ์์ด๋์ด๋ ๊ฐ๋ฅํ ๊ฒ ์๋๋โ๊ณ ๋งํ๋ค.\n ๊ทธ๋ฌ๋ฉด์ โ๋ฌธํ์ฌ ์ ๋ฌธ๊ฐ๋ค์ ๋ณด์์ ์ผ ์๋ฐ์ ์์ง๋ง ํํ์ด๋ ๊ฒ ์์ฆ ๋ง๋ก๋ โ๊ฐํโ์ธ๋ฐ ์ ์๋์ ๋ง๊ฒ ๋ฐ๊ฟ ๋ค๋ ๊ฒ ๋ฐ๋์งํ๋คโ๊ณ ์ฃผ์ฅํ๋ค.\n"
inputs = tokenizer(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026)
summary_text_ids = model.generate(
input_ids=inputs['input_ids'],
attention_mask=inputs['attention_mask'],
bos_token_id=model.config.bos_token_id,
eos_token_id=model.config.eos_token_id,
length_penalty=1.0,
max_length=300,
min_length=12,
num_beams=6,
repetition_penalty=1.5,
no_repeat_ngram_size=15,
)
print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))
๐ License
The license information is not provided in the original document. If you need to know the license details, please refer to the official repository on Hugging Face.
๐ Documentation
- Language: Korean
- Metrics: ROUGE
- Library Name: transformers
- Pipeline Tag: Summarization
- Tags: BART
Property |
Details |
Model Type |
Fine - tuned KoBART model for summarization |
Training Data |
Data from document summarization, book material summarization, and summary and report generation |