๐ Korean Text Summarization Model
This project presents a Korean text summarization model. It is based on a specific base model and trained with a large - scale dataset, offering an effective solution for summarizing Korean texts.
โจ Features
- Based on the gogamza/kobart-base-v2 model.
- Trained with a large - scale Korean summarization dataset from aihub.
- Capable of summarizing various types of Korean texts.
๐ฆ Installation
No specific installation steps are provided in the original document.
๐ป Usage Examples
Basic Usage
from transformers import pipeline
pipe = pipeline("summarization", model="gangyeolkim/kobart-korean-summarizer-v2")
original_text = """
(์์ธ=์ฐํฉ๋ด์ค) ํน๋ณ์ทจ์ฌํ = ์ฐํฉ๋ด์คTV์ ๋ํ ์ ๋์ ์ธ์ยทํฉ๋ณ(M&A)์ ์๋ํ๋ ์์ง์ฌ๋จ์ด ์ฌ์ค์ ๋ฐ์ค์ ํ์ฅ ์ผ๊ฐ์ '์กฑ๋ฒ๊ฒฝ์' ์ฒด์ ์์ ์ฌ์ต์ ์คํํ๋ ์๋จ์ผ๋ก ํ์ฉ๋๋ค๋ ์ง์ ์ด ๋์จ๋ค.
์์ง์ฌ๋จ์ ์ฐํ์ ๋ณ์, ๋ํ ๋ฑ ์ฌ๋ฌ ๋ฒ์ธ์ ๋๊ณ ์์ง๋ง, ๋ฐ์ค์ ํ์ฅ๊ณผ ์๋ด์ธ ํ์ฑํฌ ์์ง๋ ์ด์ฅ์ด ์์ง์ ์ฃผ๊ณ ๋ฐ์ผ๋ฉด์ ์ฌ์ค์ ํจ๊ป ๊ฒฝ์ํ๋ ์ฒด์ ๋ค.
๋น์๋ฆฌ๋ฒ์ธ์ผ๋ก ๊ฐ์ข
์ธ์ ํํ์ ๋ฐ๋ ์์ง์ฌ๋จ์ '์กฑ๋ฒ๊ฒฝ์' ํํด๋ ์ฌ๋ฌ ์ฌ๋ก๋ฅผ ํตํด ์ฌ์คํ ๋๋ฌ๋๊ณ ์๋ค.
๋ถ๋ถ๊ฐ ๋น์๊ทผ์ด์ฌ์ด๋ฉด์๋ ์ฌ๋จ์์ ๋งค๋ฌ 1์ฒ๋ง์์ฉ '์
ํ๊ธ์ฌ'๋ฅผ ๋ฐ์ ๊ฒ, ๋ฐ ํ์ฅ์ด '์ฌ๋จ ์์ ๋ณ์'์์ ๋ง์ฝ์ฑ ์งํต์ ๋ฅผ 3์ฒํ ์ด์ ์ฒ๋ฐฉ๋ฐ์ ๊ฒ, ๊ฐ์ธ ์์ ์ ๊ด๊ณํ์ฌ๋ฅผ ๋ง๋ค์ด ๋ณ์๊ณผ ๊ฑฐ๋์์ ์๊ธฐ๋ ์์ต์ ์ฑ๊ธด ๊ฒ ๋ฑ๋ฑ.
์์ง์ฌ๋จ์ ์ฐํฉ๋ด์คTV์ ์ต๋์ฃผ์ฃผ ์ง์๋ฅผ ๋
ธ๋ฆฌ๋ฉด์ ๊ทธ ์ด์ ๋ฐฉ์นจ์ผ๋ก '์์ ์ ๊ฒฝ์์ ๋ถ๋ฆฌ', '๊ณต์ ์ฑ ๋ฐ ๊ณต์ต์ฑ ์คํ'์ ๋ด์ธ์ ๋ค.
ํ์ง๋ง ๋ฐ ํ์ฅ ๋ถ๋ถ์ ์ด์ต์ ์ํด ์ฒ ์ ํ๊ฒ ์ฌ๋จ์ '์ฌ์ ํ'ํ ํํ๊ฐ ์ฌ๋ฌ ์ฌ๋ก๋ฅผ ํตํด ๋๋ฌ๋ ์ํฉ์์, ์ด๋ค์ ๊ณต์๋ฐฉ์ก ์ง๋ฐฐ๋ฅผ ์ฐ๋ คํ๋ ๋ชฉ์๋ฆฌ๋ ๊ฐ์๋ก ์ปค์ง๊ณ ์๋ค.
"""
summarized = pipe(original_text)
print(summarized[0]["summary_text"])
๐ง Technical Details
Base Model
This model is based on gogamza/kobart-base-v2 and is trained using summarization data from aihub.
Datasets Used (683,335 cases)
Training
The training process used one Nvidia A100 GPU and took 17 hours for 3 epochs.
๐ License
This project is licensed under the CC - BY - NC 4.0 license.