🚀 ベトナム語ニュース要約用の微調整済みMT5モデル
このプロジェクトは、ベトナム語のニュース記事を要約するために微調整されたgoogle/mt5-small
モデルを提供します。モデルのトレーニングには、OpenHust/vietnamese-summarization
データセットを使用しています。
🚀 クイックスタート
このセクションでは、モデルの使用方法を簡単に説明します。
✨ 主な機能
- ベトナム語のニュース記事を要約することができます。
- 事前学習済みの
google/mt5-small
モデルを微調整しています。
📦 インストール
必要なライブラリをインポートすることで、環境をセットアップできます。
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer, Seq2SeqTrainingArguments, Seq2SeqTrainer
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer
💻 使用例
基本的な使用法
モデルをロードし、推論を行う基本的な手順を示します。
model_name = "danhtran2mind/viet-news-sum-mt5-small-finetune"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
高度な使用法
実際のニュース記事を入力として、要約を生成する例です。
def preprocess_input(text):
inputs = tokenizer(text, max_length=512, truncation=True, padding="max_length", return_tensors="pt")
return inputs
def generate_summary(text):
inputs = preprocess_input(text)
with torch.no_grad():
summary_ids = model.generate(
inputs["input_ids"],
attention_mask=inputs["attention_mask"],
max_length=128,
early_stopping=True
)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
return summary
input_text = """
Vào ngày 8-1, khoa gây mê hồi sức Bệnh viện Đa khoa Đức Giang tiếp nhận bệnh nhân L.T.N.T. (23 tuổi, Chương Mỹ, Hà Nội) trong tình trạng hôn mê sau tai nạn giao thông.
Thai phụ mang thai 26 tuần bị viêm phổi, chấn thương sọ não nghiêm trọng với xuất huyết dưới nhện và tụ máu dưới màng cứng trán phải.
Theo bác sĩ Lê Nguyễn An - trưởng khoa gây mê hồi sức Bệnh viện Đa khoa Đức Giang, vấn đề thách thức trong quá trình điều trị với bệnh nhân này là việc cần phải đảm bảo sức khỏe cho cả mẹ và con là rất khó khăn.
"Các bác sĩ cố gắng duy trì tuổi thai ngoài 30 tuần để đảm bảo việc khi sinh ra trẻ có thể phát triển bình thường. Việc đảm bảo an toàn tính mạng cho mẹ cũng phải cân đối phù hợp, hạn chế tối thiểu việc ảnh hưởng tới thai nhi", bác sĩ An nói.
Trong suốt quá trình điều trị, các bác sĩ liên tục phối hợp với chuyên khoa sản và dinh dưỡng để đánh giá và điều chỉnh liên tục cho người bệnh để đảm bảo sự phát triển của em bé trong bụng mẹ.
Đặc biệt việc chăm sóc người bệnh ở trạng thái hôn mê, thở qua mở khí quản rất khó khăn, nhiều nguy cơ rủi ro về tình trạng nhiễm khuẩn, thiếu hụt dinh dưỡng, loét trợt điểm tì đè, nguy cơ suy thai".
Sau 70 ngày điều trị, tình trạng của sản phụ dần ổn định. Các chỉ số sinh tồn cải thiện, bệnh nhân tự thở qua mở khí quản, thai phát triển bình thường.
Tối 15-3, sản phụ có dấu hiệu chuyển dạ, thai 36 tuần (theo dự kiến sinh), ngôi ngược, ối vỡ sớm. Đội ngũ bác sĩ quyết định mổ lấy thai.
Ca phẫu thuật thành công, một bé trai nặng 2kg chào đời khóc to, niêm mạc hồng hào trong niềm hạnh phúc vô bờ của đội ngũ y bác sĩ và gia đình.
Ba ngày sau mổ, sản phụ tỉnh táo, tự ăn uống, được rút mở khí quản. Dự kiến cả mẹ và bé xuất viện trong ngày 21-3.
"""
input_text = input_text.replace("\n", "")
summary = generate_summary(input_text)
print(f"Summary: {summary}")
出力例
📚 ドキュメント
トレーニングノートブック
利用可能な場所: トレーニングノートブック
データセット
利用可能な場所: OpenHust/vietnamese-summarization
ベースモデル
利用可能な場所: google/mt5-small
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 3e-4
- train_batch_size: 12
- eval_batch_size: 12
- seed: 42
- weight_decay: 0.01
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- num_epochs: 50
評価指標
- トレーニング損失: 0.052300
- 検証損失: 0.006372
- 検証セットのBLEUスコア: 0.9964783232500736
依存関係のバージョン
Pythonバージョン
バージョン: 3.10.12
インポートライブラリ
pandas==2.2.3
numpy==1.26.4
torch==2.5.1
nltk==3.2.4
pytorch-cuda==12.1
datasets==3.3.1
tqdm==4.67.1
transformers==4.47.0
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。