🚀 GPT-2
GPT-2是一個基於越南語預訓練的GPT模型,採用因果語言建模(CLM)目標進行訓練。該模型在 這篇論文 中被提出,並首次在 此頁面 發佈。它能夠為越南語相關的文本生成任務提供強大的支持,助力自然語言處理領域在越南語場景下的應用。
🚀 快速開始
本部分將介紹如何快速使用該模型進行文本生成。
💻 使用示例
基礎用法
以下是使用Python調用該模型進行文本生成的示例代碼:
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
tokenizer = GPT2Tokenizer.from_pretrained('NlpHUST/gpt2-vietnamese')
model = GPT2LMHeadModel.from_pretrained('NlpHUST/gpt2-vietnamese')
text = "Việt Nam là quốc gia có"
input_ids = tokenizer.encode(text, return_tensors='pt')
max_length = 100
sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id,
do_sample=True,
max_length=max_length,
min_length=max_length,
top_k=40,
num_beams=5,
early_stopping=True,
no_repeat_ngram_size=2,
num_return_sequences=3)
for i, sample_output in enumerate(sample_outputs):
print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
print('\n---')
運行上述代碼後,可能會得到如下的生成文本:
>> Generated text 1
Việt Nam là quốc gia có nền kinh tế hàng đầu thế giới về sản xuất, chế biến và tiêu thụ các sản phẩm nông sản, thủy sản. Tuy nhiên, trong những năm gần đây, nông nghiệp Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đặc biệt là những tác động tiêu cực của biến đổi khí hậu.
Theo số liệu của Tổng cục Thống kê, tính đến cuối năm 2015, tổng diện tích gieo trồng, sản lượng lương thực, thực phẩm cả
---
>> Generated text 2
Việt Nam là quốc gia có nền kinh tế thị trường định hướng xã hội chủ nghĩa, có vai trò rất quan trọng đối với sự phát triển bền vững của đất nước. Do đó, trong quá trình đổi mới và hội nhập quốc tế, Việt Nam đã và đang phải đối mặt với không ít khó khăn, thách thức, đòi hỏi phải có những chủ trương, chính sách đúng đắn, kịp thời, phù hợp với tình hình thực tế. Để thực hiện thắng lợi mục tiêu, nhiệm vụ
---
>> Generated text 3
Việt Nam là quốc gia có nền kinh tế thị trường phát triển theo định hướng xã hội chủ nghĩa. Trong quá trình đổi mới và hội nhập quốc tế hiện nay, Việt Nam đang phải đối mặt với nhiều khó khăn, thách thức, đòi hỏi phải có những giải pháp đồng bộ, hiệu quả và phù hợp với tình hình thực tế của đất nước. Để thực hiện thắng lợi mục tiêu, nhiệm vụ mà Nghị quyết Đại hội XI của Đảng đề ra, Đảng và Nhà nước đã ban hành
---
🔧 技術細節
模型架構
該模型是一個基於Transformer的語言模型,具有12層,隱藏層大小為768。
訓練情況
此模型在越南語Oscar數據集(32GB)上進行訓練,以優化傳統的語言建模目標。訓練在v3 - 8 TPU上進行了約6天,在從Oscar數據集中選取的驗證集上達到了約13.4的困惑度。
GPT - 2微調
以下示例展示瞭如何在WikiText - 2數據集上微調GPT - 2模型。我們使用的是原始的WikiText - 2數據集。
可以使用 此腳本 進行微調,具體命令如下:
python run_clm.py \
--model_name_or_path NlpHUST/gpt2-vietnamese \
--dataset_name wikitext \
--dataset_config_name wikitext-2-raw-v1 \
--per_device_train_batch_size 8 \
--per_device_eval_batch_size 8 \
--do_train \
--do_eval \
--output_dir /tmp/test-clm
📄 聯繫信息
如果您有與本項目相關的個人交流需求,請聯繫Nha Nguyen Van(nha282@gmail.com)。