gpt2-small-turkish開源模型 - 免費部署助力土耳其語文本生成

首頁

Gpt2 Small Turkish

由gorkemgoknar開發

這是一個基於GPT2-Small英語模型的微調版本，使用土耳其語維基百科文章進行訓練，適用於土耳其語文本生成任務。

大型語言模型其他開源協議:Apache-2.0 #土耳其語生成 #維基百科微調 #文本續寫

下載量 545

發布時間 : 3/2/2022

模型概述

該模型是基於GPT2架構的土耳其語文本生成模型，主要用於土耳其語的文本自動補全和生成任務。

模型特點

土耳其語優化

專門針對土耳其語進行了微調，提高了土耳其語文本生成的質量。

基於維基百科訓練

使用土耳其語維基百科文章進行訓練，具有豐富的語言知識。

多長度支持

支持最大1024的序列長度，適合生成較長的文本內容。

模型能力

土耳其語文本生成

文本自動補全

語言模型預測

使用案例

內容創作

自動文章寫作

根據給定的開頭自動生成完整的土耳其語文章

文本補全

根據部分輸入自動補全完整的句子或段落

教育

語言學習輔助

幫助土耳其語學習者生成示例句子和文本

🚀 土耳其語微調GPT2模型

本項目基於GPT2-Small英文模型，使用2020年10月28日的土耳其語維基百科文章進行微調與額外訓練。該模型可用於自然語言處理任務，為土耳其語相關的文本生成等應用提供支持。

🚀 快速開始

安裝

from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("gorkemgoknar/gpt2-small-turkish")
model = AutoModelWithLMHead.from_pretrained("gorkemgoknar/gpt2-small-turkish")

# Get sequence length max of 1024
tokenizer.model_max_length=1024 

model.eval()  # disable dropout (or leave in train mode to finetune)

生成一個單詞

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output
outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

# results
print('input text:', text)
print('predicted text:', predicted_text)

# input text: 
# predicted text:

生成完整序列

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output using Top-k sampling text generation method
sample_outputs = model.generate(inputs.input_ids,
                                pad_token_id=50256,
                                do_sample=True, 
                                max_length=50, # put the token number you want
                                top_k=40,
                                num_return_sequences=1)

# generated sequence
for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\\\\
\\\\
{}".format(i+1, tokenizer.decode(sample_output.tolist())))

# >> Generated text
#

✨ 主要特性

微調模型：基於GPT2-Small英文模型，使用土耳其語維基百科文章進行微調，更適配土耳其語相關任務。
多用途：可用於文本生成、單詞預測等自然語言處理任務。
即時演示：提供基於該模型的即時演示，可在 https://www.metayazar.com/ 查看。
微調寫作器：有基於此模型的微調寫作器，地址為 https://huggingface.co/gorkemgoknar/gpt2-turkish-writer。

📦 安裝指南

使用以下代碼安裝所需的庫和加載模型：

from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("gorkemgoknar/gpt2-small-turkish")
model = AutoModelWithLMHead.from_pretrained("gorkemgoknar/gpt2-small-turkish")

# Get sequence length max of 1024
tokenizer.model_max_length=1024 

model.eval()  # disable dropout (or leave in train mode to finetune)

💻 使用示例

基礎用法

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output
outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

# results
print('input text:', text)
print('predicted text:', predicted_text)

# input text: 
# predicted text:

高級用法

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output using Top-k sampling text generation method
sample_outputs = model.generate(inputs.input_ids,
                                pad_token_id=50256,
                                do_sample=True, 
                                max_length=50, # put the token number you want
                                top_k=40,
                                num_return_sequences=1)

# generated sequence
for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\\\\
\\\\
{}".format(i+1, tokenizer.decode(sample_output.tolist())))

# >> Generated text
#

📚 詳細文檔

模型描述

這是一個基於GPT2-Small英文的模型，截至2020年10月28日，使用土耳其語維基百科文章進行了微調與額外訓練。

即時演示：https://www.metayazar.com/
微調寫作器：https://huggingface.co/gorkemgoknar/gpt2-turkish-writer
參考教程：https://github.com/piegu/fastai-projects/blob/master/finetuning-English-GPT2-any-language-Portuguese-HuggingFace-fastaiv2.ipynb
代碼適配：代碼已轉換為適用於Fastai 2.X。
訓練環境：使用Google Colab進行訓練。
後續教程和源碼：後續將在 https://github.com/gorkemgoknar 提供。

預期用途與限制

預期用途

該模型可用於土耳其語的文本生成、單詞預測等自然語言處理任務。

限制和偏差

該模型的訓練數據來自土耳其語維基百科，其中包含大量未經過濾的互聯網內容，遠非中立。

訓練數據

使用2020年10月28日的土耳其語維基百科文章轉儲作為訓練數據。

評估結果

輪次	訓練損失	驗證損失	準確率	困惑度	時間
0	4.777015	4.621834	0.292547	101.680367	2:42:05
1	4.509412	4.403999	0.305574	81.777267	1:09:38
2	4.169529	4.120755	0.324908	61.605747	1:07:45
3	4.293973	4.177899	0.317211	65.228653	1:07:02
4	4.049848	3.949103	0.338347	51.888783	1:05:53