gpt2-turkish-900m開源大語言模型 - 免費部署助力土耳其語文本生成

首頁

Gpt2 Turkish 900m

由cenkersisman開發

基於GPT-2架構的土耳其語大語言模型，專為土耳其語文本生成任務設計

大型語言模型

Transformers

其他#土耳其語文本生成 #小寫敏感輸入 #有限長度生成

下載量 246

發布時間 : 8/15/2023

模型概述

該模型是基於GPT-2架構構建的土耳其語大語言模型，採用專門設計的土耳其語分詞器，能夠根據給定起始文本生成類人文本。

模型特點

土耳其語優化

採用符合土耳其語拼寫規則的分詞器，專門針對土耳其語文本進行優化

有限長度生成

句子最大長度限制為128個詞元，適合生成較短文本

本地化訓練

在包含9億字符的土耳其語維基百科數據集上進行訓練

模型能力

土耳其語文本生成

上下文續寫

問答生成

使用案例

教育

語言學習輔助

為土耳其語學習者提供示例句子和練習材料

內容創作

創意寫作

幫助作家生成土耳其語創意文本片段

🚀 GPT - 2土耳其語模型

GPT - 2土耳其語模型是專門針對土耳其語定製的大型數據模型，屬於大語言模型（LLM）類別。它基於GPT - 2架構構建，擁有專門定製的分詞器結構，代表了一個土耳其語語言模型。該模型能夠利用給定的起始文本生成類似人類的文本，並且在大量的土耳其語文本數據集上進行了訓練。

🚀 快速開始

模型使用說明

重要提示：由於模型對大小寫敏感，因此提示詞必須全部使用小寫字母。

# 用模型進行推理的示例代碼
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model_name = "cenkersisman/gpt2-turkish-128-token"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

prompt = "okyanusun derinliklerinde bulunan"
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, pad_token_id=tokenizer.eos_token_id)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

✨ 主要特性

GPT - 2土耳其語模型具有以下特性：

基於GPT - 2架構，專為土耳其語定製。
擁有特殊的分詞器結構，符合土耳其語的詞法特點。
能夠根據起始文本生成自然流暢的文本。
在大規模土耳其語文本數據集上進行訓練，具有廣泛的語言理解能力。

📦 安裝指南

文檔未提及安裝相關內容，若有安裝需求，可參考transformers庫的安裝方式來安裝所需依賴。

💻 使用示例

基礎用法

# 用模型進行推理的示例代碼
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model_name = "cenkersisman/gpt2-turkish-128-token"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

prompt = "okyanusun derinliklerinde bulunan"
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, pad_token_id=tokenizer.eos_token_id)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

📚 詳細文檔

模型描述

GPT - 2土耳其語模型是一個專門為土耳其語定製的大型語言模型。它基於GPT - 2架構，分詞器結構是專門為土耳其語設計的。該模型能夠使用給定的起始文本生成類似人類的文本，並且在一個包含9億字符的維基百科數據集上進行了訓練。

訓練集中的句子最多由128個詞元（詞元 = 詞根和詞綴）組成，因此生成的句子長度是有限的。模型使用了符合土耳其語詞法結構的分詞器，並在大約154個週期內進行了750萬步的訓練。訓練使用了具有4GB內存的Nvidia Geforce RTX 3050 GPU，還利用了16GB共享GPU，訓練過程中總共使用了20GB內存。

訓練過程曲線

image/png

🔧 技術細節

訓練數據：使用了9億字符的維基百科數據集進行訓練。
分詞器：採用了符合土耳其語詞法結構的分詞器。
訓練步數和週期：模型在大約154個週期內進行了750萬步的訓練。
硬件資源：訓練使用了具有4GB內存的Nvidia Geforce RTX 3050 GPU，還利用了16GB共享GPU，訓練過程中總共使用了20GB內存。