gpt2-turkish-cased開源模型 - 免費用於土耳其語文本生成任務起點

首頁

Gpt2 Turkish Cased

由redrussianarmy開發

針對土耳其語文本訓練的GPT-2模型，可作為文本生成任務的起點

大型語言模型其他#土耳其語文本生成 #BPE編碼優化 #多輪預訓練

下載量 1,060

發布時間 : 3/2/2022

模型概述

這是一個基於GPT-2架構的土耳其語語言模型，專門針對土耳其語文本進行訓練，適用於各類土耳其語文本生成任務。

模型特點

土耳其語專用

專門針對土耳其語文本訓練，優化了土耳其語文本生成能力

基於大規模語料

使用來自oscar-corpus的土耳其語語料庫進行訓練

多框架支持

同時提供PyTorch和Tensorflow兼容的權重文件

模型能力

土耳其語文本生成

語言模型微調基礎

使用案例

文本生成

創意寫作

生成土耳其語故事、詩歌等創意文本

內容補全

根據給定開頭補全土耳其語句子或段落

教育

語言學習

作為土耳其語學習輔助工具

🚀 🇹🇷 土耳其語 GPT - 2 模型

本倉庫發佈了一個基於多種土耳其語文本訓練的 GPT - 2 模型。該模型可作為在其他文本上進行微調的起點。

🚀 快速開始

模型使用

模型本身可以按如下方式使用：

from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")

下面是一個使用強大的 Transformers Pipelines 進行文本生成的示例：

from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
                 tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})   
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)

克隆模型倉庫

git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased

✨ 主要特性

該模型基於多種土耳其語文本進行訓練，可作為在其他文本上微調的起點。
提供了與 PyTorch 和 TensorFlow 兼容的模型權重。

📦 安裝指南

克隆模型倉庫的步驟如下：

git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")

高級用法

from transformers import pipeline
# 使用 Transformers Pipelines 進行文本生成，配置最大長度為 800
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
                 tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})   
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)

📚 詳細文檔

訓練語料

使用了從 oscar - corpus 中獲取的土耳其語語料。藉助 Huggingface 的 Tokenizers 庫創建了字節級 BPE。基於訓練語料庫，使用 Tokenizers 庫創建了一個包含 52K 的字節級 BPE 詞彙表。創建詞彙表後，在兩塊 2080TI 顯卡上，對完整的訓練語料庫進行了五個輪次的訓練，從而得到了適用於土耳其語的 GPT - 2 模型。

訓練期間的日誌： https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars

模型權重

同時提供了與 PyTorch 和 TensorFlow 兼容的模型權重。

屬性	詳情
模型類型	`redrussianarmy/gpt2-turkish-cased`
下載鏈接	`config.json` • `merges.txt` • `pytorch_model.bin` • `special_tokens_map.json` • `tf_model.h5` • `tokenizer_config.json` • `traning_args.bin` • `vocab.json`

🔧 技術細節

在訓練過程中，使用了字節級 BPE 分詞方法，藉助 Huggingface 的 Tokenizers 庫創建了 52K 的字節級 BPE 詞彙表。訓練在兩塊 2080TI 顯卡上進行，對完整的訓練語料庫進行了五個輪次的訓練。訓練日誌可通過鏈接查看：https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars 。