🚀 🇹🇷 土耳其語 GPT - 2 模型
本倉庫發佈了一個基於多種土耳其語文本訓練的 GPT - 2 模型。該模型可作為在其他文本上進行微調的起點。
🚀 快速開始
模型使用
模型本身可以按如下方式使用:
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")
下面是一個使用強大的 Transformers Pipelines 進行文本生成的示例:
from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)
克隆模型倉庫
git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased
✨ 主要特性
- 該模型基於多種土耳其語文本進行訓練,可作為在其他文本上微調的起點。
- 提供了與 PyTorch 和 TensorFlow 兼容的模型權重。
📦 安裝指南
克隆模型倉庫的步驟如下:
git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")
高級用法
from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)
📚 詳細文檔
訓練語料
使用了從 oscar - corpus 中獲取的土耳其語語料。藉助 Huggingface 的 Tokenizers 庫創建了字節級 BPE。基於訓練語料庫,使用 Tokenizers 庫創建了一個包含 52K 的字節級 BPE 詞彙表。創建詞彙表後,在兩塊 2080TI 顯卡上,對完整的訓練語料庫進行了五個輪次的訓練,從而得到了適用於土耳其語的 GPT - 2 模型。
訓練期間的日誌:
https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars
模型權重
同時提供了與 PyTorch 和 TensorFlow 兼容的模型權重。
🔧 技術細節
在訓練過程中,使用了字節級 BPE 分詞方法,藉助 Huggingface 的 Tokenizers 庫創建了 52K 的字節級 BPE 詞彙表。訓練在兩塊 2080TI 顯卡上進行,對完整的訓練語料庫進行了五個輪次的訓練。訓練日誌可通過鏈接查看:https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars 。
📄 聯繫信息(問題反饋、貢獻等)
如果您對土耳其語 GPT - 2 模型有任何疑問,請在此處提交問題 🤗。