🚀 土耳其語大語言模型turkish - gpt2 - large - 750m - instruct - v0.1
本項目基於ytu - ce - cosmos/turkish - gpt2 - large
模型,微調後的土耳其語大語言模型(LLM),使用包含35000條指令的數據集進行微調。由於訓練數據來源廣泛,涵蓋網站、書籍等多種文本,模型可能存在偏差並生成錯誤答案,用戶需謹慎使用。
🚀 快速開始
文本生成示例
import torch
from transformers import AutoTokenizer, GPT2LMHeadModel
from transformers import pipeline
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device_id = 0 if torch.cuda.is_available() else -1
model = GPT2LMHeadModel.from_pretrained("ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1")
text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
def get_model_response(instruction):
instruction_prompt = f"### Kullanıcı:\n{instruction}\n### Asistan:\n"
result = text_generator(instruction_prompt)
generated_response = result[0]['generated_text']
return generated_response[len(instruction_prompt):]
model_response = get_model_response("Evde egzersiz yapmanın avantajlarını açıkla.")
print(model_response)
"""
Evde egzersiz yapmak, gelişmiş fiziksel ve zihinsel sağlık için harika bir yoldur. Düzenli egzersizin, artan enerji seviyeleri, gelişmiş kas gücü ve esnekliği, gelişmiş uyku kalitesi ve daha iyi genel esenlik dahil olmak üzere birçok faydası vardır. Evde egzersiz yapmak ayrıca stresi azaltmaya, kas gücünü artırmaya ve genel sağlığı iyileştirmeye yardımcı olabilir.
"""
對話模板示例
chat_generator = pipeline("conversational", model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
messages = [
{"role": "user", "content": "Evde egzersiz yapmanın avantajlarını açıkla."}
]
chat_outputs = chat_generator(messages)
print(chat_outputs)
"""
Conversation id: 236ffc4a-2a36-4191-92fb-90d6753df1ae
user: Evde egzersiz yapmanın avantajlarını açıkla.
assistant: Evde egzersiz yapmak, gelişmiş fiziksel ve zihinsel sağlık için sayısız avantaj sunar. Düzenli egzersiz, stresi azaltmaya, kas gücünü artırmaya ve genel sağlığı iyileştirmeye yardımcı olabilir. Ayrıca, evde egzersiz yapmak, daha iyi uyku kalitesi, artan enerji seviyeleri ve gelişmiş bilişsel işlevler gibi daha iyi fiziksel ve zihinsel sağlık sonuçları sağlayabilir. Evde egzersiz yapmak ayrıca, gelişmiş esneklik, denge ve koordinasyon, gelişmiş kalp sağlığı ve gelişmiş kemik sağlığı dahil olmak üzere gelişmiş fiziksel ve zihinsel sağlık yararları sağlayabilir.
"""
🔧 技術細節
訓練詳情
- 我們使用包含35000條指令的土耳其語數據集對該模型進行了精細微調,以提高其準確性和適應性。
- 通過採用LoRA(低秩自適應)技術,我們成功將該模型的性能提升到了新的高度。
- LoRA 配置:
- rank = 256
- lora_alpha = 512
- lora_dropout = 0.05
- bias="none"
- task_type="CAUSAL_LM"
- 除了監控損失外,我們還成功將Rouge計算集成到系統的評估指標中。
- 我們採用的一項創新技術是使用模型對數據進行清洗。
其他相關信息可在論文中找到。
模型描述
屬性 |
詳情 |
開發者 |
ytu - ce - cosmos |
微調基礎模型 |
ytu - ce - cosmos/turkish - gpt2 - large |
📄 許可證
本項目採用MIT許可證。
📚 引用信息
@article{kesgin2024introducing,
title={Introducing cosmosGPT: Monolingual Training for Turkish Language Models},
author={Kesgin, H Toprak and Yuce, M Kaan and Dogan, Eren and Uzun, M Egemen and Uz, Atahan and Seyrek, H Emre and Zeer, Ahmed and Amasyali, M Fatih},
journal={arXiv preprint arXiv:2404.17336},
year={2024}
}
📦 框架版本
📞 聯繫我們
COSMOS AI研究小組,伊迪茲技術大學計算機工程系
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr