🚀 土耳其语大语言模型turkish - gpt2 - large - 750m - instruct - v0.1
本项目基于ytu - ce - cosmos/turkish - gpt2 - large
模型,微调后的土耳其语大语言模型(LLM),使用包含35000条指令的数据集进行微调。由于训练数据来源广泛,涵盖网站、书籍等多种文本,模型可能存在偏差并生成错误答案,用户需谨慎使用。
🚀 快速开始
文本生成示例
import torch
from transformers import AutoTokenizer, GPT2LMHeadModel
from transformers import pipeline
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device_id = 0 if torch.cuda.is_available() else -1
model = GPT2LMHeadModel.from_pretrained("ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1")
text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
def get_model_response(instruction):
instruction_prompt = f"### Kullanıcı:\n{instruction}\n### Asistan:\n"
result = text_generator(instruction_prompt)
generated_response = result[0]['generated_text']
return generated_response[len(instruction_prompt):]
model_response = get_model_response("Evde egzersiz yapmanın avantajlarını açıkla.")
print(model_response)
"""
Evde egzersiz yapmak, gelişmiş fiziksel ve zihinsel sağlık için harika bir yoldur. Düzenli egzersizin, artan enerji seviyeleri, gelişmiş kas gücü ve esnekliği, gelişmiş uyku kalitesi ve daha iyi genel esenlik dahil olmak üzere birçok faydası vardır. Evde egzersiz yapmak ayrıca stresi azaltmaya, kas gücünü artırmaya ve genel sağlığı iyileştirmeye yardımcı olabilir.
"""
对话模板示例
chat_generator = pipeline("conversational", model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
messages = [
{"role": "user", "content": "Evde egzersiz yapmanın avantajlarını açıkla."}
]
chat_outputs = chat_generator(messages)
print(chat_outputs)
"""
Conversation id: 236ffc4a-2a36-4191-92fb-90d6753df1ae
user: Evde egzersiz yapmanın avantajlarını açıkla.
assistant: Evde egzersiz yapmak, gelişmiş fiziksel ve zihinsel sağlık için sayısız avantaj sunar. Düzenli egzersiz, stresi azaltmaya, kas gücünü artırmaya ve genel sağlığı iyileştirmeye yardımcı olabilir. Ayrıca, evde egzersiz yapmak, daha iyi uyku kalitesi, artan enerji seviyeleri ve gelişmiş bilişsel işlevler gibi daha iyi fiziksel ve zihinsel sağlık sonuçları sağlayabilir. Evde egzersiz yapmak ayrıca, gelişmiş esneklik, denge ve koordinasyon, gelişmiş kalp sağlığı ve gelişmiş kemik sağlığı dahil olmak üzere gelişmiş fiziksel ve zihinsel sağlık yararları sağlayabilir.
"""
🔧 技术细节
训练详情
- 我们使用包含35000条指令的土耳其语数据集对该模型进行了精细微调,以提高其准确性和适应性。
- 通过采用LoRA(低秩自适应)技术,我们成功将该模型的性能提升到了新的高度。
- LoRA 配置:
- rank = 256
- lora_alpha = 512
- lora_dropout = 0.05
- bias="none"
- task_type="CAUSAL_LM"
- 除了监控损失外,我们还成功将Rouge计算集成到系统的评估指标中。
- 我们采用的一项创新技术是使用模型对数据进行清洗。
其他相关信息可在论文中找到。
模型描述
属性 |
详情 |
开发者 |
ytu - ce - cosmos |
微调基础模型 |
ytu - ce - cosmos/turkish - gpt2 - large |
📄 许可证
本项目采用MIT许可证。
📚 引用信息
@article{kesgin2024introducing,
title={Introducing cosmosGPT: Monolingual Training for Turkish Language Models},
author={Kesgin, H Toprak and Yuce, M Kaan and Dogan, Eren and Uzun, M Egemen and Uz, Atahan and Seyrek, H Emre and Zeer, Ahmed and Amasyali, M Fatih},
journal={arXiv preprint arXiv:2404.17336},
year={2024}
}
📦 框架版本
📞 联系我们
COSMOS AI研究小组,伊迪兹技术大学计算机工程系
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr