🚀 turkish - gpt2 - large - 750m - instruct - v0.1
ytu - ce - cosmos/turkish - gpt2 - large をベースにした、35,000件の命令を含むデータセットでファインチューニングされたトルコ語のテキスト生成モデルです。
🚀 クイックスタート
このコード例は、モデルを使用してテキスト生成を行う方法を示しています。
基本的な使用法
import torch
from transformers import AutoTokenizer, GPT2LMHeadModel
from transformers import pipeline
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device_id = 0 if torch.cuda.is_available() else -1
model = GPT2LMHeadModel.from_pretrained("ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1").to(device)
tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1")
text_generator = pipeline('text-generation', model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
def get_model_response(instruction):
instruction_prompt = f"### Kullanıcı:\n{instruction}\n### Asistan:\n"
result = text_generator(instruction_prompt)
generated_response = result[0]['generated_text']
return generated_response[len(instruction_prompt):]
model_response = get_model_response("Evde egzersiz yapmanın avantajlarını açıkla.")
print(model_response)
"""
Evde egzersiz yapmak, gelişmiş fiziksel ve zihinsel sağlık için harika bir yoldur. Düzenli egzersizin, artan enerji seviyeleri, gelişmiş kas gücü ve esnekliği, gelişmiş uyku kalitesi ve daha iyi genel esenlik dahil olmak üzere birçok faydası vardır. Evde egzersiz yapmak ayrıca stresi azaltmaya, kas gücünü artırmaya ve genel sağlığı iyileştirmeye yardımcı olabilir.
"""
高度な使用法
chat_generator = pipeline("conversational", model=model, tokenizer=tokenizer, device=device_id, max_new_tokens=256)
messages = [
{"role": "user", "content": "Evde egzersiz yapmanın avantajlarını açıkla."}
]
chat_outputs = chat_generator(messages)
print(chat_outputs)
"""
Conversation id: 236ffc4a-2a36-4191-92fb-90d6753df1ae
user: Evde egzersiz yapmanın avantajlarını açıkla.
assistant: Evde egzersiz yapmak, gelişmiş fiziksel ve zihinsel sağlık için sayısız avantaj sunar. Düzenli egzersiz, stresi azaltmaya, kas gücünü artırmaya ve genel sağlığı iyileştirmeye yardımcı olabilir. Ayrıca, evde egzersiz yapmak, daha iyi uyku kalitesi, artan enerji seviyeleri ve gelişmiş bilişsel işlevler gibi daha iyi fiziksel ve zihinsel sağlık sonuçları sağlayabilir. Evde egzersiz yapmak ayrıca, gelişmiş esneklik, denge ve koordinasyon, gelişmiş kalp sağlığı ve gelişmiş kemik sağlığı dahil olmak üzere gelişmiş fiziksel ve zihinsel sağlık yararları sağlayabilir.
"""
✨ 主な機能
- 様々なトピックに関する質問に回答することができます。例えば、「Türkiye'nin başkenti neresidir?」や「Su kıtlığı sorunlarına karşı çözümler neler olabilir?」などの質問に対応します。
- 文章のタイトル生成やキーワードリスト作成などのタスクも実行できます。
🔧 技術詳細
学習詳細
- このモデルは、35,000の命令を含むトルコ語データセットで細かくファインチューニングされ、精度と適応性が向上しています。
- LoRA(Low - Rank Adaptation)を採用することで、このモデルを最高の性能レベルまで引き上げました。
- LoRA 設定:
- rank = 256
- lora_alpha = 512
- lora_dropout = 0.05
- bias="none"
- task_type="CAUSAL_LM"
- 損失の監視に加えて、Rouge計算をシステムの評価指標に成功に組み込みました。
- 革新的な手法の一つとして、モデルを使用してデータをクレンジングする手法を採用しました。
その他の関連情報は論文で確認できます。
モデルの説明
属性 |
詳情 |
開発者 |
ytu - ce - cosmos |
ファインチューニング元のモデル |
ytu - ce - cosmos/turkish - gpt2 - large |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
📚 ドキュメント
引用
@article{kesgin2024introducing,
title={Introducing cosmosGPT: Monolingual Training for Turkish Language Models},
author={Kesgin, H Toprak and Yuce, M Kaan and Dogan, Eren and Uzun, M Egemen and Uz, Atahan and Seyrek, H Emre and Zeer, Ahmed and Amasyali, M Fatih},
journal={arXiv preprint arXiv:2404.17336},
year={2024}
}
フレームワークのバージョン
連絡先
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr
⚠️ 重要提示
学習データにはウェブサイト、書籍、その他のテキストソースが含まれているため、このモデルはバイアスを示す可能性があり、誤った回答を生成することがあります。ユーザーはこれらのバイアスに注意し、責任を持ってモデルを使用する必要があります。
💡 使用建议
モデルの性能を最大限に引き出すために、提供されているコード例を参考にして、適切なパラメータ設定を行ってください。また、最新の研究成果やバージョンアップ情報を追跡するために、関連する論文や公式サイトを定期的にチェックすることをおすすめします。