Turkcell-LLM-7b-v1開源土耳其語大語言模型 - 實用對話、文本生成免費部署

首頁

Turkcell LLM 7b V1

由TURKCELL開發

基於Mistral 7B架構的土耳其語大語言模型，經過50億土耳其語標記訓練和指令微調

大型語言模型

Transformers

其他開源協議:Apache-2.0 #土耳其語大模型 #DORA-LORA訓練 #Mistral架構擴展

下載量 3,771

發布時間 : 4/4/2024

模型概述

這是一個專門針對土耳其語優化的7B參數大語言模型，基於Mistral架構，通過DORA方法預訓練和LORA方法微調，適用於土耳其語文本理解和生成任務

模型特點

土耳其語優化

專門針對土耳其語進行分詞器擴展和訓練數據優化

兩階段訓練

先採用DORA方法進行預訓練，再使用LORA方法進行指令微調

高效微調

使用LORA方法進行參數高效微調，降低計算資源需求

模型能力

土耳其語文本理解

土耳其語文本生成

土耳其語問答

土耳其語指令跟隨

使用案例

客戶服務

土耳其語客服聊天機器人

用於處理土耳其語客戶諮詢

提供流暢自然的土耳其語交互體驗

內容生成

土耳其語內容創作

生成土耳其語文章、報告等

生成符合土耳其語習慣的高質量文本

🚀 Turkcell-LLM-7b-v1

Turkcell-LLM-7b-v1是基於Mistral的土耳其語大語言模型的擴展版本。它在包含50億個標記的經過清理的土耳其語原始數據集上進行訓練，為土耳其語處理提供強大支持。

🚀 快速開始

本模型是基於Mistral的土耳其語大語言模型（LLM）的擴展版本。它在包含50億個標記的經過清理的土耳其語原始數據集上進行訓練。訓練過程最初採用了DORA方法，隨後使用從各種開源和內部資源創建的土耳其語指令集，通過LORA方法進行微調。

✨ 主要特性

強大基礎：基於Mistral 7B大語言模型構建。
語言適配：分詞器專門針對土耳其語進行了擴展。
豐富數據：使用包含50億個標記的清理後的土耳其語原始數據和自定義土耳其語指令集進行訓練。
靈活訓練：訓練過程先採用DORA方法，後使用LORA方法進行微調。

📚 詳細文檔

模型詳情

屬性	詳情
基礎模型	基於Mistral 7B的大語言模型
分詞器擴展	專門為土耳其語擴展
訓練數據	包含50億個標記的清理後的土耳其語原始數據、自定義土耳其語指令集
訓練方法	最初使用DORA方法，隨後使用LORA方法進行微調

DORA配置

lora_alpha: 128
lora_dropout: 0.05
r: 64
target_modules: "all-linear"

LORA微調配置

lora_alpha: 128
lora_dropout: 0.05
r: 256
target_modules: "all-linear"

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("TURKCELL/Turkcell-LLM-7b-v1")
tokenizer = AutoTokenizer.from_pretrained("TURKCELL/Turkcell-LLM-7b-v1")

messages = [
    {"role": "user", "content": "Türkiye'nin başkenti neresidir?"},
]

encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")

eos_token = tokenizer("<|im_end|>",add_special_tokens=False)["input_ids"][0]

model_inputs = encodeds.to(device)
model.to(device)

generated_ids = model.generate(model_inputs, 
                               max_new_tokens=1024, 
                               do_sample=True, 
                               eos_token_id=eos_token)
                               
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])