T

TC Instruct DPO

由tanamettpk開發
基於颱風7B微調的泰語指令優化模型,採用直接偏好優化(DPO)技術訓練
下載量 28
發布時間 : 2/17/2024

模型概述

該模型是基於SCB 10X的颱風7B(源自米斯特拉爾7B)微調而來的泰語指令優化模型,專為研究大語言模型構建流程而開發。採用QLoRA技術訓練,支持多種泰語指令任務。

模型特點

泰語指令優化
專門針對泰語指令進行優化,確保指令的多樣性
直接偏好優化(DPO)
採用直接偏好優化技術進行訓練,提高模型響應質量
QLoRA高效微調
使用QLoRA技術(秩32,α值64)進行高效微調

模型能力

泰語文本生成
指令跟隨
問答系統

使用案例

研究應用
大語言模型構建研究
用於研究泰語大語言模型的構建流程和技術
對話系統
泰語聊天機器人
可用於構建泰語對話系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase