DPO微調

# DPO微調

Llama Poro 2 8B Instruct

Poro 2 8B Instruct 是一個基於 Llama 3.1 8B 架構的指令遵循聊天機器人模型，專為芬蘭語和英語的對話式 AI 應用設計。

大型語言模型

Transformers 支持多種語言

L3.3 GeneticLemonade Unleashed V3 70B

這是一個基於Llama 3.3的70B參數大語言模型，經過SFT+DPO微調，專注於角色驅動的對話和創意內容生成

大型語言模型

EchoLLaMA是一個多模態AI系統，能夠將3D視覺數據轉化為自然語音描述，同時支持通過語音輸入進行交互對話。

圖像生成文本

Qwen2.5 14B Dpo It Ties

基於Qwen2.5-14B模型通過TIES方法融合的增強版本，專注於指令跟隨和對話優化

大型語言模型

mergekit-community

Chocolatine 2 14B Instruct V2.0.3

Chocolatine-2-14B-Instruct-v2.0.3 是一個基於 Qwen-2.5-14B 架構的大語言模型，經過 DPO 微調，專注於法語和英語任務，在法語 LLM 排行榜中表現優異。

大型語言模型

Transformers 支持多種語言

Gemma 2 9b Neogenesis Ita

基於VAGOsolutions/SauerkrautLM-gemma-2-9b-it微調的版本，優化了意大利語性能表現，支持8k上下文長度。

大型語言模型

Transformers 支持多種語言

Llama VARCO 8B Instruct

Llama-VARCO-8B-Instruct是一個基於Llama構建的生成式模型，通過額外的訓練，在韓語處理方面表現出色，同時保持英語能力。

大型語言模型

Transformers 支持多種語言

L3.1 8B Sunfall Stheno V0.6.1

Sunfall模型是基於Llama-3.1-8B-Stheno-v3.4開發的自然語言處理模型，適用於特定功能和應用場景。

大型語言模型

Tanuki 8B Dpo V1.0

Tanuki-8B是一個8B參數的日語大語言模型，經過SFT和DPO優化對話任務，由GENIAC松尾研究室開發

大型語言模型

Transformers 支持多種語言

Tanuki 8x8B Dpo V1.0

Tanuki-8x8B是從零開始預訓練的大規模語言模型，通過SFT和DPO針對對話任務進行了優化

大型語言模型

Transformers 支持多種語言

Humanish Roleplay Llama 3.1 8B

這是一個經過DPO微調的Llama-3.1模型，能表現得更'人性化'，避免AI助手式的生硬回答，適用於角色扮演場景。

大型語言模型

Ko Gemma 2 9b It

Ko-Gemma-2-9B-IT是Gemma模型系列中的一款韓語對話模型，基於google/gemma-2-9b-it進行監督微調（SFT）和直接偏好優化（DPO）訓練，專門針對韓語文本生成任務優化。

大型語言模型

Transformers 韓語

Jamet 8B L3 MK.V Blackroot

Jamet-8B-L3-MK.V-Blackroot 是一個基於 Llama 3 的角色扮演和故事敘述模型，經過多次迭代和優化，特別適合創意寫作和互動對話。

大型語言模型

Llama 3 Bophades V3 8B

基於Llama-3-8b構建的DPO微調模型，專注於提升真實性和數學推理能力

大型語言模型

Calme 2.3 Llama3 70b

基於Meta-Llama-3-70B-Instruct模型通過DPO微調的大語言模型，在多項基準測試中表現優異

大型語言模型

Transformers 英語

Flammen21 Mistral 7B

基於Mistral 7B大語言模型，通過預訓練模型合併並在Date-DPO-v2數據集上微調，擅長角色扮演、創意寫作和通用智能任務。

大型語言模型

Neural-4-QA-7b 是一個基於多個7B參數規模模型合併的大語言模型，專注於問答任務，採用DARE-TIES合併方法優化性能。

大型語言模型

Noro Hermes 3x7B

Noro-Hermes-3x7B 是一個採用懶人融合工具包構建的混合專家模型（MoE），融合了三個7B參數的Mistral變體模型，具備智能助手、創意角色扮演和通用任務處理能力。

大型語言模型

Starchat2 15b V0.1

StarChat2是基於StarCoder2微調的160億參數編程助手模型，擅長對話和代碼生成任務

大型語言模型

Zephyr 7b Gemma V0.1

Zephyr 7B Gemma是基於google/gemma-7b微調的語言模型，使用直接偏好優化(DPO)在公開合成數據集上訓練，旨在作為有用的助手。

大型語言模型

基於EEVE-Korean-Instruct-10.8B-v1.0的韓語指令優化模型，採用直接偏好優化(DPO)方法訓練

大型語言模型

ENERGY-DRINK-LOVE

Minueza 32M Chat

Minueza-32M-Chat是一個擁有3200萬參數的聊天模型，基於Felladrin/Minueza-32M-Base進行監督微調(SFT)和直接偏好優化(DPO)訓練。

大型語言模型

Transformers 英語

Olmo 7B Instruct

OLMo 7B Instruct是基於Dolma數據集訓練的開放語言模型，經過SFT和DPO優化，專為問答任務設計。

大型語言模型

Transformers 英語

EEVE Korean Instruct 10.8B V1.0

基於SOLAR-10.7B-v1.0的韓語詞彙擴展版，經過DPO微調的大語言模型

大型語言模型

Polka 1.1b Chat

首個專為本地運行設計的波蘭語對話助手模型，基於TinyLlama-1.1B擴展波蘭語分詞器並進行預訓練和DPO優化

大型語言模型

Transformers 其他

Blockchainlabs 7B Merged Test2 4 Prune Sft 4bit DPO Orca

這是一個經過剪枝和DPO訓練的7B參數規模的小型LLM，專為設備端用途優化

大型語言模型

Transformers 英語

Neuralhermes 2.5 Mistral 7B

NeuralHermes是基於OpenHermes-2.5-Mistral-7B模型，通過直接偏好優化(DPO)進一步微調而成的大語言模型，在多項基準測試中表現優異。

大型語言模型

Transformers 英語

Causallm 14B DPO Alpha GGUF

基於14B參數的因果語言模型，經過DPO優化訓練，支持中英文文本生成任務

大型語言模型支持多種語言

Mini Synatra 7b 02

Mini_synatra_7b_02是由Minirecord公司基於maywell/Synatra-7B-v0.3-dpo模型微調的大語言模型，專注於文本生成任務。

大型語言模型

14B參數規模的因果語言模型，完全兼容Meta LLaMA 2架構，在多項基準測試中超越70B以下模型

大型語言模型

Transformers 支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase