DPO優化

# DPO優化

Zhi Writing Dsr1 14b

基於DeepSeek-R1-Distill-Qwen-14B微調優化的創意寫作增強模型，在創意寫作方面表現顯著提升

大型語言模型

Transformers 支持多種語言

Turkish Gemma 9b V0.1

Turkish-Gemma-9b-v0.1是基於Gemma-2-9b開發的土耳其語文本生成模型，通過持續預訓練、監督微調（SFT）、直接偏好優化（DPO）和模型合併技術優化而成。

大型語言模型

Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b

基於DPO方法微調的語言模型，適用於文本生成任務

大型語言模型

這是一個基於離散Hubert標記的語音語言模型，專注於高效訓練，能夠生成語音片段的延續。

Summllama3.1 8B

SummLlama3.1-8B是基於Llama3.1-8B-Instruct初始化的文本摘要模型，通過大規模摘要反饋的直接偏好優化（DPO）訓練，在忠實性、完整性和簡潔性方面表現優異。

SummLlama3-70B是基於Llama3-70B-Instruct初始化的文本摘要模型，通過大規模摘要反饋的DPO訓練優化，在忠實性、完整性和簡潔性方面表現優異。

大型語言模型

UNA ThePitbull 21.4B V2

UNA-ThePitbull-21.4B-v2是一款基於21.4B參數的大型語言模型，性能接近70B模型，融合了情商與智商，擅長對話和文本生成。

大型語言模型

Llama3 OpenBioLLM 70B

OpenBioLLM-70B是專為生物醫學領域設計的先進開源語言模型，基於Meta-Llama-3-70B-Instruct微調，在生物醫學任務中表現卓越。

大型語言模型

Transformers 支持多種語言

Rhea-72b-v0.5是基於Smaug-72B-v0.1微調的大語言模型，在HuggingFace開放大模型排行榜上排名第一。

大型語言模型

Transformers 英語

Nous Hermes 2 Mistral 7B DPO AWQ

Nous Hermes 2是基於Mistral 7B DPO的新一代旗艦級7B Hermes模型，經過DPO優化，在多個測試基準上表現優異。

大型語言模型

Transformers 英語

Sambalingo Hungarian Chat

支持匈牙利語和英語的對齊人類偏好的聊天模型，基於Llama-2-7b適配到匈牙利語

大型語言模型

Transformers 支持多種語言

sambanovasystems

Llava V1.5 13b Dpo Gguf

LLaVA-v1.5-13B-DPO 是一個基於LLaVA框架的視覺語言模型，經過直接偏好優化(DPO)訓練，並轉換為GGUF量化格式以提高推理效率。

圖像生成文本

Bloom 1b1 Zh Error Correction Dpo

採用DPO訓練的中文文本糾錯模型，能夠自動檢測並修正中文文本中的拼寫和語法錯誤。

大型語言模型

Transformers 中文

UNA TheBeagle 7b V1

TheBeagle是基於The Bagel數據集訓練的70億參數模型，採用DPO（直接偏好優化）和UNA（統一神經架構）技術優化，在多任務中表現優異。

大型語言模型

結合SDXL極速版與直接偏好優化(DPO)技術的文本生成圖像模型，支持快速高質量圖像生成

Rocket-3B是一個30億參數的大型語言模型，通過直接偏好優化(DPO)在公開數據集上訓練，性能超越許多更大規模的模型。

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase