Qwen2.5 14B YOYO V5
Q
Qwen2.5 14B YOYO V5
由YOYO-AI開發
Qwen2.5-YOYO第五代模型,整合了多個先進模型的特點,優化了模型合併公式,支持100萬token上下文。
下載量 33
發布時間 : 3/22/2025
模型概述
Qwen2.5-14B-YOYO-V5是一個基於Qwen2.5-14B的多階段合併模型,整合了Light-R1-14B-DS等模型,優化了合併公式,支持長文本處理。
模型特點
多階段合併優化
通過多階段合併整合多個先進模型的特點,優化模型性能。
長文本支持
支持100萬token的上下文長度,適合處理長文本任務。
多語言支持
支持英文和中文的文本生成任務。
模型能力
文本生成
長文本處理
多語言支持
使用案例
文本生成
長文本摘要
生成長文本的摘要,支持100萬token的上下文。
多語言文本生成
生成英文或中文的文本內容。
🚀 Qwen2.5-14B-YOYO-V5
Qwen2.5-YOYO第五代模型正式發佈!該模型集成了多種優秀的基礎模型,通過優化模型合併公式,在性能和功能上有顯著提升,適用於文本生成等多種自然語言處理任務。
✨ 主要特性
- 集成Light - R1 - 14B - DS:將Light - R1 - 14B - DS模型的優勢融入其中,提升了模型的綜合性能。
- 優化模型合併公式:通過優化合並公式,使得模型在不同任務上的表現更加出色。
📚 詳細文檔
第一階段
models:
- model: tanliboy/lambda-qwen2.5-14b-dpo-test
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-14B-Instruct
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-14B-dpo-it
第二階段
步驟1:創建三個不同的指令模型和一個代碼模型
models:
- model: mergekit-community/Qwen2.5-14B-dpo-it
parameters:
density: 1
weight: 1
lambda: 0.9
- model: Qwen/Qwen2.5-14B-Instruct-1M
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: arcee-ai/Virtuoso-Small-v2
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-14B-della-v2-dpo
models:
- model: mergekit-community/Qwen2.5-14B-dpo-it
parameters:
density: 1
weight: 1
lambda: 0.9
- model: Qwen/Qwen2.5-14B-Instruct-1M
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: Azure99/Blossom-V6-14B
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-14B-della-V6-dpo
models:
- model: mergekit-community/Qwen2.5-14B-dpo-it
parameters:
density: 1
weight: 1
lambda: 0.9
- model: Qwen/Qwen2.5-14B-Instruct-1M
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: arcee-ai/SuperNova-Medius
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-14B-della-Nova-dpo
models:
- model: Qwen/Qwen2.5-Coder-14B-Instruct
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: Qwen/Qwen2.5-Coder-14B
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-14B-della-code
步驟2:創建兩個不同的推理模型
merge_method: model_stock
base_model: arcee-ai/Virtuoso-Small-v2
models:
- model: deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- model: qihoo360/Light-R1-14B-DS
dtype: float16
tokenizer_source: base
int8_mask: true
normalize: true
name: Qwen2.5-14B-YOYO-DS-v2
merge_method: model_stock
base_model: Azure99/Blossom-V6-14B
models:
- model: deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- model: qihoo360/Light-R1-14B-DS
dtype: float16
tokenizer_source: base
int8_mask: true
normalize: true
name: Qwen2.5-14B-YOYO-DS-V6
第三階段
創建一個上下文為100萬個標記的基礎模型。
merge_method: sce
models:
# 樞軸模型
- model: Qwen/Qwen2.5-14B-Instruct-1M
# 目標模型
- model: Qwen/Qwen2.5-14B
base_model: Qwen/Qwen2.5-14B-Instruct-1M
parameters:
select_topk: 1
dtype: float16
tokenizer_source: base
normalize: true
int8_mask: true
name: Qwen2.5-14B-1M
models:
- model: mergekit-community/Qwen2.5-14B-dpo-it
parameters:
density: 1
weight: 1
lambda: 0.9
- model: Qwen/Qwen2.5-14B-Instruct-1M
parameters:
density: 1
weight: 1
lambda: 0.9
merge_method: della
base_model: mergekit-community/Qwen2.5-14B-1M
parameters:
density: 1
weight: 1
lambda: 0.9
normalize: true
int8_mask: true
dtype: float16
tokenizer_source: base
name: Qwen2.5-14B-della-1M-dpo
最終階段
merge_method: model_stock
base_model: mergekit-community/Qwen2.5-14B-della-1M-dpo
models:
- model: mergekit-community/Qwen2.5-14B-della-v2-dpo
- model: mergekit-community/Qwen2.5-14B-della-V6-dpo
- model: mergekit-community/Qwen2.5-14B-della-Nova-dpo
- model: mergekit-community/Qwen2.5-14B-della-1M-dpo
- model: mergekit-community/Qwen2.5-14B-YOYO-DS-v2
- model: mergekit-community/Qwen2.5-14B-YOYO-DS-V6
- model: mergekit-community/Qwen2.5-14B-della-code
dtype: float16
tokenizer_source: base
int8_mask: true
normalize: true
name: Qwen2.5-14B-YOYO-V5
📄 許可證
本項目採用Apache - 2.0許可證。
📋 信息表格
屬性 | 詳情 |
---|---|
模型類型 | 文本生成 |
基礎模型 | Qwen/Qwen2.5 - 14B、Qwen/Qwen2.5 - 14B - Instruct、Qwen/Qwen2.5 - 14B - Instruct - 1M、tanliboy/lambda - qwen2.5 - 14b - dpo - test、arcee - ai/SuperNova - Medius、arcee - ai/Virtuoso - Small - v2、Azure99/Blossom - V6 - 14B、Qwen/Qwen2.5 - Coder - 14B、Qwen/Qwen2.5 - Coder - 14B - Instruct、deepseek - ai/DeepSeek - R1 - Distill - Qwen - 14B、qihoo360/Light - R1 - 14B - DS |
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98