CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity開源模型

首頁

Caplattessdolxaboros Yi 34B 200K DARE Ties HighDensity

由brucethemoose開發

這是一個基於Yi-34B-200K基礎模型，通過DARE Ties方法合併多個同源模型的高密度合併模型，具有200K長上下文處理能力。

大型語言模型

Transformers

英語開源協議:其他 #200K長上下文 #多模型融合 #高密度合併

下載量 94

發布時間 : 12/9/2023

模型概述

該模型通過mergekit的DARE Ties方法合併了Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4等多個同源模型，保留了Yi-34B-200K的長上下文能力，同時在多項基準測試中表現優異。

模型特點

長上下文處理

支持200K tokens的長上下文處理，適合處理長文檔和複雜推理任務

高密度合併

採用DARE Ties方法以高於推薦密度合併多個同源模型，提升模型性能

多模型優勢融合

整合了Dolphin、Capybara、Tess等多個模型的優勢，具備多樣化能力

高效推理

24GB GPU即可運行，在exllamav2上可支持45K-75K上下文長度

模型能力

文本生成

長文本理解

複雜推理

問答系統

知識問答

使用案例

知識問答

AI2推理挑戰賽

在AI2推理挑戰賽(ARC)上的少量樣本表現

標準化準確率67.41

常識推理

HellaSwag測試

在HellaSwag數據集上的常識推理能力

標準化準確率85.77

數學推理

GSM8k數學問題

解決小學數學應用題的能力

準確率61.33

🚀 CaPlatTessDolXaBoros-Yi-34B-200K-DARE-Ties-HighDensity

本項目是一個文本生成模型，通過合併多個模型並採用新的實驗性實現“dare ties”得到。它在多個文本生成任務的評估中表現出色，具有較高的準確性。

🚀 快速開始

該模型可能已被 https://huggingface.co/brucethemoose/Yi-34B-200K-DARE-merge-v5 替代。以下是舊模型的描述：

✨ 主要特性

多模型融合：將 Dolphin-2.2-yi-34b-200k、Nous-Capybara-34B、Tess-M-v1.4、Airoboros-3_1-yi-34b-200k、PlatYi-34B-200K-Q 和 Una-xaberius-34b-v1beta 等模型通過 mergekit 以新的實驗性“dare ties”實現進行合併。
高密度合併：採用高於推薦密度的合併方式，在困惑度測試和長上下文提示測試中表現較好，在 Hugging Face 排行榜上排名更高。
多種提示模板支持：可能識別來自 Dolphin+Xaberius 的 ChatML 和來自 Airoboros 的 Llama-chat 提示模板。

📦 安裝指南

文檔未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

SYSTEM: {system_message}
USER: {prompt}
ASSISTANT:

此為 Orca-Vicuna 提示模板，該模型可能識別來自 Dolphin+Xaberius 的 ChatML 和來自 Airoboros 的 Llama-chat 提示模板。有時模型會像 Capybara 一樣將停止標記“拼寫”為 </s>，因此可能需要添加 </s> 作為額外的停止條件。

📚 詳細文檔

運行說明

作為 Yi 模型，嘗試禁用 BOS 標記，或使用 0.05 - 0.13 的 MinP、較低的溫度、輕微的重複懲罰，且不使用其他採樣器。默認情況下，Yi 模型運行時“熱度”較高。 24GB GPU 可以使用 exllamav2 在 45K - 75K 上下文 下運行 Yi-34B-200K 模型。更多詳細信息可參考此帖子。建議使用在與所需任務相似的數據上進行分析的 exl2 量化方法。在低 bpw 時，模型對量化數據特別敏感！已在 vicuuna chat + 小說寫作上發佈了自己的量化版本：4bpw 3.1bpw。要在 transformers 和 vllm 等全上下文後端中加載該模型，必須將 config.json 中的 max_position_embeddings 更改為低於 200,000 的值，否則會出現內存不足（OOM）錯誤！

測試說明

密度測試：通過困惑度測試和長上下文提示對各種密度進行了測試。與《Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch》論文的研究結果相反，相對較高的密度似乎表現更好。
合併密度：此特定版本的合併密度超過了“推薦”的最大密度 0.5。這似乎導致了更好的困惑度，並且在 Hugging Face 排行榜上的排名更高，但不確定這是否意味著輸出效果更好。
權重優化：權重總和為 1 似乎是最優的。
合併方法優勢：“Dare Ties”合併方法似乎比常規的 ties 合併、任務算術合併或 slerp 合併產生更好、更低困惑度的結果。
Xaberuis 合併處理：Xaberuis 不是 200K 模型，因此以非常低的密度進行合併，以在保留 Yi 200K 長上下文性能的同時繼承 Xaberuis 的部分性能。
模型選擇原因：選擇不包括其他微調模型，因為它們不是在 200K 基礎上訓練的。如果有其他 200K 微調模型出現，請告知。

🔧 技術細節

本模型通過 mergekit 以新的實驗性“dare ties”實現進行合併，合併配置如下：

models:
  - model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
    # no parameters necessary for base model
  - model: /home/alpha/Storage/Models/Raw/migtissera_Tess-34B-v1.4
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha//Storage/Models/Raw/bhenrym14_airoboros-3_1-yi-34b-200k
    parameters:
      weight: 0.14
      density: 0.5
  - model: /home/alpha/Storage/Models/Raw/Nous-Capybara-34B
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha/Storage/Models/Raw/kyujinpy_PlatYi-34B-200K-Q
    parameters:
      weight: 0.14
      density: 0.5
  - model: /home/alpha/FastModels/ehartford_dolphin-2.2-yi-34b-200k
    parameters:
      weight: 0.19
      density: 0.6
  - model: /home/alpha/FastModels/fblgit_una-xaberius-34b-v1beta
    parameters:
      weight: 0.15
      density: 0.08
merge_method: dare_ties
base_model: /home/alpha/Storage/Models/Raw/chargoddard_Yi-34B-200K-Llama
parameters:
  int8_mask: true
dtype: bfloat16

📄 許可證

本模型使用的許可證為 yi-license。

模型評估結果

Open LLM Leaderboard 評估結果詳細結果可查看此處

指標	值
平均值	72.15
AI2 推理挑戰 (25 次少樣本學習)	67.41
HellaSwag (10 次少樣本學習)	85.77
MMLU (5 次少樣本學習)	77.44
TruthfulQA (0 次少樣本學習)	57.84
Winogrande (5 次少樣本學習)	83.11
GSM8k (5 次少樣本學習)	61.33