Legion-V2.2-LLaMa-70B開源預訓練語言模型 - 融合多模型滿足多樣文本需求

首頁

Legion V2.2 LLaMa 70B

由TareksTesting開發

使用 DARE TIES 方法合併的預訓練語言模型，基於 L-BASE-V1 融合多個 MERGE 模型

大型語言模型

Transformers

#DARE-TIES合併 #多模型融合 #參數加權混合

下載量 24

發布時間 : 3/24/2025

模型概述

該模型是通過 mergekit 工具合併多個預訓練語言模型的結果，採用 DARE TIES 合併方法，旨在結合各模型的優勢提升整體性能。

模型特點

DARE TIES 合併方法

採用先進的 DARE TIES 模型合併技術，有效整合多個模型的參數

模塊化權重分配

針對 self_attn 和 mlp 等不同模塊分別設置權重參數

參數密度控制

通過 density 參數控制模型參數的保留比例

模型能力

文本生成

語言理解

使用案例

自然語言處理

文本生成

可用於生成連貫、流暢的文本內容

問答系統

應用於構建問答系統，回答用戶提出的問題

🚀 預訓練語言模型合併項目

本項目使用 mergekit 工具對預訓練語言模型進行合併，旨在結合不同模型的優勢，提升整體性能。

🚀 快速開始

本合併模型基於以下基礎模型創建：

TareksLab/L2-MERGE2a
TareksLab/L2-MERGE4
TareksLab/L-BASE-V1
TareksLab/L2-MERGE3
TareksLab/L2-MERGE1 使用的庫為 transformers，標籤包含 mergekit 和 merge。

✨ 主要特性

本項目通過合併多個預訓練語言模型，實現了模型能力的整合與提升。使用了特定的合併方法和配置，以確保合併後的模型具有良好的性能。

📚 詳細文檔

合併詳情

合併方法

本模型採用 DARE TIES 合併方法，以 TareksLab/L-BASE-V1 為基礎模型進行合併。

參與合併的模型

以下模型參與了本次合併：

配置

以下是用於生成此模型的 YAML 配置：

models:
  - model: TareksLab/L2-MERGE4
    parameters:
      weight: 
      - filter: self_attn
        value: [0.3, 0.1, 0.2]
      - filter: mlp
        value: [0.4, 0.2, 0.1]
      - value: 0.2
      density: 0.7
      lambda: 1.05
  - model: TareksLab/L2-MERGE2a
    parameters:
      weight: 
      - filter: self_attn
        value: [0.2, 0.1, 0.3]
      - filter: mlp
        value: [0.3, 0.1, 0.2]
      - value: 0.2
      density: 0.65
      lambda: 1.05
  - model: TareksLab/L2-MERGE3
    parameters:
      weight: 
      - filter: self_attn
        value: [0.1, 0.3, 0.1]
      - filter: mlp
        value: [0.2, 0.3, 0.1]
      - value: 0.2
      density: 0.6
      lambda: 1.05
  - model: TareksLab/L2-MERGE1
    parameters:
      weight: 
      - filter: self_attn
        value: [0.2, 0.2, 0.1]
      - filter: mlp
        value: [0.1, 0.2, 0.2]
      - value: 0.2
      density: 0.6
      lambda: 1
  - model: TareksLab/L-BASE-V1
    parameters:
      weight: 
      - filter: self_attn
        value: [0.1, 0.3, 0.3]
      - filter: mlp
        value: [0.1, 0.2, 0.4]
      - value: 0.2
      density: 0.55
      lambda: 1
base_model: TareksLab/L-BASE-V1
merge_method: dare_ties
parameters:
  normalize: false
  pad_to_multiple_of: 4
tokenizer:
  source: base
chat_template: llama3
dtype: bfloat16