CosmicBun-8B開源模型 - 免費支持數理化生等科學領域文本生成

首頁

Cosmicbun 8B

由aloobun開發

CosmicBun-8B是基於Llama3-8B架構的合併模型，專注於數學、物理、化學和生物等科學領域的文本生成任務。

大型語言模型

Transformers

開源協議:MIT #多學科知識整合 #科學推理優化 #小樣本學習

下載量 19

發布時間 : 5/1/2024

模型概述

該模型通過合併多個Llama3-8B變體（包括dolphin-2.9、Einstein-v6.1和neural-chat-v1）而創建，旨在提升在科學相關任務上的表現。

模型特點

科學領域優化

專注於數學、物理、化學和生物等科學領域的文本生成能力

多模型合併

採用DARE/TIES方法合併多個Llama3-8B變體，結合各模型優勢

分層參數配置

對不同模型層採用不同的密度和權重配置，優化模型性能

模型能力

文本生成

科學問題解答

數學推理

物理概念解釋

化學知識問答

生物知識問答

使用案例

教育

科學問題解答

回答學生提出的數學、物理、化學和生物相關問題

在GSM8k數學推理任務上達到68.23%準確率

研究輔助

科學概念解釋

幫助研究人員快速理解複雜科學概念

在MMLU綜合知識測試中達到65.53%準確率

🚀 CosmicBun-8B

CosmicBun-8B 是一個通過合併預訓練語言模型得到的模型，它結合了多個優秀模型的優勢，在文本生成任務上表現出色，能為用戶提供更準確、豐富的文本輸出。

📄 許可證

本項目採用 MIT 許可證。

✨ 主要特性

多模型融合：融合了多個預訓練語言模型的優勢，包括 cognitivecomputations/dolphin-2.9-llama3-8b、Weyaxi/Einstein-v6.1-Llama3-8B 和 Locutusque/llama-3-neural-chat-v1-8b。
先進合併方法：使用 DARE TIES 合併方法，以 Locutusque/llama-3-neural-chat-v1-8b 為基礎進行合併。
多任務表現良好：在多個文本生成任務的數據集上取得了不錯的成績，如 AI2 Reasoning Challenge、HellaSwag、MMLU 等。

🔧 技術細節

合併方法

本模型使用 DARE TIES 合併方法，以 Locutusque/llama-3-neural-chat-v1-8b 為基礎進行合併。

合併的模型

以下模型參與了合併：

配置

以下是用於生成此模型的 YAML 配置：

base_model: Locutusque/llama-3-neural-chat-v1-8b
dtype: bfloat16
merge_method: dare_ties
parameters:
  int8_mask: 1.0
  normalize: 0.0
slices:
- sources:
  - layer_range: [0, 4]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 1.0
      weight: 0.6
  - layer_range: [0, 4]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 0.6
      weight: 0.5
  - layer_range: [0, 4]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 1.0
      weight: 0.5
- sources:
  - layer_range: [4, 8]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 0.8
      weight: 0.1
  - layer_range: [4, 8]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 1.0
      weight: 0.2
  - layer_range: [4, 8]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 1.0
      weight: 0.7
- sources:
  - layer_range: [8, 12]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 0.7
      weight: 0.1
  - layer_range: [8, 12]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 0.7
      weight: 0.2
  - layer_range: [8, 12]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 0.7
      weight: 0.6
- sources:
  - layer_range: [12, 16]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 0.9
      weight: 0.2
  - layer_range: [12, 16]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 0.6
      weight: 0.6
  - layer_range: [12, 16]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 0.7
      weight: 0.3
- sources:
  - layer_range: [16, 20]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 1.0
      weight: 0.2
  - layer_range: [16, 20]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 1.0
      weight: 0.2
  - layer_range: [16, 20]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 0.9
      weight: 0.4
- sources:
  - layer_range: [20, 24]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 0.7
      weight: 0.2
  - layer_range: [20, 24]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 0.9
      weight: 0.3
  - layer_range: [20, 24]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 1.0
      weight: 0.4
- sources:
  - layer_range: [24, 28]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 1.0
      weight: 0.4
  - layer_range: [24, 28]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 0.8
      weight: 0.2
  - layer_range: [24, 28]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 0.9
      weight: 0.4
- sources:
  - layer_range: [28, 32]
    model: cognitivecomputations/dolphin-2.9-llama3-8b
    parameters:
      density: 1.0
      weight: 0.3
  - layer_range: [28, 32]
    model: Weyaxi/Einstein-v6.1-Llama3-8B
    parameters:
      density: 0.9
      weight: 0.2
  - layer_range: [28, 32]
    model: Locutusque/llama-3-neural-chat-v1-8b
    parameters:
      density: 1.0
      weight: 0.3

📚 詳細文檔

Open LLM Leaderboard 評估結果

詳細結果可查看此處

指標	值
平均值	68.81
AI2 推理挑戰 (25 次少樣本學習)	61.86
HellaSwag (10 次少樣本學習)	84.29
MMLU (5 次少樣本學習)	65.53
TruthfulQA (0 次少樣本學習)	54.08
Winogrande (5 次少樣本學習)	78.85
GSM8k (5 次少樣本學習)	68.23