35b-beta-long開源大語言模型 - 免費部署支持多語言長文處理與事實數據生成

首頁

35b Beta Long

由CausalLM開發

基於CohereForAI/c4ai-command-r-v01架構微調的350億參數多語言大語言模型，專注長上下文處理與事實型數據生成

大型語言模型

Transformers

支持多種語言#128K長上下文 #多文檔知識合成 #多語言對話優化

下載量 79

發布時間 : 4/13/2024

模型概述

該模型通過整合海量多輪對話數據集和嚴格的質量控制流程，顯著提升了長上下文處理能力、減少幻覺現象，並增強數學/編程/知識檢索等通用能力

模型特點

長上下文處理

支持完整128K上下文窗口訓練，優化多文檔信息整合與跨段落推理能力

多語言事實生成

基於3000萬輪人工審核的多輪對話數據，強化多語言事實準確性

混合數據訓練

結合原始素材與合成數據訓練，平衡模型的知識調用與生成能力

安全防護

採用開源拒絕數據集實施基礎安全過濾，限制非法/NSFW內容輸出

模型能力

長文本摘要

跨文檔信息檢索

多語言對話生成

數學問題求解

代碼生成與解釋

知識問答

主題歸納分析

使用案例

知識管理

多文檔研究輔助

從大量研究材料中提取關鍵信息並生成對比分析

提升研究人員信息處理效率

教育

數學解題輔導

分步驟解釋複雜數學問題並提供類似例題

準確率媲美專業輔導教師

技術支持

代碼審查助手

分析長代碼文件並指出潛在問題

支持多種編程語言的上下文理解

🚀 35b-beta-long

本版本 CausalLM/35b-beta-long 凝聚了我們在微調大語言模型方面的經驗以及積累的訓練數據。我們將這些權重開源，以推動開源社區的發展。

🚀 快速開始

本版本 CausalLM/35b-beta-long 是我們在微調大語言模型領域經驗與訓練數據的集大成之作。我們開源這些權重，旨在促進開源社區的發展。

✨ 主要特性

優質基礎模型：我們選用了 Cohere 具有 350 億參數、支持長上下文的 [CohereForAI/c4ai-command-r-v01] MHA 多語言模型作為基礎。在評估中發現，它在監督微調（SFT）過程中對訓練數據質量的響應最為出色，表現優於其他開源大語言模型。儘管其初始的 SFT/RL 側重於特定任務，且採用非商業許可協議，但我們認為它目前是個人和內部使用場景的最佳基礎。
豐富數據合成：利用網絡爬取的大量事實內容，我們合成了超過 3000 萬條多輪對話數據，這些數據基於多個網頁或文檔，並經過大量人工監督和精心設計的數據管道，以確保高質量。模型在 128K 完整上下文中使用 BF16 精度進行訓練。此外，我們還引入了廣泛使用的開源對話數據集，以提升通用對話的流暢性。
創新數據處理：我們的數據合成方法解決了典型大語言模型訓練語料庫中的關鍵侷限。大語言模型通常難以在段落或文檔級別提取主題摘要、關鍵信息或進行比較。因此，我們專注於在長上下文環境中使用多個文檔生成基於事實的數據。這包括藉助現有的最優大語言模型，並在人工指導下通過主題摘要、信息提取和源材料比較來合成信息。
顯著性能提升：這種方法在微調過程中顯著提升了模型性能。我們觀察到模型的幻覺現象減少，長上下文處理能力增強，數學、編碼和知識回憶等通用能力也有所提高。訓練過程同時納入了原始源材料和合成輸出，進一步強化了模型回憶和利用預訓練數據中抽象概念的能力。我們的分析表明，原始數據和合成數據的結合對於實現更平衡的性能表現至關重要。為了研究目的，我們還發布了中間檢查點和僅基於合成數據訓練的模型。
強大長上下文能力：與原始特定任務模型相比，我們進一步微調的模型在長上下文場景中展現出更強大的回憶能力，無需特定的文檔格式或提示工程。在可量化的基準測試中，該微調模型的表現與參數規模兩倍於它的模型相當。

🔧 技術細節

訓練數據：
- JosephusCheung/GuanacoDataset
- meta - math/MetaMathQA
- jondurbin/airoboros - 3.1
- WizardLM/WizardLM_evol_instruct_V2_196k
- RyokoAI/ShareGPT52K
- RyokoAI/Fandom23K
- milashkaarshif/MoeGirlPedia_wikitext_raw_archive
- wikipedia
- wiki_lingua
- garage - bAInd/Open - Platypus
- LDJnr/Puffin
- BAAI/COIG
- TigerResearch/tigerbot - zhihu - zh - 10k
- liwu/MNBVC
- teknium/openhermes
- CausalLM/Refined - Anime - Text
- microsoft/orca - math - word - problems - 200k
- m - a - p/CodeFeedback - Filtered - Instruction
上下文處理：模型在 128K 完整上下文中使用 BF16 精度進行訓練。
數據合成：利用網絡爬取的大量事實內容，合成超過 3000 萬條多輪對話數據，基於多個網頁或文檔，並經過大量人工監督和精心設計的數據管道。