L

Llama 3 8B Instruct Gradient 4194k

由gradientai開發
基於Meta-Llama-3-8B-Instruct擴展的長上下文模型,通過RoPE theta參數調整實現4194K上下文長度支持
下載量 244
發布時間 : 5/4/2024

模型概述

該模型是Meta-Llama-3-8B-Instruct的擴展版本,通過漸進式訓練將上下文長度從8k擴展至4194K,適用於需要處理超長文本的對話場景

模型特點

超長上下文支持
通過RoPE theta參數調整和漸進式訓練,將上下文長度從8k擴展至4194K
高效訓練方案
採用NTK感知插值法和縮放定律設定RoPE theta最優調整計劃
高性能基礎設施
基於EasyContext Blockwise RingAttention庫,在L40S集群上實現高效可擴展訓練

模型能力

長文本生成
對話系統
指令跟隨
代碼生成

使用案例

企業應用
長文檔處理
處理和分析超長企業文檔、合同或報告
可保持超過400萬token的上下文一致性
自主助手
部署驅動企業關鍵運營的自主AI助手
整合企業數據實現智能決策支持
研究應用
長序列建模
科學研究中的長序列數據分析和建模
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase