A

Arsh Llm

由arshiaafshani開發
Arsh LLM是為科研設計的開源大語言模型,基於olmo混合數據集在T4 GPU上完成預訓練,總耗時約4-5天。
下載量 162
發布時間 : 4/23/2025

模型概述

該項目旨在證明大型模型未必需要頂級硬件,通過優化架構設計和分階段訓練實現高效開發。當前版本為初始迭代版本,仍需進一步訓練。

模型特點

硬件友好型訓練
在消費級T4 GPU上完成訓練,通過分階段訓練策略(8個部分,每部分1-2天)降低硬件門檻
混合數據集訓練
結合PILE數據集預訓練穩定模型性能,再使用olmo-mix-1124數據集進行主要訓練
開源架構設計
參考Gpt-neox和Llama技術文檔,結合AI輔助設計優化架構(待驗證效果)

模型能力

文本生成
科研輔助

使用案例

科研領域
文獻輔助生成
幫助研究人員快速生成論文草稿或技術文檔
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase