Arsh-llm-gpt開源大語言模型 - 免費助力科研，有限硬件也能訓練！

首頁

Arsh Llm Gpt

由arshiaafshani開發

基於GPT-2架構開發的大語言模型，專注於科研輔助功能，在有限硬件條件下完成訓練

大型語言模型

Transformers

開源協議:MIT #科研輔助GPT #輕量級訓練 #多階段優化

下載量 19

發布時間 : 5/14/2025

模型概述

Arsh大語言模型是採用GPT-2架構開發的科研輔助項目，通過分階段訓練策略在有限硬件條件下完成訓練，旨在證明大型模型未必需要頂級硬件支持

模型特點

有限硬件訓練

在T4 GPU上通過分階段訓練策略完成模型訓練，每個階段耗時1-2天

多階段訓練

訓練過程分為8個階段，總耗時約4-5天，實現高效訓練

混合數據集

使用olmo-mix-1124數據集進行訓練，並結合多個開源對話數據集微調

模型能力

文本生成

科研輔助

使用案例

科研

科研文獻輔助

輔助科研人員進行文獻分析和內容生成

屬性	詳情
模型類型	基於gpt2架構的語言模型
訓練數據	allenai/olmo - mix - 1124、PILE數據集部分數據、一些小型對話開源數據集

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Arsh Llm Gpt

模型概述

模型特點

模型能力

使用案例

🚀 Arsh LLM

🚀 快速開始

✨ 主要特性

📚 詳細文檔

模型描述

📄 許可證

🔧 技術細節