Arsh - llmオープンソース大規模言語モデル - 無料で科学研究の迅速な展開を支援！

ホーム

Arsh Llm

arshiaafshaniによって開発

Arsh LLMは研究目的で設計されたオープンソースの大規模言語モデルで、olmo混合データセットを使用しT4 GPU上で約4-5日かけて事前学習を完了しました。

大規模言語モデル

PyTorch

オープンソースライセンス:MIT #軽量事前学習 #研究支援ツール #混合データセット最適化

ダウンロード数 162

リリース時間 : 4/23/2025

モデル概要

このプロジェクトは、トップクラスのハードウェアが必ずしも必要ではないことを証明することを目的としており、アーキテクチャ設計の最適化と段階的なトレーニングを通じて効率的な開発を実現しています。現在のバージョンは初期イテレーション版で、さらなるトレーニングが必要です。

モデル特徴

ハードウェアに優しいトレーニング

コンシューマー向けT4 GPUでトレーニングを完了し、段階的なトレーニング戦略（8つの部分、各部分1-2日）によりハードウェアの障壁を低減

混合データセットトレーニング

PILEデータセットを使用した事前学習でモデル性能を安定させ、olmo-mix-1124データセットを使用した主要トレーニングを実施

オープンソースアーキテクチャ設計

Gpt-neoxとLlamaの技術ドキュメントを参考に、AI支援設計でアーキテクチャを最適化（効果は検証待ち）

モデル能力

テキスト生成

研究支援

使用事例

研究分野

文献補助生成

研究者が論文の草稿や技術文書を迅速に生成するのを支援

🚀 Arsh LLM

Arsh LLMは、研究に役立つように開発された最新のプロジェクトです。このバージョンは、T4 GPUを使用してolmo mixデータセットで事前学習されています（このプロセスには約4 - 5日かかり、制限があったため、8つの部分に分割して、1日または2日でそれぞれを行いまし）。

🚀 クイックスタート

Arsh LLMは研究に役立つように開発された最新のプロジェクトです。このバージョンは特定のデータセットで事前学習されており、研究用途に利用できます。

✨ 主な機能

研究に役立つように開発されたLLMです。
特定のデータセットで事前学習されています。
モデルの開発には、Gpt neoxやllamaのドキュメント、AIを活用した最適化が行われています。

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

ドキュメントにコード例が記載されていないため、このセクションを省略します。

📚 ドキュメント

モデルの詳細

モデルの説明

Arsh LLMは私の最新の研究プロジェクトです。もっと学習が必要で、これはまだ最初のバージョンの1つに過ぎません。私の目標は、大規模なモデルが大規模なハードウェアを必要としないことを準備し、証明することです。少なくとも、これらのすべてのツールを使ってすべてを非常に高速にすることができます！まず、Gpt neoxとllamaのドキュメントとAIを使ってアーキテクチャを作成し、最適化を行いました（完了したかどうかは不確定です）。次に、モデルを作成し、phi - 4を使って初期の重みを計算しました。そして、PILEデータセットの一部で学習を行い、モデルを安定させました！次に、olmo - mix - 1124データセットを使ってarshGptという名前のモデルを学習させました。私の目標は、データを新しい大規模モデルにより簡単に変換することでした。これは、いくつかの小規模な会話型のオープンソースデータセットを使って微調整されたマージモデルで、性能は以前よりも良くなったと思います。