オープンソースINTELLECT - 2大規模言語モデル - 数学、コーディング、論理推論タスクに特化

ホーム

Intellect 2

cortexsoによって開発

INTELLECT-2はPrime Intellectによって公開された320億パラメータの大規模言語モデルで、Qwen2アーキテクチャに基づいて構築され、数学、コーディング、論理推論タスクに特化しています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #分散型強化学習 #数学コーディング推論 #GRPO最適化

ダウンロード数 1,430

リリース時間 : 5/12/2025

モデル概要

INTELLECT-2は、検証可能な数学とコーディングタスクに特化した大規模言語モデルで、一般的なテキスト生成タスクにも適しています。分散型強化学習によってトレーニングされ、GRPO（一般化強化戦略最適化）技術を採用しています。

モデル特徴

分散型強化学習トレーニング

世界中から寄贈されたGPUリソースを利用して分散型強化学習トレーニングを行う

GRPO最適化技術

一般化強化戦略最適化(GRPO)技術を採用し、検証可能な報酬に基づいてトレーニングを行う

非同期分散型RLトレーニング

非同期分散型強化学習トレーニングを導入し、トレーニング効率を向上させる

安定性強化技術

安定性を強化する技術を採用し、モデルのトレーニングと推論の信頼性を向上させる

モデル能力

数学推論

コード生成

論理推論

テキスト生成

使用事例

プログラミング支援

コード生成

自然言語の説明に基づいてコードを生成する

コードデバッグ

コード内のエラーを特定して修正するのを支援する

数学アプリケーション

数学問題の解決

複雑な数学問題を解決し、証明を行う

数学推論

論理的に厳密な数学推論を行う

一般的なテキスト処理

コンテンツ生成

様々なタイプのテキストコンテンツを生成する

テキスト要約

長いテキストを要約する

🚀 INTELLECT-2

Prime Intellectによって開発されたINTELLECT-2は、世界中から寄付されたGPUリソースを用いて分散強化学習により学習された、320億パラメータの大規模言語モデル（LLM）です。Qwen2アーキテクチャをベースに構築され、prime-rlフレームワークで微調整されており、数学、コーディング、論理推論などの分野で高い性能を発揮します。

このモデルは、検証可能な報酬に基づくGRPO（Generalized Reinforcement Policy Optimization）を活用し、強化された安定性技術を用いた非同期分散型強化学習を導入しています。主に検証可能な数学的タスクやコーディングタスクに焦点を当てていますが、汎用的なテキスト生成タスクにも対応しています。

✨ 主な機能

高性能な言語処理能力：数学、コーディング、論理推論などの分野で高い性能を発揮します。
分散強化学習：世界中から寄付されたGPUリソースを用いて分散強化学習により学習されています。
GRPOアルゴリズム：検証可能な報酬に基づくGRPOアルゴリズムを活用し、強化された安定性技術を用いた非同期分散型強化学習を行っています。

📦 インストール

Jan (UI)を使用する場合

クイックスタートを参考にJanをインストールします。
Janモデルハブで以下のコマンドを使用します。

cortexso/intellect-2

Cortex (CLI)を使用する場合

クイックスタートを参考にCortexをインストールします。
以下のコマンドでモデルを実行します。

cortex run intellect-2

💻 使用例

Jan (UI)を使用する場合

Janを起動します。
モデルハブからcortexso/intellect-2を選択します。
テキストを入力してモデルを使用します。

Cortex (CLI)を使用する場合

Cortexを起動します。
以下のコマンドでモデルを実行します。

cortex run intellect-2

📚 ドキュメント

バリアント

INTELLECT-2

No	バリアント	ブランチ	Cortex CLIコマンド
1	INTELLECT-2 (32B)	32b	`cortex run intellect-2:32b`

各ブランチには、様々なハードウェア構成に最適化された複数のGGUF量子化バージョンが含まれています。

INTELLECT-2-32B: q2_k, q3_k_l, q3_k_m, q3_k_s, q4_k_m, q4_k_s, q5_k_m, q5_k_s, q6_k, q8_0

🔧 技術詳細

このモデルは、GRPO（Generalized Reinforcement Policy Optimization）を用いて検証可能な報酬に基づいてトレーニングされています。非同期分散型強化学習を導入し、強化された安定性技術を用いることで、数学的タスクやコーディングタスクでの性能を向上させています。