MiniCPM4 - 8B - GGUFオープンソース大規模言語モデル - エッジデバイスに適用可能、生成速度が5倍以上向上

ホーム

Minicpm4 8B GGUF

openbmbによって開発

MiniCPM4は、エッジデバイス向けに設計された高効率な大規模言語モデルです。同じ規模のモデルで最高の性能を維持しながら、極限までの効率向上を実現し、典型的なエッジチップでは5倍以上の生成速度向上を達成します。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #エッジデバイスでの効率的な推論 #三元量子化圧縮 #長文の疎な注意力

ダウンロード数 324

リリース時間 : 6/13/2025

モデル概要

MiniCPM4は、エッジデバイス向けに最適化された高効率な大規模言語モデルです。モデルアーキテクチャ、学習データ、学習アルゴリズム、推論システムの4つの次元で革新を行い、高性能と高効率のバランスを実現しました。

モデル特徴

高効率なモデルアーキテクチャ

学習可能な疎な注意力機構のアーキテクチャを採用し、128Kの長文処理では、各トークンが関連性を計算するトークンが5%未満に抑えられ、長文の計算コストを大幅に削減します。

高効率な学習アルゴリズム

下流タスクの性能を予測するスケーリング方法を導入し、より正確なモデル学習設定の探索を実現します。FP8低精度計算技術を採用し、複数トークン予測学習戦略を組み合わせます。

高品質の学習データ

高効率なデータ検証に基づいて反復的なデータクリーニング戦略を構築し、高品質の中英語事前学習データセットUltraFinwebと大規模な教師付き微調整データセットUltraChat v2を使用します。

高効率な推論システム

疎な注意力、モデル量子化、推測サンプリングを統合し、高効率な事前埋め込みとデコードを実現します。複数のバックエンド環境での高効率なデプロイをサポートします。

極限の量子化技術

BitCPM技術により、モデルパラメータのビット幅を3つの値に圧縮し、90%の極端なモデルビット幅削減を実現します。

モデル能力

テキスト生成

長文理解

ツール呼び出し

調査論文生成

推測推論加速

使用事例

コンテンツ生成

調査論文生成

ユーザーのクエリに基づいて信頼性の高い長編の調査論文を自動生成します

効率最適化

推測推論加速

EagleヘッドとFRSpec技術により、5倍以上の生成速度向上を実現します

典型的なエッジチップで5倍以上の加速を達成します

エッジコンピューティング

エッジデバイスへのデプロイ

エッジデバイス向けに最適化された高効率な推論

リソースが制限されたデバイスでも高性能を維持します

🚀 MiniCPM4

MiniCPM4は、モデルアーキテクチャ、学習アルゴリズム、訓練データ、推論システムの4つの次元で効率的な最適化を行った、非常に効率的なエッジサイドの大規模言語モデルです。同じ規模で最高のパフォーマンスを維持しながら、極限までの効率向上を達成します。

GitHubリポジトリ | 技術レポート

Discordのチャンネルと微信で私たちと交流しましょう

✨ 主な更新情報

[2025.06.06] MiniCPM4 シリーズがリリースされました！このモデルは、同じ規模で最高のパフォーマンスを維持しながら、極限までの効率向上を達成します！典型的なエンドデバイスのチップで5倍以上の生成速度向上を実現できます。技術レポートはこちらから確認できます。

MiniCPM4シリーズ

MiniCPM4シリーズは、エンドデバイス向けに特別に設計された高効率の大規模言語モデル（LLM）です。この効率性は、モデルアーキテクチャ、訓練データ、訓練アルゴリズム、推論システムの4つの重要な次元での体系的な革新によって達成されています。

MiniCPM4-8B: MiniCPM4のフラッグシップモデルで、80億のパラメータを持ち、8兆トークンで訓練されています。
MiniCPM4-0.5B: MiniCPM4の小型版で、0.5億のパラメータを持ち、1兆トークンで訓練されています。
MiniCPM4-8B-Eagle-FRSpec: FRSpec用のEagleヘッドで、MiniCPM4-8Bの推論を高速化します。
MiniCPM4-8B-Eagle-FRSpec-QAT-cpmcu: QATで訓練されたFRSpec用のEagleヘッドで、推測と量子化を効率的に統合し、MiniCPM4-8Bの超高速化を実現します。
MiniCPM4-8B-Eagle-vLLM: vLLM形式のEagleヘッドで、MiniCPM4-8Bの推論を高速化します。
MiniCPM4-8B-marlin-Eagle-vLLM: vLLM形式の量子化されたEagleヘッドで、MiniCPM4-8Bの推論を高速化します。
BitCPM4-0.5B: MiniCPM4-0.5Bに極限の三値量子化を適用し、モデルパラメータを三値に圧縮し、ビット幅を90％削減します。
BitCPM4-1B: MiniCPM3-1Bに極限の三値量子化を適用し、モデルパラメータを三値に圧縮し、ビット幅を90％削減します。
MiniCPM4-Survey: MiniCPM4-8Bをベースに、ユーザーの質問を入力として受け取り、信頼性の高い長文の調査論文を自動生成します。
MiniCPM4-MCP: MiniCPM4-8Bをベースに、ユーザーの質問と利用可能なMCPツールを入力として受け取り、関連するMCPツールを自動的に呼び出してユーザーの要求を満たします。
MiniCPM4-8B-GGUF: MiniCPM4-8BのGGUFバージョンです。 (<-- ここにいます)

📚 ドキュメント

MiniCPM 4は、モデルアーキテクチャ、学習アルゴリズム、訓練データ、推論システムの4つの次元で効率的な最適化を行った、非常に効率的なエッジサイドの大規模モデルです。

高効率なモデルアーキテクチャ:
- InfLLM v2 -- 訓練可能な疎注意力機構: 訓練可能な疎注意力機構のアーキテクチャを採用しており、128Kの長文処理では各トークンが5％未満のトークンとの関連性を計算するだけで済み、長文の計算オーバーヘッドを大幅に削減します。
高効率な学習アルゴリズム:
- モデルウィンドトンネル2.0 -- 効率的な予測可能なスケーリング: 下流タスクのパフォーマンスに対するスケーリング予測方法を導入し、より正確なモデル訓練構成の探索を可能にします。
- BitCPM -- 極限の三値量子化: モデルパラメータのビット幅を3値に圧縮し、90％の極限のモデルビット幅削減を実現します。
- 効率的な訓練エンジニアリング最適化: FP8低精度計算技術とマルチトークン予測訓練戦略を組み合わせて採用しています。
高品質な訓練データ:
- UltraClean -- 高品質な事前訓練データのフィルタリングと生成: 効率的なデータ検証に基づく反復的なデータクリーニング戦略を構築し、高品質な中英語の事前訓練データセット UltraFinweb をオープンソース化しています。
- UltraChat v2 -- 高品質な教師付き微調整データの生成: 知識集中型データ、推論集中型データ、命令追従型データ、長文理解データ、ツール呼び出しデータなど、複数の次元をカバーする大規模な高品質な教師付き微調整データセットを構築しています。
高効率な推論システム:
- CPM.cu -- 軽量で高効率なCUDA推論フレームワーク: 疎注意力、モデル量子化、推測サンプリングを統合して、効率的な事前埋め込みとデコードを実現します。
- ArkInfer -- クロスプラットフォームデプロイメントシステム: 複数のバックエンド環境での効率的なデプロイをサポートし、柔軟なクロスプラットフォーム適応能力を提供します。

💻 使用例

llama.cpp での推論

./llama-cli -c 1024 -m MiniCPM4-8B-Q4_K_M.gguf -n 1024 --top-p 0.7 --temp 0.7 --prompt "<|im_start|>user\nËØ∑ÂÜô‰∏ÄÁØáÂÖ≥‰∫é‰∫∫Â∑•Êô∫ËÉΩÁöÑÊñáÁ´†ÔºåËØ¶ÁªÜ‰ªãÁªç‰∫∫Â∑•Êô∫ËÉΩÁöÑÊú™Êù•ÂèëÂ±ïÂíåÈöêÊÇ£„ÄÇ<|im_end|>\n<|im_start|>assistant\n"

声明

言語モデルとして、MiniCPMは大量のテキストを学習することでコンテンツを生成します。
ただし、MiniCPMは理解能力や個人的な意見や価値判断を表現する能力を持っていません。
MiniCPMによって生成されたコンテンツは、モデル開発者の見解や立場を表すものではありません。
したがって、MiniCPMによって生成されたコンテンツを使用する際には、ユーザー自身が十分に評価し、検証する責任を負う必要があります。

📄 ライセンス

このリポジトリとMiniCPMモデルは、Apache-2.0 ライセンスの下で公開されています。

引用

私たちの研究が役に立った場合は、論文を引用してください。

@article{minicpm4,
  title={{MiniCPM4}: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご