G

Gemma 3 4b It GGUF

ggml-orgによって開発
Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。128Kのコンテキストウィンドウと140以上の言語をサポートしています。
ダウンロード数 9,023
リリース時間 : 3/12/2025

モデル概要

Gemini技術を基盤としたオープンソースの視覚言語モデルで、QA、要約、推論などのマルチモーダルタスクに適しており、リソースが限られた環境での展開が可能です。

モデル特徴

マルチモーダル処理
テキストと画像入力(896x896解像度)を同時に処理し、クロスモーダル理解を実現
超長文コンテキスト
128Kトークンのコンテキストウィンドウで長文書や複雑なタスクを処理可能
多言語能力
140以上の言語を含むトレーニングデータで、クロスリンガルアプリケーションの可能性を秘める
軽量で効率的
4Bパラメータ規模で計算効率を最適化し、エッジデバイスへの展開に適している

モデル能力

テキスト生成
画像内容分析
多言語翻訳
コード生成
論理的推論
文書要約

使用事例

コンテンツ作成
マーケティングコピー生成
製品画像と簡単な説明から自動的に広告コピーを生成
コンテンツ生産効率を50%以上向上
ビジュアルストーリー作成
連続した画像に基づいて一貫性のあるナラティブテキストを生成
教育研究
学術画像解析
研究画像からキー情報を抽出し記述を生成
多言語学習アシスタント
画像連想により言語学習者の語彙連携を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase