モデル選定

マルチモーダルテキスト生成

# マルチモーダルテキスト生成

Vintern 1B V3 5 GGUF Ext

Vintern-1B-v3_5は10億パラメータの視覚言語モデルで、画像テキスト生成タスクをサポートします。

テキスト生成画像

Mistral Small 3.1 24B Instruct 2503 GGUF

これはMistral-Small-3.1-24B-Instruct-2503をベースにした視覚強化バージョンで、画像テキスト生成タスクをサポートしています。

画像生成テキスト

Gemma 3 4b It Int8 Asym Ov

OpenVINOで最適化されたGemma 3 4Bパラメータモデル、テキストからテキスト及び視覚テキスト推論をサポート

画像生成テキスト

Gemma 3 1b It Qat Int4 Unquantized

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ技術に基づいて構築されており、マルチモーダル入力とテキスト生成をサポートします。

大規模言語モデル

Llama 4 Scout 17b 16e It Gguf

Meta Llamaの基礎モデルに基づいて構築された画像テキストからテキストへの変換モデルで、gguf-connectorとllama-cpp-pythonを通じたインタラクションをサポートします。

画像生成テキスト

Gemma 3 4b It Llamafile

Gemma 3はGoogleが提供する軽量オープンソースモデルシリーズで、Gemini技術を基盤としており、マルチモーダル入力とテキスト出力をサポートします。

テキスト生成画像

Gemma 3 1b Pt Qat Q4 0 Gguf

GemmaはGoogleが提供する軽量で先進的なオープンモデルファミリーで、Geminiモデルと同じ研究技術に基づいています。1Bバージョンは事前学習済みベースモデルで、量子化認識トレーニング（QAT）を採用したGGUFフォーマットです。

画像生成テキスト

Gemma 3 4b It GGUF

Gemma-3-4b-it-GGUFはGoogleのGemma-3-4b-itモデルを量子化したバージョンで、LlamaEdge上で動作するようになっており、画像テキストからテキストへの変換タスクに適しています。

Qwen2 VL 7B Latex OCR

Qwen2-VL-7Bモデルを基にしたファインチューニング版で、UnslothとHuggingface TRLライブラリを使用してトレーニングされ、推論速度が2倍向上しました。

テキスト生成画像

Transformers 英語

Llava NeXT Video 34B DPO

Llama 2 は Meta が開発した一連のオープンソース大規模言語モデルで、様々な自然言語処理タスクをサポートしています。

ビデオ生成テキスト

ko-deplotはGoogleのPix2Structアーキテクチャに基づく韓国語視覚的質問応答モデルで、Deplotモデルを微調整してトレーニングされ、韓国語と英語のチャート画像質問応答タスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase