モデル選定

多言語視覚質問応答

# 多言語視覚質問応答

Erax VL 7B V1.5

EraX-VL-7B-V1.5は、光学文字認識（OCR）と視覚質問応答（VQA）に特化した強力なマルチモーダルモデルで、多言語環境で優れた性能を発揮し、特にベトナム語に長けています。

画像生成テキスト

Transformers 複数言語対応

Trillion LLaVA 7B

Trillion-LLaVA-7Bは画像を理解できる視覚言語モデル（VLM）で、Trillion-7B-previewベースモデルを基に開発されました。

テキスト生成画像

Transformers 複数言語対応

Internvl3 8B 6bit

InternVL3-8B-6bit はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。

画像生成テキスト

Transformers その他

Llama 3.2 11b Vision R1 Distill

Llama 3.2-VisionはMetaが開発したマルチモーダル大規模言語モデルで、画像とテキスト入力をサポートし、視覚認識、画像推論、記述タスクに最適化されています。

画像生成テキスト

Transformers 複数言語対応

Centurio はオープンソースの多言語大規模視覚言語モデルで、100言語をサポートし、画像テキストからテキストへの処理能力を備えています。

画像生成テキスト

Transformers 複数言語対応

Mblip Bloomz 7b

mBLIPはBLIP-2アーキテクチャに基づく多言語視覚-言語モデルで、96言語の画像キャプション生成と視覚質問応答タスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

mBLIPは多言語視覚-言語モデルで、BLIP-2アーキテクチャに基づき、96言語の画像キャプション生成と視覚質問応答タスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase