モデル選定

多言語視覚的質問応答

# 多言語視覚的質問応答

Colqwen2.5 3b Multilingual V1.0

Qwen2.5-VL-3B-InstructとColBERT戦略に基づく多言語視覚検索モデルで、動的入力画像解像度と多言語文書検索をサポートします。

テキスト生成画像複数言語対応

Paligemma2 10b Mix 448

PaliGemma 2はGemma 2を基にした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを出力します。様々な視覚言語タスクに適しています。

画像生成テキスト

Pix2struct Screen2words Large

Pix2Structアーキテクチャに基づく大規模視覚言語モデル、UIインターフェースの機能説明生成に特化してファインチューニング

画像生成テキスト

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase