Holo1 3B GGUF
その他
Holo1-3BはTransformerアーキテクチャに基づくマルチモーダルモデルで、ビジュアル文書検索タスクに特化しており、WebVoyagerベンチマークテストで優れた性能を発揮し、精度とコストのバランスが良い。
画像生成テキスト
Transformers 英語

H
Mungert
583
0
Holo1 7B GGUF
Apache-2.0
Holo1-7B GGUFモデルはSurfer - Hシステムの一部で、視覚文書検索などのマルチモーダルタスクに適しており、特にウェブページのインタラクションとネットワーク監視に長けており、低コストで高い精度を実現できます。
画像生成テキスト
Transformers 英語

H
Mungert
663
0
Granite Vision 3.3 2b Embedding
Apache-2.0
granite-vision-3.3-2bをベースに構築された効率的な埋め込みモデルで、マルチモーダル文書検索用に設計されており、表、グラフ、インフォグラフィック、複雑なレイアウトを含む文書を処理できます。
マルチモーダル融合
Transformers 英語

G
ibm-granite
205
4
Colnomic Embed Multimodal 7b
Apache-2.0
ColNomic Embed Multimodal 7Bは、マルチベクトルの最先端マルチモーダル埋め込みモデルで、視覚文書検索タスクに優れ、多言語対応と統一テキスト画像エンコーディングをサポートします。
マルチモーダル融合 複数言語対応
C
nomic-ai
7,909
45
Ret OpenCLIP ViT G 14
Apache-2.0
ReTは、視覚とテキストのバックボーンネットワークの異なるレベルの多元的な表現を統合することで、きめ細かい検索を実現する、マルチモーダルクエリと文書検索をサポートする革新的な方法です。
マルチモーダル融合
Transformers

R
aimagelab
77
0
Ret OpenCLIP ViT H 14
Apache-2.0
ReTはマルチモーダルクエリと文書検索をサポートする革新的な手法で、視覚とテキストのバックボーンネットワークの異なるレイヤーの多元的な表現を統合することで細粒度検索を実現します。
マルチモーダル融合
Transformers

R
aimagelab
23
0
Ret CLIP ViT L 14
Apache-2.0
ReTはマルチモーダルクエリと文書検索をサポートする革新的な手法で、視覚とテキストのバックボーンネットワークのマルチレベル表現を融合することで細粒度検索を実現します。
マルチモーダル融合
Transformers

R
aimagelab
523
0
Colqwen2.5 3b Multilingual V1.0
MIT
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく多言語視覚検索モデルで、動的入力画像解像度と多言語文書検索をサポートします。
テキスト生成画像 複数言語対応
C
tsystems
13.29k
8
Colqwen2.5 3b Multilingual V1.0 Merged
MIT
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく多言語視覚検索モデルで、動的入力画像解像度をサポートし、ColBERTスタイルのマルチベクトルテキストと画像表現を生成します。
テキスト生成画像
Transformers 複数言語対応

C
tsystems
70
0
Colqwen2.5 7b Multilingual V1.0
MIT
Qwen2.5-VL-7B-InstructをベースにColBERT戦略を採用した多言語視覚検索モデルで、Vidoreベンチマークテストで1位を獲得
テキスト生成画像 複数言語対応
C
Metric-AI
4,699
7
Colqwen2.5 3b Multilingual V1.0
MIT
Qwen2.5-VL-3B-InstructをベースにColBERT戦略を採用した多言語視覚検索モデルで、Vidoreベンチマークテストで優れた性能を発揮
テキスト生成画像 複数言語対応
C
Metric-AI
2,475
7
Colqwen2.5 V0.1
MIT
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく視覚検索モデルで、テキストと画像のマルチベクトル表現を生成し、効率的な文書検索に使用できます。
テキスト生成画像 英語
C
vidore
985
0
Colqwen2 7b V1.0
Qwen2-VL-7B-InstructをベースにColBERT戦略を採用した視覚検索モデルで、効率的な視覚特徴インデックス文書に特化
テキスト生成画像 複数言語対応
C
tsystems
172
8
Colqwen2 2b V1.0
Qwen2-VL-2B-InstructとColBERT戦略に基づく視覚検索モデルで、マルチベクトルのテキストと画像表現を生成可能
テキスト生成画像 複数言語対応
C
tsystems
700
1
Colqwen2 7b V1.0
Qwen2-VL-7B-InstructとColBERT戦略に基づく視覚検索モデルで、マルチベクトルテキストと画像表現をサポート
テキスト生成画像 英語
C
yydxlv
25
1
Colpali V1.3 Hf
ColPaliはPaliGemma-3Bを拡張した視覚言語モデルで、視覚的特徴を通じて文書を効率的にインデックス化し、ColBERTスタイルのマルチベクトル表現を生成します。
テキスト生成画像
Transformers 英語

C
vidore
790
25
Visrag Ret
Apache-2.0
VisRAGは視覚言語モデル(VLM)に基づく検索拡張生成(RAG)システムで、文書を画像として直接埋め込み表現でき、従来のテキスト解析による情報損失を回避します。
テキスト生成画像
Safetensors 英語
V
openbmb
1,294
65
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98