Gemma 3n E2B It Unsloth Bnb 4bit
Gemma 3n-E2B-itはGoogleが提供する軽量オープンソースのマルチモーダルモデルで、Geminiと同じ技術に基づいて構築され、低リソースデバイス向けに最適化されています。
画像生成テキスト
Transformers 英語

G
unsloth
4,914
2
Gemma 3n E2B
Gemma 3nはGoogleが開発した軽量で最先端のオープンソースモデルファミリーで、マルチモーダル入出力をサポートしています。
画像生成テキスト
Transformers

G
google
206
11
Gemma 3n E4B It
Gemma 3nはGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築され、テキスト、オーディオ、ビジュアル入力をサポートします。
画像生成テキスト
Transformers

G
google
1,690
81
Nuextract 2.0 4B
MIT
NuExtract 2.0は、構造化情報抽出タスク用に訓練されたマルチモーダルモデルシリーズで、テキストと画像の入力をサポートし、多言語処理能力を備えています。
画像生成テキスト
Transformers

N
numind
272
3
Bart Large Empathetic Dialogues
このモデルはtransformersライブラリに基づくモデルで、具体的な用途と機能はさらなる情報が必要です。
大規模言語モデル
Transformers

B
sourname
199
1
Google.gemma 3 4b It Qat Int4 Unquantized GGUF
Gemma 3 4Bに基づく量子化バージョンの画像テキスト変換モデルで、知識を大衆に利用してもらうことを目的としています。
画像生成テキスト
G
DevQuasar
161
1
Gemma 3 4b It Qat Autoawq
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルで、Gemini技術に基づいて構築され、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト
Safetensors
G
gaunernst
503
1
Openclip ViT H 14 FARE2
MIT
Transformersライブラリに基づくロバストな画像エンコーダーモデル、画像特徴抽出タスクに特化
大規模言語モデル
Transformers

O
RCLIP
24
0
Mixtex Finetune
MIT
MixTex base_ZhEn は中国語と英語をサポートする画像からテキストへの変換モデルで、MITライセンスの下で公開されています。
画像生成テキスト 複数言語対応
M
wzmmmm
27
0
Gemma 3 Glitter 4B
Gemma 3 4Bモデルを基に、Glitter 12bと同じデータ混合スキームで最適化されたモデル
大規模言語モデル
G
allura-org
140
3
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
このモデルはds4sd/SmolDocling-256M-previewからMLX形式に変換された視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト
Transformers 英語

S
ahishamm
24
1
Gemma 3 27b Pt Bnb 4bit
Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築され、マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト
Transformers 英語

G
unsloth
2,009
1
Gemma 3 1b Pt Unsloth Bnb 4bit
Gemma 3はGoogleが発表した軽量オープンモデルシリーズで、マルチモーダル入力(テキストと画像)をサポートし、128Kの大きな文脈ウィンドウを持ち、質問応答、要約などの様々なタスクに適しています。
画像生成テキスト
Transformers 英語

G
unsloth
4,481
3
Kaleidoscope Large V1
sberbank-ai/ruBert-largeをファインチューニングした文書QAモデルで、文書からの回答抽出に優れ、ロシア語と英語をサポートします。
質問応答システム
Transformers 複数言語対応

K
LaciaStudio
297
0
Kaleidoscope Large V1
sberbank-ai/ruBert-largeをファインチューニングした文書QA専用モデルで、ロシア語と英語の文書QAタスクをサポートします。
質問応答システム
Transformers 複数言語対応

K
2KKLabs
214
2
Kaleidoscope Small V1
sberbank-ai/ruBert-baseをファインチューニングした文書QAモデルで、文書のコンテキストから回答を抽出するのに優れており、ロシア語と英語をサポートしています。
質問応答システム
Transformers 複数言語対応

K
2KKLabs
98
0
Ola Image
Apache-2.0
Ola-7Bは、テンセント、清華大学、南洋理工大学が共同開発したマルチモーダル言語モデルで、Qwen2.5アーキテクチャを基に、画像、動画、音声、テキストの入力を処理し、テキストを出力することができます。
マルチモーダル融合 複数言語対応
O
THUdyh
61
3
Ola 7b
Apache-2.0
Ola-7Bは、テンセント、清華大学、南洋理工大学が共同開発したマルチモーダル大規模言語モデルで、Qwen2.5アーキテクチャを基に、テキスト、画像、動画、音声の入力を処理し、テキスト出力を生成することができます。
マルチモーダル融合
Safetensors 複数言語対応
O
THUdyh
1,020
37
Mineru
Apache-2.0
このモデルはPDF文書をMarkdown形式に変換し、元の文書のレイアウト構造を保持し、数学式や表を正確に認識します。
画像生成テキスト
Transformers 複数言語対応

M
kitjesen
122
12
Florence 2 FT DocVQA
MIT
Florence-2-baseをファインチューニングした文書視覚QAモデルで、文書画像内のQAタスクを専門に処理します。
画像生成テキスト
Transformers 英語

F
sahilnishad
4,928
0
Longvu Llama3 2 1B
Apache-2.0
LongVUは長尺動画コンテンツを効率的に処理し、言語理解能力を向上させるための時空間適応圧縮技術です。
ビデオ生成テキスト
L
Vision-CAIR
465
11
Longvu Llama3 2 3B
Apache-2.0
LongVUは長動画の言語理解に向けた時空間適応圧縮技術で、長動画コンテンツを効率的に処理することを目的としています。
ビデオ生成テキスト
PyTorch
L
Vision-CAIR
1,079
7
H2ovl Mississippi 800m
Apache-2.0
H2O.aiが開発した8億パラメータの視覚言語モデルで、OCRとドキュメント理解に優れた性能を発揮
画像生成テキスト
Transformers 英語

H
h2oai
77.67k
33
Oryx 1.5 7B
Apache-2.0
Oryx-1.5-7BはQwen2.5言語モデルを基に開発された7Bパラメータモデルで、32Kトークンのコンテキストウィンドウをサポートし、任意の空間サイズと時間長の視覚入力を効率的に処理することに特化しています。
テキスト生成ビデオ
Safetensors 複数言語対応
O
THUdyh
133
7
Florence 2 DocVQA
マイクロソフトのFlorence-2モデルをDocmatixデータセット(データ量の5%)で1日間ファインチューニングしたバージョンで、画像テキスト理解タスクに適しています
テキスト生成画像
Transformers

F
impactframes
30
1
Pixtral 12b Nf4
Apache-2.0
MistralコミュニティのPixtral-12Bを基にした4ビット量子化バージョンで、画像からテキストへのタスクに特化し、中国語の説明生成をサポート
画像生成テキスト
Transformers

P
SeanScripts
236
20
Florence 2 Large Florence 2 Large Nsfw Pretrain Gt
このモデルはtransformersライブラリに基づくモデルで、具体的な機能と用途はさらなる情報確認が必要です。
大規模言語モデル
Transformers

F
ljnlonoljpiljm
55
6
Ucmt Sam On Depth
MIT
PyTorchで実装されたマスク生成モデルで、PytorchModelHubMixinを通じてHubに統合されています
画像セグメンテーション
U
weihao1115
35
1
Ecot Openvla 7b Oxe
ロボット制御タスク向けの事前学習Transformerモデルで、運動計画、物体把持などの基本機能をサポート
大規模言語モデル
Transformers

E
Embodied-CoT
2,003
0
Florence 2 DocVQA
これはMicrosoftのFlorence-2モデルをDocmatixデータセット(データ量5%)で学習率1e-6で1日間微調整したバージョンです
テキスト生成画像
Transformers

F
HuggingFaceM4
3,096
60
Horus OCR
Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。
画像生成テキスト
Transformers

H
TeeA
21
0
Kosmos 2 PokemonCards Trl Merged
これはマイクロソフトのKosmos-2モデルを微調整したマルチモーダルモデルで、ポケモンカードのポケモン名を識別するために特別に設計されています。
画像生成テキスト
Transformers 英語

K
Mit1208
51
1
Icon Captioning Model
Bsd-3-clause
これはBLIPアーキテクチャに基づく画像説明生成モデルで、アイコンやシンプルな画像のテキスト説明を生成するために特別に設計されています。
画像生成テキスト
Transformers

I
Revrse
98
5
Fine Tuned Rvl Cdip
microsoft/layoutlmv3-baseモデルをドキュメント画像分類タスクでファインチューニングしたバージョンで、評価セットでF1スコア0.8177を達成
文字認識
Transformers

F
davidhajdu
21
1
Interpret Cxr Impression Baseline
このモデルは、X線画像などの医療画像を入力として、診断を補助する記述的なテキストに変換することができます。
画像生成テキスト
Transformers

I
IAMJB
17
0
Output LayoutLMv3 V7
microsoft/layoutlmv3-baseをファインチューニングしたドキュメント理解モデルで、ドキュメントレイアウト分析タスクに優れています
文字認識
Transformers

O
Noureddinesa
18
1
Donut Base Handwriting Recognition
MIT
naver-clova-ix/donut-baseをファインチューニングした手書き認識モデル
文字認識
Transformers

D
Cdywalst
140
1
Llava Maid 7B DPO GGUF
LLaVAは大規模な言語と視覚のアシスタントモデルで、画像とテキストのマルチモーダルタスクを処理できます。
画像生成テキスト
L
megaaziib
99
4
Docllm Baichuan2 7b
DocLLM_reimplementation はドキュメント理解タスクに特化した大規模言語モデルの再実装プロジェクトで、ドキュメント理解能力の再実装と改善を目的としています。
大規模言語モデル
Transformers

D
JinghuiLuAstronaut
185
5
Chart To Table
Apache-2.0
このモデルはグラフを構造化されたテーブルに変換するために使用され、UniChartアーキテクチャに基づいて構築されています。生成されるテーブルは特定の区切り文字を使用して行と列の構造を表現します。
画像生成テキスト
Transformers 英語

C
khhuang
345
17
- 1
- 2
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98