Internvl3 8B Bf16
その他
InternVL3-8B-bf16 はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。
画像生成テキスト
Transformers その他

I
mlx-community
96
1
Llama 4 Scout 17B 16E 8bit
その他
これはMetaのLlama-4-Scout-17B-16Eモデルから変換されたMLX形式のモデルで、多言語と視覚言語タスクをサポートします。
テキスト生成画像
Transformers 複数言語対応

L
mlx-community
252
0
Qwen2.5vl 3B VLM R1 REC 500steps
Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。
テキスト生成画像
Safetensors 英語
Q
omlab
976
22
Eagle2 9B
Eagle2は高性能な視覚言語モデルシリーズで、データ戦略とトレーニング手法の最適化を通じてモデル性能を向上させることに焦点を当てています。Eagle2-9Bはこのシリーズの大型モデルで、性能と推論速度の間で良好なバランスを実現しています。
テキスト生成画像
Transformers その他

E
KnutJaegersberg
15
4
Eagle2 9B
Eagle2-9BはNVIDIAが発表した最新の視覚言語モデル(VLM)で、性能と推論速度の完璧なバランスを実現しています。Qwen2.5-7B-Instruct言語モデルとSiglip+ConvNext視覚モデルを基盤として構築され、多言語・マルチモーダルタスクをサポートします。
画像生成テキスト
Transformers その他

E
nvidia
944
52
Biotrove CLIP
MIT
BioTrove-CLIPは、CLIPスタイルの生物多様性視覚言語基盤モデルで、4000万枚の画像と3万3000種の植物・動物種を含むデータセットでトレーニングされています。
テキスト生成画像 英語
B
BGLab
48
2
Qwen For Jawi V1
Qwen2-VL-2B-Instructをファインチューニングしたジャウィ文字OCRモデル、歴史的マレー語テキストの識別に特化
画像生成テキスト
Transformers

Q
culturalheritagenus
155
1
Vitamin XL 256px
MIT
ViTamin-XL-256pxはViTaminアーキテクチャに基づく視覚言語モデルで、効率的な視覚特徴抽出とマルチモーダルタスク向けに設計されており、高解像度画像処理をサポートします。
テキスト生成画像
Transformers

V
jienengchen
655
1
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98