Smolvlm Instruct GGUF
Apache-2.0
SmolVLM是一个紧凑的开源多模态模型,能够接受图像和文本输入并生成文本输出,专为高效设计,适用于设备端应用。
图像生成文本
Transformers 英语

S
Mungert
1,023
2
Fastvlm 0.5B Stage3
其他
FastVLM-0.5B-Stage3 是一个高效的多模态语言模型,具备视觉理解和语言处理能力,能够处理长视频并生成结构化输出。
图像生成文本
Transformers 英语

F
zhaode
174
1
Fastvlm 0.5B Stage2
其他
FastVLM-0.5B-Stage2是一个高效的多模态语言模型,能够理解视觉内容并处理文本任务。
多模态融合
Transformers 英语

F
zhaode
103
1
Sam2 Hiera Small.fb R896
Apache-2.0
基于HieraDet图像编码器的SAM2模型,专注于图像特征提取任务。
图像分割
Transformers

S
timm
142
0
Sam2 Hiera Base Plus.fb R896
Apache-2.0
基于HieraDet图像编码器的SAM2模型,专注于图像特征提取任务。
图像分割
Transformers

S
timm
764
0
Clip Japanese Base
Apache-2.0
由LY Corporation开发的日语CLIP模型,基于约10亿个网络收集的图像-文本对进行训练,适用于多种视觉任务。
文本生成图像
Transformers 日语

C
line-corporation
14.31k
22
Vit B 16 Aion400m E32 1finetuned 1
MIT
基于OpenCLIP框架的视觉Transformer模型,针对零样本图像分类任务进行微调
图像分类
V
Albe-njupt
18
1
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98