Smollm3 3B
Apache-2.0
SmolLM3是一款参数为30亿的语言模型,旨在突破小模型的性能边界。它支持6种语言,具备高级推理能力和长上下文处理能力,是一个完全开源的模型。
大型语言模型
Transformers 支持多种语言

S
HuggingFaceTB
1,138
99
A.X 4.0 Light Gguf
Apache-2.0
A.X 4.0 Light 是由 SKT AI Model Lab 开发的轻量级大语言模型,基于 Qwen2.5 构建,针对韩语理解和企业部署优化。
大型语言模型
Transformers 支持多种语言

A
mykor
535
2
Longwriter Zero 32B I1 GGUF
Apache-2.0
LongWriter-Zero-32B 量化模型基于 THU-KEG/LongWriter-Zero-32B 基础模型,支持中英双语,适用于强化学习、写作等长上下文场景。
大型语言模型
Transformers 支持多种语言

L
mradermacher
135
1
Longwriter Zero 32B GGUF
Apache-2.0
LongWriter-Zero-32B量化模型是基于原始模型进行静态量化处理的多语言模型,适用于强化学习、写作等长上下文场景。
大型语言模型
Transformers 支持多种语言

L
mradermacher
204
1
Smollm3 3B Base
Apache-2.0
SmolLM3是一款拥有30亿参数的开源语言模型,支持6种语言,具备强大的推理能力和长上下文处理能力。
大型语言模型
Transformers 支持多种语言

S
HuggingFaceTB
1,208
41
Jan Nano Gguf
Apache-2.0
Jan Nano是基于Qwen3架构微调的小型语言模型,专为本地和嵌入式环境设计,兼具高效性和长上下文处理能力。
大型语言模型
J
Menlo
2,703
38
Deepseek R1 0528 GPTQ Int4 Int8Mix Compact
MIT
DeepSeek-R1-0528模型的GPTQ量化版本,采用Int4 + 选择性Int8的量化方案,在保证生成质量的同时减小文件大小。
大型语言模型
Transformers

D
QuantTrio
258
1
Zlatorog 12B Instruct Beta
Zlatorog-12B-Instruct-Beta 是基于 Mistral Nemo 12B 微调的大语言模型,专为斯洛文尼亚语相关研究设计,支持指令跟随、推理和工具增强生成任务。
大型语言模型
Transformers 支持多种语言

Z
zID4si
123
1
Ophiuchi Qwen3 14B Instruct
Apache-2.0
基于Qwen3-14B架构构建的指令微调模型,专精数学推理、代码生成和事实准确性
大型语言模型
Transformers 支持多种语言

O
prithivMLmods
21
3
Phi 4 Reasoning Unsloth Bnb 4bit
MIT
Phi-4-reasoning是一款由微软开发的先进推理模型,基于Phi-4进行微调,专注于提升数学、科学和编码等领域的推理能力。
大型语言模型
Transformers 支持多种语言

P
unsloth
1,969
2
Phi 4 Reasoning Plus GGUF
MIT
Phi-4-reasoning-plus 是由微软研究院开发的开源推理模型,专注于数学、科学和编程领域的高级推理能力。
大型语言模型 支持多种语言
P
unsloth
109.62k
47
Qwen3
Apache-2.0
Qwen3是由Qwen团队开发的一系列先进语言模型,在高级推理、对话、指令遵循和智能体应用等方面表现卓越。
大型语言模型
Q
cortexso
8,089
2
Greenmind Medium 14B R1
MIT
GreenMind-Medium-14B-R1 是一款中等规模的越南语语言模型,能够有效解决需要中级推理的问题,例如常识、数学、自然科学和社会科学主题。
大型语言模型 支持多种语言
G
GreenNode
50
2
Bamba 9B V2
Apache-2.0
Bamba-9B-v2 是基于 Mamba-2 架构构建的仅解码器语言模型,专注于文本生成任务,性能优于 Llama 3.1 8B。
大型语言模型
Transformers

B
ibm-ai-platform
3,634
15
Kyro N1.1 7B Pytorch
其他
Kyro-n1.1是Kyro-n1的增强版本,基于Qwen2.5-7B-Instruct构建,优化了推理能力、理解能力和响应精准度。
大型语言模型
Transformers 支持多种语言

K
open-neo
41
2
Phi 4 Reasoning Plus
MIT
Phi-4-reasoning-plus 是微软研究院开发的先进开放权重推理模型,基于 Phi-4 通过监督微调和强化学习优化,专注于数学、科学和编码领域的高级推理能力。
大型语言模型
Transformers 支持多种语言

P
microsoft
19.83k
261
Internvl3 78B Pretrained
其他
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。相比前代InternVL 2.5,具备更强大的多模态感知与推理能力,并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。
文本生成图像
Transformers 其他

I
OpenGVLab
22
1
Internvl3 2B Instruct
Apache-2.0
InternVL3-2B-Instruct是基于InternVL3-2B的监督微调版本,经过原生多模态预训练和SFT处理,具备强大的多模态感知和推理能力。
文本生成图像
Transformers 其他

I
OpenGVLab
1,345
4
Kanana 1.5 2.1b Base
Apache-2.0
Kanana 1.5是Kanana模型家族的新版本,在编码、数学和函数调用能力方面有显著提升,支持32K tokens长度并可扩展至128K tokens。
大型语言模型
Transformers 支持多种语言

K
kakaocorp
757
4
Deepcoder 1.5B Preview GGUF
MIT
基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大语言模型,采用分布式强化学习技术扩展长上下文处理能力
大型语言模型 英语
D
Mungert
888
2
Shisa V2 Qwen2.5 7b
Apache-2.0
Shisa V2是由Shisa.AI研发的日英双语通用对话模型,专注于提升日语任务表现,同时保持强大的英语能力。
大型语言模型
Transformers 支持多种语言

S
shisa-ai
38
2
La Superba 14B Y.2
Apache-2.0
基于Qwen 2.5 14B架构构建的新一代语言模型,专为数学推理、编程和通用逻辑任务优化。
大型语言模型
Transformers 支持多种语言

L
prithivMLmods
19
2
Moderncamembert Cv2 Base
MIT
基于1万亿高质量法语文本预训练的法语语言模型,是ModernBERT的法语版本
大型语言模型
Transformers 法语

M
almanach
232
2
Phi 4 Reasoning
MIT
Phi-4推理是基于Phi-4通过监督微调思维链轨迹数据集和强化学习训练的前沿开放权重推理模型,专注于数学、科学和编程技能。
大型语言模型
Transformers 支持多种语言

P
microsoft
11.31k
172
Minueza 2 96M
Apache-2.0
基于Llama架构的紧凑型语言模型,支持英语和葡萄牙语,参数规模9600万,支持4096个token的上下文长度。
大型语言模型
Transformers 支持多种语言

M
Felladrin
357
6
Deepseek V3 0324 GGUF
MIT
当前V3-0324模型在该尺寸类别中表现最佳的量化版本,在保持性能接近Q8_0的同时显著减小了体积
大型语言模型 其他
D
ubergarm
1,712
20
EXAONE Deep 2.4B GGUF
其他
EXAONE Deep是由LG AI Research开发的高效推理语言模型,参数规模2.4B,在数学和编程等推理任务中表现优异。
大型语言模型 支持多种语言
E
Mungert
968
3
Olmo2 11B SuperBPE T180k
Apache-2.0
110亿参数大语言模型,采用创新的SuperBPE分词器训练,支持超词单元识别和子词分词能力。
大型语言模型
Transformers 英语

O
UW
29
2
Theta 35
Apache-2.0
Theta-35 是 SVECTOR 推出的 Theta 系列中的先进推理模型,专注于复杂思维和推理,在需要深度逻辑分析和多步推理的难题上表现出色。
大型语言模型
Transformers 英语

T
SVECTOR-CORPORATION
10.44k
5
Granite 3.2 8b Instruct GGUF
Apache-2.0
Granite-3.2-8B-Instruct是一个80亿参数的长上下文AI模型,专为思维推理能力微调,支持多种语言和任务。
大型语言模型
Transformers

G
ibm-research
1,059
5
Granite 3.2 2b Instruct GGUF
Apache-2.0
Granite-3.2-2B-Instruct是一个20亿参数的长上下文AI模型,专为思维推理能力微调,支持12种语言和多任务处理。
大型语言模型
G
ibm-research
1,476
7
Llama Krikri 8B Instruct GGUF
基于Llama-3.1-8B构建的希腊语指令调优大语言模型,增强希腊语能力并支持多语言任务
大型语言模型
Transformers

L
ilsp
257
11
Mmmamba Linear
MIT
mmMamba-linear是首个通过中等学术计算资源实现二次到线性蒸馏的纯解码器多模态状态空间模型,具有高效的多模态处理能力。
图像生成文本
Transformers

M
hustvl
16
3
Multilingual ModernBert Base Preview
MIT
由Algomatic团队开发的多语言BERT模型,支持填充掩码任务,具有8192的上下文长度和151,680的词汇量。
大型语言模型
M
makiart
60
4
Llama Krikri 8B Base
Llama-Krikri-8B-Base是基于Llama-3.1-8B构建的大型希腊语基础语言模型,通过持续预训练扩展希腊语能力,同时保持英语能力。
大型语言模型
Transformers 支持多种语言

L
ilsp
104
12
Modernbert Base Long Context Qe V1
Apache-2.0
基于ModernBERT-base微调的机器翻译质量评估模型,支持长上下文文档级评估
问答系统
Transformers 支持多种语言

M
ymoslem
987
5
Qwen2.5 14B DeepSeek R1 1M
Apache-2.0
融合推理模型和长上下文模型优势的多用途大语言模型
大型语言模型
Transformers

Q
mkurman
2,195
52
Rumodernbert Small
Apache-2.0
俄罗斯版现代化单向双向编码器Transformer模型,预训练使用了约2万亿个俄语、英语和代码数据的标记,上下文长度高达8,192个标记。
大型语言模型
Transformers 支持多种语言

R
deepvk
619
14
Rumodernbert Base
Apache-2.0
现代双向仅编码器Transformer模型的俄语版本,基于约2万亿俄语、英语和代码标记进行预训练,上下文长度达8,192个标记。
大型语言模型
Transformers 支持多种语言

R
deepvk
2,992
40
Deepseek R1 Bf16
MIT
DeepSeek-R1是第一代推理模型,在数学、代码和推理任务上表现出色,性能可与OpenAI-o1相媲美。
大型语言模型
Transformers

D
opensourcerelease
1,486
16
- 1
- 2
- 3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98