# 128K长文本处理

Phi 3.5 Mini Instruct
MIT
Phi-3.5-mini-instruct是一款轻量级、先进的开源模型,基于Phi-3使用的数据集构建,专注于高质量、富含推理的数据。支持128K令牌上下文长度,具有强大的多语言能力和长上下文处理能力。
大型语言模型 Transformers 其他
P
Lexius
129
1
Ling Lite 1.5
MIT
灵曦是由InclusionAI开源的大规模混合专家语言模型,精简版拥有168亿总参数与27.5亿激活参数,展现出卓越性能表现。
大型语言模型 Transformers
L
inclusionAI
46
3
Typhoon2.1 Gemma3 12b Gguf
Typhoon2.1-Gemma3-12B 是一个指令型泰语大语言模型,拥有 120 亿参数、128K 的上下文长度以及函数调用能力。
大型语言模型
T
scb10x
186
1
Typhoon2.1 Gemma3 4b Gguf
Typhoon2.1-Gemma3-4B 是一个指令型泰语大语言模型,拥有40亿参数和128K的上下文长度,支持函数调用能力。
大型语言模型
T
scb10x
218
2
Qwen2.5 7B Instruct
Apache-2.0
Qwen2.5是通义大语言模型的最新系列,提供从5亿到720亿参数的多种模型,在编码、数学、指令遵循和长文本处理方面有显著改进。
大型语言模型 Transformers 支持多种语言
Q
Gensyn
547.02k
2
Qwen3 32B 128K GGUF
Apache-2.0
Qwen3是Qwen系列最新一代的大语言模型,提供了一系列密集和混合专家(MoE)模型。基于广泛的训练,Qwen3在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。
大型语言模型 英语
Q
unsloth
20.51k
20
Qwen3 8B 128K GGUF
Apache-2.0
Qwen3是通义千问系列大语言模型的最新8B参数版本,支持思维与非思维模式切换,具备128K上下文长度和卓越的多语言能力。
大型语言模型 英语
Q
unsloth
15.29k
14
Qwen3 235B A22B 128K GGUF
Apache-2.0
Qwen3是通义千问系列最新一代大语言模型,提供完整的稠密和混合专家(MoE)模型套件。基于大规模训练,Qwen3在推理、指令遵循、智能体能力和多语言支持方面取得突破性进展。
大型语言模型 英语
Q
unsloth
310.66k
26
Google Gemma 3 27b It Text
Gemma 3 27B的纯文本适配版本,移除了图像处理功能,专注于文本生成任务
大型语言模型 Transformers
G
Changgil
34
2
Qwen2.5 7B Instruct GGUF Llamafile
Apache-2.0
Qwen2.5是通义千问大模型的最新系列,包含从0.5B到72B参数规模的基础模型和指令微调模型,在代码、数学、指令遵循、长文本生成等领域有显著提升。
大型语言模型 英语
Q
Bojun-Feng
441
2
Gemma 3 1b It Qat
Gemma 3是谷歌推出的轻量级多模态模型,能够处理文本和图像输入并生成文本输出。该模型具有128K大上下文窗口和超140种语言的多语言支持。
图像生成文本 Transformers
G
unsloth
2,558
1
Gemma 3 1b It Llamafile
Gemma是Google推出的轻量级开放模型系列,基于与Gemini相同的研究技术构建。llamafile版本由Mozilla打包为可执行文件,便于多平台使用。
文本生成图像
G
Mozilla
469
3
Viper Coder V1.5 R999
Apache-2.0
Viper-Coder-v1.5-r999 是基于 Qwen 2.5 14B 架构设计的大语言模型,专为编码和推理任务优化,具备强大的思维链推理和逻辑问题解决能力。
大型语言模型 Transformers 支持多种语言
V
prithivMLmods
1,314
1
Viper OneCoder UIGEN
Apache-2.0
基于Qwen 2.5 14B架构设计的网页开发与结构化编码逻辑模型,擅长HTML/CSS/Tailwind开发及复杂指令执行。
大型语言模型 Transformers 英语
V
prithivMLmods
1,389
3
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
文本生成音频 Transformers 支持多种语言
P
microsoft
584.02k
1,329
Deepseek R1 FP4
MIT
DeepSeek R1模型的FP4量化版本,采用优化后的Transformer架构实现高效文本生成
大型语言模型
D
nvidia
61.51k
239
Chocolatine Fusion 14B
MIT
Chocolatine-Fusion-14B是一个合并模型,结合了Chocolatine-2系列的优势,通过优化融合提升了推理能力和多轮对话表现。
大型语言模型 Transformers
C
FINGU-AI
226
5
C4ai Command R Plus 08 2024
Command R+ 08-2024 是一个1040亿参数的多语言大语言模型,支持检索增强生成(RAG)和工具使用,适用于复杂任务自动化。
大型语言模型 Transformers 支持多种语言
C
CohereLabs
4,265
260
C4ai Command R Plus Fp8
C4AI Command R+ 是一个开放权重的1040亿参数研究模型,具备高级功能,包括检索增强生成(RAG)和工具使用以自动化复杂任务。
大型语言模型 Transformers 支持多种语言
C
FriendliAI
35
4
C4ai Command R Plus 4bit
Cohere Labs Command R+ 是一款1040亿参数的多语言大语言模型,具备检索增强生成(RAG)和工具使用等高级功能,支持128K上下文长度。
大型语言模型 Transformers 支持多种语言
C
CohereLabs
316
252
Buddhi 128k Chat 7b
Apache-2.0
Buddhi-128k-Chat 是一款具有 128K 上下文窗口的通用首款聊天模型,基于 Mistral 7B Instruct 进行了精细微调,并通过创新的 YaRN 技术优化,可处理长达 128,000 个标记的扩展上下文长度。
大型语言模型 Transformers 英语
B
aiplanet
196
18
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase