16K长上下文

# 16K长上下文

ALP DeepScaleR 1.5B C16K

ALP_DeepScaleR_1.5B_C16K是基于DeepScaleR-1.5B模型，采用自适应长度惩罚（ALP）方法进行训练的模型，能在保持性能的同时显著减少token使用量。

大型语言模型

Fathom R1 14B RS

Fathom-R1-14B是一个基于R1-distilled-14B模型的项目，以499美元的低训练成本在16K上下文下实现o4-mini水平的数学推理能力。

大型语言模型

FractalAIResearch

phi-4是微软研究院开发的开源语言模型，专注于高质量数据和推理能力，适用于内存/计算受限环境。

大型语言模型支持多种语言

Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型，支持23种语言的视觉和语言任务。

图像生成文本

Transformers 支持多种语言

Deepseek Coder 1.3b Base Ov Int8

一个拥有13亿参数的多头注意力代码生成模型，基于1万亿token进行训练，支持16K窗口的代码补全任务

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase