高性能推理

# 高性能推理

ICONNAI ICONN 1 GGUF

ICONN-1的量化版本，提供多种量化选项以适应不同性能和质量需求

大型语言模型

Nvidia AceReason Nemotron 1.1 7B GGUF

这是NVIDIA AceReason - Nemotron - 1.1 - 7B模型的量化版本，通过优化模型在不同硬件上的运行效率，同时保持一定的性能和质量。

大型语言模型支持多种语言

Xlangai Jedi 7B 1080p GGUF

这是一个使用llama.cpp进行量化的Jedi - 7B - 1080p模型，提供了多种量化类型供用户选择，以平衡文件大小和模型质量。

大型语言模型英语

E N V Y Legion V2.1 LLaMa 70B Elarablated V0.8 Hf GGUF

Legion-V2.1-LLaMa-70B-Elarablated-v0.8-hf是基于LLaMa-70B的量化版本，采用llama.cpp进行优化，提供多种量化选项以适应不同硬件需求。

大型语言模型

Deepseek Ai DeepSeek R1 0528 GGUF

DeepSeek-R1-0528 是一个大型语言模型，经过量化处理以优化在不同硬件上的运行效率。

大型语言模型

Nvidia AceReason Nemotron 7B GGUF

AceReason-Nemotron-7B 是一个基于 Nemotron 架构的 7B 参数规模的大型语言模型，提供多种量化版本以适应不同硬件需求。

大型语言模型

Seed Coder 8B Instruct GGUF

Seed-Coder-8B-Instruct 是一款强大的开源代码模型，具有以模型为中心、透明和高性能等特点，在多种编码任务中表现出色。

大型语言模型

PARD Llama 3.2 1B

PARD是一种高性能的推测解码方法，能够以低成本将自回归草稿模型转换为并行草稿模型，显著加速大语言模型推理。

大型语言模型

Qwen3 235B A22B Mixed 3 6bit

这是一个基于Qwen/Qwen3-235B-A22B模型转换而来的混合3-6位量化版本，适用于苹果MLX框架的高效推理。

大型语言模型

Nvidia OpenCodeReasoning Nemotron 14B GGUF

这是NVIDIA OpenCodeReasoning-Nemotron-14B模型的Llamacpp imatrix量化版本，适用于代码推理任务。

大型语言模型支持多种语言

Gpt2 774M Fineweb 150B

该模型源自karpathy的llm.c项目，为研究bfloat16性能而转换为HuggingFace格式，训练过程消耗了1500亿token。

大型语言模型

Deepseek R1 Distill Llama 70B Abliterated Mlx 4Bit

这是一个基于 Llama-70B 的蒸馏模型，经过 mlx-lm 转换为 MLX 格式，并进行了 4 位量化处理。

大型语言模型

Internvl2 5 8B MPO Hf

这是一个已发布在模型中心的Transformers模型，具体功能和用途待补充。

大型语言模型

Qwen2.5 Recursive Coder 14B Instruct

基于Qwen2.5架构的14B参数规模代码生成与理解模型，通过Model Stock方法融合多个专业编码模型而成

大型语言模型

Qwen2.5 Smooth Coder 14B Instruct

这是一个基于Qwen2.5-14B架构的多模型融合结果，采用Model Stock融合方法，结合了22个不同来源的14B参数规模模型。

大型语言模型

Qwen2.5 Bakeneko 32b Instruct V2

基于Qwen2.5 Bakeneko 32B的指令调优变体，通过Chat Vector和ORPO优化增强指令跟随能力，在日语MT-Bench上表现出色。

大型语言模型

Transformers 日语

Instella 3B Stage1

Instella是由AMD开发的30亿参数开源语言模型系列，基于AMD Instinct™ MI300X GPU训练，性能超越同规模全开源模型。

大型语言模型

Llama 3 Swallow 8B Instruct V0.1

基于Meta Llama 3构建的日语优化大语言模型，通过持续预训练增强日语能力，采用监督微调提升指令跟随能力

大型语言模型

Transformers 支持多种语言

C4AI Command - R是一款拥有350亿参数的高性能生成模型的研究版本，针对推理、总结和问答等多种用例进行了优化。

大型语言模型

Meta Llama 3 70B Instruct GGUF

Llama 3 70B Instruct的GGUF格式版本，提供更高效的本地运行体验

大型语言模型

Transformers 英语

ECE TW3 JRGL V5

ECE-TW3-JRGL-V5 是一个通过 mergekit 合并 MoMo-72B-lora-1.8.7-DPO 和 alpaca-dragon-72b-v1 模型得到的新模型，融合了多个模型的优势。

大型语言模型

YOLOv8 是 Ultralytics 开发的最新一代目标检测模型，基于先前 YOLO 版本的成功构建，引入了新功能和改进，进一步提升性能和灵活性。

Mixtral 7b 8expert

MistralAI最新发布的混合专家（MoE）模型，支持多语言文本生成任务

大型语言模型

Transformers 支持多种语言

易（Yi）系列模型是由01.AI从头开始训练的下一代开源大语言模型，支持双语（中英文），在语言理解、常识推理、阅读理解等方面表现出色。

大型语言模型

Yi-34B-Chat是由01.AI开发的双语大语言模型，在AlpacaEval排行榜上仅次于GPT-4 Turbo，表现优异。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase