低資源推理優化

# 低資源推理優化

Kodify Nano GGUF

Kodify-Nano-GGUF 是 Kodify-Nano 模型的 GGUF 版本，針對 CPU/GPU 推理進行了優化，是一款輕量級的大語言模型，適用於代碼開發任務。

大型語言模型

Cogito 14b Gptq Q4

基於Qwen2.5-14B大語言模型的GPTQ量化版本，支持英語和西班牙語文本生成任務

大型語言模型

Qwen3 30B A1.5B 64K High Speed NEO Imatrix MAX Gguf

基於Qwen3-30B-A3B專家混合模型的優化版本，通過減少激活專家數量提升速度，支持64k上下文長度，適用於多種文本生成任務。

大型語言模型支持多種語言

Qwen3 128k 30B A3B NEO MAX Imatrix Gguf

基於Qwen3-30B-A3B混合專家模型的GGUF量化版本，上下文擴展至128k，採用NEO Imatrix量化技術優化，支持多語言和多任務處理。

大型語言模型支持多種語言

Llama 4 Scout 17B 16E Instruct Bnb 4bit

這是原始模型 meta-llama/Llama-4-Scout-17B-16E-Instruct 的量化版本，採用 int4 量化技術優化，適用於多語言任務。

大型語言模型

Transformers 支持多種語言

Doge是一個採用動態掩碼注意力機制進行序列轉換的模型，可使用多層感知器或跨域專家混合進行狀態轉換。

大型語言模型

Transformers 支持多種語言

Llama 3.2 11B Vision Instruct GGUF

Llama-3.2-11B-Vision-Instruct 是一個支持多語言的視覺-語言模型，可用於圖像文本到文本的轉換任務。

圖像生成文本

Transformers 支持多種語言

Nvidia Llama 3.1 Nemotron 70B Instruct HF AWQ INT4

這是 NVIDIA 基於 Meta Llama-3.1-70B-Instruct 定製的 Llama-3.1-Nemotron-70B-Instruct 模型的 AWQ 4位量化版本，專注於提升生成響應的有用性。

大型語言模型

Transformers 支持多種語言

Jamba-Hercules是基於ai21labs/Jamba-v0.1微調的大語言模型，使用Locutusque/hercules-v4.0數據集進行訓練，專注於文本生成任務。

大型語言模型

Kunoichi DPO V2 7B GGUF Imatrix

基於Mistral架構的7B參數大語言模型，採用DPO(直接偏好優化)訓練，在多項基準測試中表現優異

大型語言模型

Speechless Coder Ds 6.7b

speechless-coder-ds-6.7b 是一個基於 deepseek-ai/deepseek-coder-6.7b 微調的大語言模型，專注於提升代碼生成和編程輔助能力。

大型語言模型

Transformers 支持多種語言

Maral 7B Alpha 1

Maral是一款專注于波斯語的大型語言模型，基於Mistral架構，在波斯語Alpaca數據集上訓練而成，同時支持英語生成。

大型語言模型

Transformers 支持多種語言

GenZ 是基於 Meta 開源 Llama V2 700 億參數模型微調的先進大語言模型，旨在為開源社區提供高性能的文本生成能力。

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase