低內存推理

# 低內存推理

Smollm 135M Instruct

一個輕量級指令微調語言模型，專為移動端部署優化

大型語言模型

litert-community

Falcon E 3B Instruct

Falcon-E-3B-Instruct 是一個基於1.58比特架構的高效語言模型，專為邊緣設備優化，具有出色的推理能力和低內存佔用。

大型語言模型

Falcon E 1B Instruct

Falcon-E-1B-Instruct 是一個基於1.58比特架構的高效語言模型，專為邊緣設備優化，具有低內存佔用和高性能的特點。

大型語言模型

All MiniLM L6 V2 GGUF

all-MiniLM-L6-v2是一個小型高效的句子嵌入模型，基於MiniLM架構，適用於句子相似度計算和特徵提取任務。

文本嵌入英語

Meta Llama 3 8B Instruct GGUF

基於Llama-3-8B-Instruct的IQ-DynamicGate超低位量化(1-2比特)模型，採用精度自適應量化技術，在保持極致內存效率的同時提升推理精度。

大型語言模型英語

Mosaicml Mpt 7b Chat Bnb 4bit Smashed

PrunaAI提供的壓縮版MPT-7B-Chat模型，通過llm-int8技術優化，顯著降低內存佔用和能耗。

大型語言模型

Transformers 其他

Nllb 200 Distilled 1.3B Ct2 Int8

NLLB-200 Distilled 1.3B是Meta開發的神經機器翻譯模型，支持200種語言之間的翻譯，使用CTranslate2進行高效推理。

Transformers 支持多種語言

Btlm 3b 8k Base

BTLM-3B-8k-base是一個具有8k上下文長度的30億參數語言模型，基於6270億token的SlimPajama數據集訓練而成，性能可媲美開源70億參數模型。

大型語言模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase