長上下文處理

# 長上下文處理

A.X 4.0 Light Gguf

A.X 4.0 Light 是由 SKT AI Model Lab 開發的輕量級大語言模型，基於 Qwen2.5 構建，針對韓語理解和企業部署優化。

大型語言模型

Transformers 支持多種語言

Longwriter Zero 32B I1 GGUF

LongWriter-Zero-32B 量化模型基於 THU-KEG/LongWriter-Zero-32B 基礎模型，支持中英雙語，適用於強化學習、寫作等長上下文場景。

大型語言模型

Transformers 支持多種語言

Longwriter Zero 32B GGUF

LongWriter-Zero-32B量化模型是基於原始模型進行靜態量化處理的多語言模型，適用於強化學習、寫作等長上下文場景。

大型語言模型

Transformers 支持多種語言

Jan Nano是基於Qwen3架構微調的小型語言模型，專為本地和嵌入式環境設計，兼具高效性和長上下文處理能力。

大型語言模型

Deepseek R1 0528 GPTQ Int4 Int8Mix Compact

DeepSeek-R1-0528模型的GPTQ量化版本，採用Int4 + 選擇性Int8的量化方案，在保證生成質量的同時減小文件大小。

大型語言模型

Zlatorog 12B Instruct Beta

Zlatorog-12B-Instruct-Beta 是基於 Mistral Nemo 12B 微調的大語言模型，專為斯洛文尼亞語相關研究設計，支持指令跟隨、推理和工具增強生成任務。

大型語言模型

Transformers 支持多種語言

Ophiuchi Qwen3 14B Instruct

基於Qwen3-14B架構構建的指令微調模型，專精數學推理、代碼生成和事實準確性

大型語言模型

Transformers 支持多種語言

Phi 4 Reasoning Plus GGUF

Phi-4-reasoning-plus 是由微軟研究院開發的開源推理模型，專注於數學、科學和編程領域的高級推理能力。

大型語言模型支持多種語言

Qwen3是由Qwen團隊開發的一系列先進語言模型，在高級推理、對話、指令遵循和智能體應用等方面表現卓越。

大型語言模型

Greenmind Medium 14B R1

GreenMind-Medium-14B-R1 是一款中等規模的越南語語言模型，能夠有效解決需要中級推理的問題，例如常識、數學、自然科學和社會科學主題。

大型語言模型支持多種語言

Bamba-9B-v2 是基於 Mamba-2 架構構建的僅解碼器語言模型，專注於文本生成任務，性能優於 Llama 3.1 8B。

大型語言模型

ibm-ai-platform

Kyro N1.1 7B Pytorch

Kyro-n1.1是Kyro-n1的增強版本，基於Qwen2.5-7B-Instruct構建，優化了推理能力、理解能力和響應精準度。

大型語言模型

Transformers 支持多種語言

Phi 4 Reasoning Plus

Phi-4-reasoning-plus 是微軟研究院開發的先進開放權重推理模型，基於 Phi-4 通過監督微調和強化學習優化，專注於數學、科學和編碼領域的高級推理能力。

大型語言模型

Transformers 支持多種語言

Internvl3 78B Pretrained

InternVL3-78B是OpenGVLab推出的先進多模態大語言模型，展現卓越的綜合性能。相比前代InternVL 2.5，具備更強大的多模態感知與推理能力，並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。

文本生成圖像

Transformers 其他

Internvl3 2B Instruct

InternVL3-2B-Instruct是基於InternVL3-2B的監督微調版本，經過原生多模態預訓練和SFT處理，具備強大的多模態感知和推理能力。

文本生成圖像

Transformers 其他

Kanana 1.5 2.1b Base

Kanana 1.5是Kanana模型家族的新版本，在編碼、數學和函數調用能力方面有顯著提升，支持32K tokens長度並可擴展至128K tokens。

大型語言模型

Transformers 支持多種語言

Deepcoder 1.5B Preview GGUF

基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大語言模型，採用分佈式強化學習技術擴展長上下文處理能力

大型語言模型英語

Shisa V2 Qwen2.5 7b

Shisa V2是由Shisa.AI研發的日英雙語通用對話模型，專注於提升日語任務表現，同時保持強大的英語能力。

大型語言模型

Transformers 支持多種語言

La Superba 14B Y.2

基於Qwen 2.5 14B架構構建的新一代語言模型，專為數學推理、編程和通用邏輯任務優化。

大型語言模型

Transformers 支持多種語言

Moderncamembert Cv2 Base

基於1萬億高質量法語文本預訓練的法語語言模型，是ModernBERT的法語版本

大型語言模型

Transformers 法語

Phi 4 Reasoning

Phi-4推理是基於Phi-4通過監督微調思維鏈軌跡數據集和強化學習訓練的前沿開放權重推理模型，專注於數學、科學和編程技能。

大型語言模型

Transformers 支持多種語言

基於Llama架構的緊湊型語言模型，支持英語和葡萄牙語，參數規模9600萬，支持4096個token的上下文長度。

大型語言模型

Transformers 支持多種語言

Deepseek V3 0324 GGUF

當前V3-0324模型在該尺寸類別中表現最佳的量化版本，在保持性能接近Q8_0的同時顯著減小了體積

大型語言模型其他

EXAONE Deep 2.4B GGUF

EXAONE Deep是由LG AI Research開發的高效推理語言模型，參數規模2.4B，在數學和編程等推理任務中表現優異。

大型語言模型支持多種語言

Olmo2 11B SuperBPE T180k

110億參數大語言模型，採用創新的SuperBPE分詞器訓練，支持超詞單元識別和子詞分詞能力。

大型語言模型

Transformers 英語

Theta-35 是 SVECTOR 推出的 Theta 系列中的先進推理模型，專注於複雜思維和推理，在需要深度邏輯分析和多步推理的難題上表現出色。

大型語言模型

Transformers 英語

SVECTOR-CORPORATION

Granite 3.2 8b Instruct GGUF

Granite-3.2-8B-Instruct是一個80億參數的長上下文AI模型，專為思維推理能力微調，支持多種語言和任務。

大型語言模型

Granite 3.2 2b Instruct GGUF

Granite-3.2-2B-Instruct是一個20億參數的長上下文AI模型，專為思維推理能力微調，支持12種語言和多任務處理。

大型語言模型

Llama Krikri 8B Instruct GGUF

基於Llama-3.1-8B構建的希臘語指令調優大語言模型，增強希臘語能力並支持多語言任務

大型語言模型

mmMamba-linear是首個通過中等學術計算資源實現二次到線性蒸餾的純解碼器多模態狀態空間模型，具有高效的多模態處理能力。

圖像生成文本

Multilingual ModernBert Base Preview

由Algomatic團隊開發的多語言BERT模型，支持填充掩碼任務，具有8192的上下文長度和151,680的詞彙量。

大型語言模型

Llama Krikri 8B Base

Llama-Krikri-8B-Base是基於Llama-3.1-8B構建的大型希臘語基礎語言模型，通過持續預訓練擴展希臘語能力，同時保持英語能力。

大型語言模型

Transformers 支持多種語言

Modernbert Base Long Context Qe V1

基於ModernBERT-base微調的機器翻譯質量評估模型，支持長上下文文檔級評估

Transformers 支持多種語言

Qwen2.5 14B DeepSeek R1 1M

融合推理模型和長上下文模型優勢的多用途大語言模型

大型語言模型

Rumodernbert Small

俄羅斯版現代化單向雙向編碼器Transformer模型，預訓練使用了約2萬億個俄語、英語和代碼數據的標記，上下文長度高達8,192個標記。

大型語言模型

Transformers 支持多種語言

Rumodernbert Base

現代雙向僅編碼器Transformer模型的俄語版本，基於約2萬億俄語、英語和代碼標記進行預訓練，上下文長度達8,192個標記。

大型語言模型

Transformers 支持多種語言

Deepseek R1 Bf16

DeepSeek-R1是第一代推理模型，在數學、代碼和推理任務上表現出色，性能可與OpenAI-o1相媲美。

大型語言模型

opensourcerelease

Phi 4 Model Stock V2

Phi-4-Model-Stock-v2是基於多個Phi-4變體模型合併而成的大語言模型，採用model_stock合併方法，在多個基準測試中表現良好。

大型語言模型

L3.3 MS Nevoria 70b

一個基於Llama 3.3架構的70B參數大語言模型，通過合併多個優秀模型組件實現增強的故事敘述、場景描述和散文細節能力

大型語言模型

Qwen2 VL 2B Instruct GGUF

Qwen2-VL-2B-Instruct 是一個多模態視覺語言模型，支持圖像和文本的交互，適用於圖像理解和生成任務。

圖像生成文本英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase