長上下文支持

# 長上下文支持

Qwen3 Embedding 4B GGUF

Qwen3-Embedding-4B是基於Qwen3系列構建的文本嵌入模型，專為文本嵌入和排序任務設計，在多語言文本處理和代碼檢索等方面表現優異。

Medgemma 4b It GGUF

MedGemma-4B-IT是基於Gemma 3的醫學領域多模態模型，支持醫學文本和圖像理解，適用於醫療AI應用開發。

圖像生成文本

MedGemma是基於Gemma 3開發的醫學多模態模型，專注於醫學文本和圖像理解，支持構建醫療保健AI應用。

圖像生成文本

Medgemma 27b Text It

MedGemma是基於Gemma 3優化的醫學專用模型系列，提供270億參數的純文本版本，專為醫學文本理解和推理優化。

大型語言模型

MedGemma是基於Gemma 3優化的醫學多模態模型系列，專為醫學文本和圖像理解設計，提供4B和27B兩種參數規模版本。

圖像生成文本

MedGemma是基於Gemma 3優化的醫學多模態模型，專為醫療文本和圖像理解設計，提供4B和27B兩個版本。

圖像生成文本

Qwen3 0.6B GGUF

Qwen3-0.6B 是 Qwen 系列最新一代的 0.6B 參數規模的大語言模型，支持思維和非思維模式切換，具備強大的推理、指令遵循和多語言能力。

大型語言模型

Qwen3 30B A3B ERP V0.1

基於Qwen3-30B-A3B-NSFW-JP微調的角色扮演專用大語言模型，支持日語長文本生成

大型語言模型

Transformers 日語

Superthoughts Lite V2 MOE Llama3.2 GGUF

Superthoughts Lite v2是一個輕量級混合專家(MOE)模型，基於Llama-3.2架構，專注於推理任務，提供更高的準確性和性能。

大型語言模型支持多種語言

Qwen3 1.7B GGUF

通義千問系列大語言模型的最新版本，支持思維與非思維模式切換，具備強大的推理、多語言和智能體能力。

大型語言模型

GLM4 32B Neon V2

基於 GLM-4-32B-0414 的角色扮演微調版本，表現優秀，個性鮮明，風格多樣，文筆優美。

大型語言模型

Transformers 英語

Qwen3 1.7B GGUF

Qwen3-1.7B是Qwen系列最新一代1.7B參數規模的大語言模型，支持在思考與非思考模式間切換，具備增強的推理能力和多語言支持。

大型語言模型英語

Qwen3 0.6B GGUF

Qwen3-0.6B是阿里雲開發的0.6B參數規模的大語言模型，屬於Qwen3系列的最新成員，支持100多種語言，具備強大的推理、指令遵循和多語言能力。

大型語言模型英語

Viper Coder V1.7 Vsm6

Viper-Coder-v1.7-Vsm6是基於千問2.5 14B模態架構設計的大語言模型，專注於提升編碼效率和計算推理能力，優化內存使用並減少冗餘文本生成。

大型語言模型

Transformers 支持多種語言

Qwen2-96M是基於Qwen2架構的微型語言模型，含9600萬參數，支持8192個標記的上下文長度，適用於英文文本生成任務。

大型語言模型英語

Llama 3 70b Arimas Story RP V1.6 3.5bpw H6 Exl2

基於Llama-3-70B的合併模型，專注於故事生成和角色扮演(RP)任務，通過breadcrumbs_ties方法合併多個高質量模型

大型語言模型

Qwen2.5 1.5B Instruct

專為Gensyn RL Swarm設計的1.5B參數指令微調模型，支持通過點對點強化學習進行本地微調

大型語言模型

Transformers 英語

EXAONE Deep 7.8B GGUF

EXAONE Deep系列模型在數學和編程等推理任務中表現出色，7.8B版本優於同規模開源模型，甚至超越某些專有模型。

大型語言模型支持多種語言

Modernbert Base Tr Uncased

基於ModernBERT架構的土耳其語預訓練模型，支持8192上下文長度，在多個領域表現優異

大型語言模型

Transformers 其他

ZYH LLM Qwen2.5 14B V4

ZYH-LLM-Qwen2.5-14B-V4是基於Qwen2.5-14B改進的大語言模型，通過多階段模型合併和蒸餾技術提升了計算準確性和推理能力。

大型語言模型

Safetensors 支持多種語言

Jp ModernBERT Large Preview

由Algomatic團隊訓練的日語BERT模型，支持填充掩碼任務，上下文長度達8192。

大型語言模型日語

Ganga-2-1b是一個基於印地語數據集訓練的指令微調模型，是Project Unity項目的一部分，旨在處理印度語言的多樣性和豐富性。

大型語言模型

Transformers 支持多種語言

Ola-7B是由騰訊、清華大學和南洋理工大學聯合開發的多模態大語言模型，基於Qwen2.5架構，支持處理文本、圖像、視頻和音頻輸入，並生成文本輸出。

多模態融合

Safetensors 支持多種語言

Falcon3 MoE 2x7B Insruct

Falcon3 7B-IT 與 7B-IT 的混合專家模型，具有134億參數，支持英語、法語、西班牙語、葡萄牙語四種語言，上下文長度最高可達32K。

大型語言模型

Safetensors 英語

Llama3.1 Typhoon2 8b Instruct

Llama3.1-Typhoon2-8B是一個基於Transformer架構的泰語大語言模型（指令型），能夠處理多種語言任務，為用戶提供高效準確的語言交互服務。

大型語言模型

Jina Embeddings V2 Base Code GGUF

Jina Embeddings V2 Base Code 是一個基於轉換器架構的英文文本嵌入模型，專注於代碼相關文本的特徵提取和句子相似度計算。

文本嵌入英語

Llama DNA 1.0 8B Instruct

基於Llama架構的最先進雙語語言模型，特別優化了韓語理解和生成能力，同時保持強大的英語能力。

大型語言模型

Transformers 支持多種語言

H2o Danube3.1 4b Chat

由H2O.ai微調的40億參數聊天模型，基於Llama 2架構調整，支持8192上下文長度

大型語言模型

Transformers 英語

Slush是一個採用高LoRA丟棄率訓練的雙階段模型，專注於提升創造力和角色扮演能力

大型語言模型

Granite 8b Code Instruct 128k GGUF

IBM Granite 8B代碼指令模型，支持128k上下文長度，專注於代碼生成和指令理解任務。

大型語言模型

Transformers 其他

Magnum V4 72b FP8 Dynamic

基於Qwen2.5-72B-Instruct微調的72B參數大語言模型，採用動態FP8量化技術優化推理效率，旨在復現Claude 3的散文質量

大型語言模型

Transformers 英語

Allegro是一個開源的高質量文生視頻生成模型，能夠生成720x1280分辨率、15 FPS的6秒細節視頻。

文本生成視頻英語

Polish Reranker Bge V2

這是一個基於BAAI/bge-reranker-v2-m3並進一步在大規模波蘭語文本對數據集上微調的重排序模型，支持長上下文處理。

Transformers 其他

Mistral Nemo BD RP

基於BeyondDialogue數據集微調的大型語言模型，專為中英文角色扮演場景設計

大型語言模型支持多種語言

Internvideo2 Chat 8B InternLM2 5

InternVideo2-Chat-8B-InternLM2.5是一個視頻-文本多模態模型，通過整合InternVideo2視頻編碼器與大型語言模型(LLM)來增強視頻理解和人機交互能力。

視頻生成文本

Gte Multilingual Mlm Base

mGTE系列多語言文本編碼器，支持75種語言，最大上下文長度8192，基於BERT+RoPE+GLU架構，在GLUE和XTREME-R基準上表現優異

大型語言模型

Jais Family 1p3b

Jais系列是專精阿拉伯語處理的雙語大語言模型，具備強大的英語能力，參數量13億

大型語言模型支持多種語言

H2o Danube3 4b Chat

H2O.ai 微調的40億參數聊天模型，支持文本生成任務，可在手機上離線運行。

大型語言模型

Transformers 英語

Norwai Mixtral 8x7B Instruct

基於NorwAI-Mixtral-8x7B進行指令調優的挪威語大語言模型，使用約9000條高質量挪威語指令優化

大型語言模型

Gemma是一款先進的開源模型，基於高質量數據集訓練，支持不同上下文長度需求。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase