UltraLong-Thinking開源語言模型 - 融合雙模型優勢開啟智慧對話新體驗

首頁

Ultralong Thinking

由mergekit-community開發

通過SLERP方法合併的8B參數語言模型，結合了DeepSeek-R1和Nemotron-8B模型的優勢

大型語言模型

Transformers

#長文本理解 #指令精調 #知識蒸餾

下載量 69

發布時間 : 4/17/2025

模型概述

這是一個通過mergekit工具合併的預訓練語言模型，採用球面線性插值(SLERP)方法將DeepSeek-R1和Nemotron-8B模型進行融合，旨在結合兩者的優勢特性

模型特點

模型融合優勢

結合了DeepSeek-R1的蒸餾知識和Nemotron-8B的超長上下文處理能力

V型混合策略

輸入輸出層採用Hermes特性，中間層採用WizardMath特性

長上下文支持

繼承Nemotron模型的4M tokens超長上下文處理能力

模型能力

文本生成

指令跟隨

長上下文理解

多輪對話

使用案例

對話系統

智能助手

構建能夠處理複雜多輪對話的智能助手

可處理長達4M tokens的上下文信息

內容生成

長文寫作

輔助創作長篇文章或技術文檔

保持長距離的上下文一致性

屬性	詳情
基礎模型	mobiuslabsgmbh/DeepSeek-R1-ReDistill-Llama3-8B-v1.1、nvidia/Llama-3.1-Nemotron-8B-UltraLong-4M-Instruct
庫名稱	transformers
標籤	mergekit、merge

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Ultralong Thinking

模型概述

模型特點

模型能力

使用案例

🚀 預訓練語言模型合併項目

🚀 快速開始

✨ 主要特性

📚 詳細文檔

📋 合併詳情

🔗 合併方法

🧩 合併的模型

⚙️ 配置信息

📄 信息表格