UltraLong-Thinkingオープンソース言語モデル - 双モデルの長所を融合し、知的対話の新体験を開く

Home

Ultralong Thinking

Developed by mergekit-community

SLERP法でマージされた8Bパラメータ言語モデル、DeepSeek-R1とNemotron-8Bモデルの利点を統合

大規模言語モデル

Transformers

#長文理解 #命令チューニング #知識蒸留

Downloads 69

Release Time : 4/17/2025

Model Overview

これはmergekitツールでマージされた事前学習言語モデルで、球面線形補間(SLERP)法を用いてDeepSeek-R1とNemotron-8Bモデルを融合し、両者の優れた特性を組み合わせることを目的としています

Model Features

モデル融合の利点

DeepSeek-R1の蒸留知識とNemotron-8Bの超長文脈処理能力を統合

V型混合戦略

入出力層にHermes特性、中間層にWizardMath特性を採用

長文脈サポート

Nemotronモデルの4Mトークン超長文脈処理能力を継承

Model Capabilities

テキスト生成

命令追従

長文脈理解

マルチターン対話

Use Cases

対話システム

インテリジェントアシスタント

複雑なマルチターン対話を処理可能なインテリジェントアシスタントの構築

最大4Mトークンの文脈情報を処理可能

コンテンツ生成

長文執筆

長文記事や技術文書の作成支援

長距離の文脈一貫性を維持

属性	详情
ベースモデル	mobiuslabsgmbh/DeepSeek-R1-ReDistill-Llama3-8B-v1.1、nvidia/Llama-3.1-Nemotron-8B-UltraLong-4M-Instruct
ライブラリ名	transformers
タグ	mergekit、merge

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ultralong Thinking

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 モデルマージプロジェクト

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

マージの詳細

マージ手法

マージされたモデル

設定