U

Ultralong Thinking

Developed by mergekit-community
SLERP法でマージされた8Bパラメータ言語モデル、DeepSeek-R1とNemotron-8Bモデルの利点を統合
Downloads 69
Release Time : 4/17/2025

Model Overview

これはmergekitツールでマージされた事前学習言語モデルで、球面線形補間(SLERP)法を用いてDeepSeek-R1とNemotron-8Bモデルを融合し、両者の優れた特性を組み合わせることを目的としています

Model Features

モデル融合の利点
DeepSeek-R1の蒸留知識とNemotron-8Bの超長文脈処理能力を統合
V型混合戦略
入出力層にHermes特性、中間層にWizardMath特性を採用
長文脈サポート
Nemotronモデルの4Mトークン超長文脈処理能力を継承

Model Capabilities

テキスト生成
命令追従
長文脈理解
マルチターン対話

Use Cases

対話システム
インテリジェントアシスタント
複雑なマルチターン対話を処理可能なインテリジェントアシスタントの構築
最大4Mトークンの文脈情報を処理可能
コンテンツ生成
長文執筆
長文記事や技術文書の作成支援
長距離の文脈一貫性を維持
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase