T-pro-it-2.0 開源AI模型 - 多任務場景下提供高質量推理與響應

首頁

T Pro It 2.0

由t-tech開發

T-pro-it-2.0 是基於 Qwen 3 模型家族構建的模型，結合了持續預訓練和對齊技術，能在多種任務中提供高質量的推理和響應。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #高精度推理 #長上下文處理 #多框架適配

下載量 1,405

發布時間 : 7/17/2025

模型概述

T-pro-it-2.0 是一個強大的語言模型，專為推理和響應任務設計，適用於多種應用場景。

模型特點

基於強大基礎

構建於 Qwen 3 模型家族之上，具備優秀的語言理解和生成能力。

多種訓練技術結合

採用持續預訓練和對齊技術，提升模型性能。

豐富數據集訓練

使用不同類型和規模的數據集進行訓練，增強模型在各種任務上的表現。

多模式支持

支持多種推理框架，如 SGLang、HF、VLLM 等，方便用戶根據需求選擇。

長上下文處理

原生支持 32,768 個標記的上下文長度，並可通過特定配置擴展至 128K 上下文。

模型能力

文本生成

推理任務

多語言支持

長上下文處理

使用案例

虛擬助手

對話助手

作為 T 科技公司的虛擬助手，提供有用的對話支持。

高質量的對話響應

數學計算

定積分計算

計算定積分並逐步解釋求解過程。

準確的數學計算和解釋

🚀 T-pro-it-2.0

T-pro-it-2.0 是基於 Qwen 3 模型家族構建的模型，結合了持續預訓練和對齊技術，能在多種任務中提供高質量的推理和響應。

⚠️ 重要提示

建議用戶謹慎使用該模型，並對確保模型響應符合可接受的道德和安全標準所需的任何額外訓練和監督負責。將此模型集成到工業或商業解決方案中的責任完全由選擇部署它的人承擔。

🚀 快速開始

若要開始使用 T-pro-it-2.0 模型，你可以參考後續的安裝和使用示例部分，根據自身需求選擇合適的推理框架進行部署和調用。

✨ 主要特性

基於強大基礎：構建於 Qwen 3 模型家族之上，具備優秀的語言理解和生成能力。
多種訓練技術結合：採用持續預訓練和對齊技術，提升模型性能。
豐富數據集訓練：使用不同類型和規模的數據集進行訓練，增強模型在各種任務上的表現。
多模式支持：支持多種推理框架，如 SGLang、HF、VLLM 等，方便用戶根據需求選擇。
長上下文處理：原生支持 32,768 個標記的上下文長度，並可通過特定配置擴展至 128K 上下文。

📦 安裝指南

文檔未提及具體安裝步驟，若需使用該模型，可參考相應推理框架（如 SGLang、transformers、vllm 等）的官方文檔進行安裝和配置。

💻 使用示例

基礎用法

以下為使用不同推理框架調用 T-pro-it-2.0 模型的基礎示例：

SGLang Usage

為獲得更好的質量和穩定性能，建議使用 SGLang 作為推理框架。

python -m sglang.launch_server \
    --model-path t-tech/T-pro-it-2.0 \
    --reasoning-parser qwen3

服務器啟動並監聽在 localhost:30000 後，可通過 OpenAI Python 客戶端發送基於聊天的請求。

import openai

client = openai.OpenAI(
    base_url="http://127.0.0.1:30000/v1",
    api_key="ANY"  # 服務器會忽略 API 密鑰
)

prompt = (
    "請計算定積分 ∫_0^1 x² eˣ dx，逐步解釋求解過程並給出最終結果。"
)

completion = client.chat.completions.create(
    model="ANY",  # 服務器會忽略模型名稱
    messages=[
        {"role": "system", "content": "你是 T-pro，T 科技公司的虛擬助手。你的任務是成為一個有用的對話助手。"},
        {"role": "user", "content": prompt}
    ],
    # 必需：使用“推薦生成參數”表中的採樣參數
    temperature=0.6,
    presence_penalty=1.0,
)

# 生成的回覆在 `completion.choices[0].message.content` 中
print(completion.choices[0].message.content)

注意：每次完成調用時，必須同時包含 temperature 和 presence_penalty。

HF Usage

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)

model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype="auto",
    device_map="auto",
)

prompt = (
    "請計算定積分 ∫_0^1 x² eˣ dx，逐步解釋求解過程並給出最終結果。"
)
messages = [
    {"role": "system", "content": "你是 T-pro，T 科技公司的虛擬助手。你的任務是成為一個有用的對話助手。"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之間切換。默認為 True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

VLLM Usage

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, max_model_len=8192)
sampling_params = SamplingParams(temperature=0.7,
                                repetition_penalty=1.05,
                                top_p=0.8, top_k=70,
                                max_tokens=512)

prompt = (
    "請計算定積分 ∫_0^1 x² eˣ dx，逐步解釋求解過程並給出最終結果。"
)
messages = [
    {"role": "system", "content": "你是 T-pro，T 科技公司的虛擬助手。你的任務是成為一個有用的對話助手。"},
    {"role": "user", "content": prompt}
]

prompt_token_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

高級用法

在處理長上下文時，T-pro-it-2.0 原生支持 32,768 個標記的上下文長度。對於輸入顯著超過此限制的對話，可遵循 Qwen3 模型卡中關於處理長文本的建議。例如，在 SGLang 中，可使用以下命令啟用 128K 上下文支持：

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

📚 詳細文檔

📚 數據集

指令預訓練（Instruction Pre-Training）：使用 400 億標記的指令數據，其中三分之一專注於推理任務。
監督微調（Supervised Fine-Tuning, SFT）：約 500K 高質量且多樣化的指令，複雜度均衡。推理任務約佔數據集的 20%。
偏好調整（Preference Tuning）：約 100K 精心挑選的指令，根據長度和類型對通用任務進行過濾，並對推理任務進行領域平衡選擇。

📊 基準測試

模型	MERA	ruMMLU	Ru Arena Hard	ru AIME 2025	ru LCB
T-pro 2.0	0.660	0.790	0.876	0.646	0.563
Qwen 3 32B	0.584	0.740	0.836	0.625	0.537
Ruadapt 3 32B V2	0.574	0.737	0.660	0.450	0.500
DeepSeek-R1-Distill-Qwen-32B	0.508	0.702	0.426	0.402	0.493
Gemma 3 27B	0.577	0.695	0.759	0.231	0.261

思考與非思考模式切換

要在 HuggingFace 中啟用或禁用推理模式，可在 tokenizer.apply_chat_template 中設置 enable_thinking 標誌。更多詳細信息，請參閱：

模式	溫度（Temperature）	存在懲罰（presence_penalty）
非思考模式（通用請求）	≤ 0.3	1.0
思考模式（標準請求）	≈ 0.6	1.0
複雜推理請求	≥ 0.8	1.0

🔧 技術細節

T-pro-it-2.0 模型基於 Qwen 3 模型家族構建，通過持續預訓練和對齊技術進行優化。在不同階段使用了多種數據集進行訓練，以提升模型在推理任務和通用語言處理任務上的性能。在推理過程中，支持多種推理框架，並可通過設置不同的參數來控制模型的輸出。同時，模型原生支持 32,768 個標記的上下文長度，並可通過特定配置擴展上下文處理能力。