T Pro It 2.0
模型概述
模型特點
模型能力
使用案例
🚀 T-pro-it-2.0
T-pro-it-2.0 是基於 Qwen 3 模型家族構建的模型,結合了持續預訓練和對齊技術,能在多種任務中提供高質量的推理和響應。
⚠️ 重要提示
建議用戶謹慎使用該模型,並對確保模型響應符合可接受的道德和安全標準所需的任何額外訓練和監督負責。將此模型集成到工業或商業解決方案中的責任完全由選擇部署它的人承擔。
🚀 快速開始
若要開始使用 T-pro-it-2.0 模型,你可以參考後續的安裝和使用示例部分,根據自身需求選擇合適的推理框架進行部署和調用。
✨ 主要特性
- 基於強大基礎:構建於 Qwen 3 模型家族之上,具備優秀的語言理解和生成能力。
- 多種訓練技術結合:採用持續預訓練和對齊技術,提升模型性能。
- 豐富數據集訓練:使用不同類型和規模的數據集進行訓練,增強模型在各種任務上的表現。
- 多模式支持:支持多種推理框架,如 SGLang、HF、VLLM 等,方便用戶根據需求選擇。
- 長上下文處理:原生支持 32,768 個標記的上下文長度,並可通過特定配置擴展至 128K 上下文。
📦 安裝指南
文檔未提及具體安裝步驟,若需使用該模型,可參考相應推理框架(如 SGLang、transformers、vllm 等)的官方文檔進行安裝和配置。
💻 使用示例
基礎用法
以下為使用不同推理框架調用 T-pro-it-2.0 模型的基礎示例:
SGLang Usage
為獲得更好的質量和穩定性能,建議使用 SGLang 作為推理框架。
python -m sglang.launch_server \
--model-path t-tech/T-pro-it-2.0 \
--reasoning-parser qwen3
服務器啟動並監聽在 localhost:30000
後,可通過 OpenAI Python 客戶端發送基於聊天的請求。
import openai
client = openai.OpenAI(
base_url="http://127.0.0.1:30000/v1",
api_key="ANY" # 服務器會忽略 API 密鑰
)
prompt = (
"請計算定積分 ∫_0^1 x² eˣ dx,逐步解釋求解過程並給出最終結果。"
)
completion = client.chat.completions.create(
model="ANY", # 服務器會忽略模型名稱
messages=[
{"role": "system", "content": "你是 T-pro,T 科技公司的虛擬助手。你的任務是成為一個有用的對話助手。"},
{"role": "user", "content": prompt}
],
# 必需:使用“推薦生成參數”表中的採樣參數
temperature=0.6,
presence_penalty=1.0,
)
# 生成的回覆在 `completion.choices[0].message.content` 中
print(completion.choices[0].message.content)
注意:每次完成調用時,必須同時包含 temperature
和 presence_penalty
。
HF Usage
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)
model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
prompt = (
"請計算定積分 ∫_0^1 x² eˣ dx,逐步解釋求解過程並給出最終結果。"
)
messages = [
{"role": "system", "content": "你是 T-pro,T 科技公司的虛擬助手。你的任務是成為一個有用的對話助手。"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True # 在思考和非思考模式之間切換。默認為 True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
VLLM Usage
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, max_model_len=8192)
sampling_params = SamplingParams(temperature=0.7,
repetition_penalty=1.05,
top_p=0.8, top_k=70,
max_tokens=512)
prompt = (
"請計算定積分 ∫_0^1 x² eˣ dx,逐步解釋求解過程並給出最終結果。"
)
messages = [
{"role": "system", "content": "你是 T-pro,T 科技公司的虛擬助手。你的任務是成為一個有用的對話助手。"},
{"role": "user", "content": prompt}
]
prompt_token_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)
generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)
高級用法
在處理長上下文時,T-pro-it-2.0 原生支持 32,768 個標記的上下文長度。對於輸入顯著超過此限制的對話,可遵循 Qwen3 模型卡 中關於處理長文本的建議。 例如,在 SGLang 中,可使用以下命令啟用 128K 上下文支持:
llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
📚 詳細文檔
📚 數據集
- 指令預訓練(Instruction Pre-Training):使用 400 億標記的指令數據,其中三分之一專注於推理任務。
- 監督微調(Supervised Fine-Tuning, SFT):約 500K 高質量且多樣化的指令,複雜度均衡。推理任務約佔數據集的 20%。
- 偏好調整(Preference Tuning):約 100K 精心挑選的指令,根據長度和類型對通用任務進行過濾,並對推理任務進行領域平衡選擇。
📊 基準測試
模型 | MERA | ruMMLU | Ru Arena Hard | ru AIME 2025 | ru LCB |
---|---|---|---|---|---|
T-pro 2.0 | 0.660 | 0.790 | 0.876 | 0.646 | 0.563 |
Qwen 3 32B | 0.584 | 0.740 | 0.836 | 0.625 | 0.537 |
Ruadapt 3 32B V2 | 0.574 | 0.737 | 0.660 | 0.450 | 0.500 |
DeepSeek-R1-Distill-Qwen-32B | 0.508 | 0.702 | 0.426 | 0.402 | 0.493 |
Gemma 3 27B | 0.577 | 0.695 | 0.759 | 0.231 | 0.261 |
思考與非思考模式切換
要在 HuggingFace 中啟用或禁用推理模式,可在 tokenizer.apply_chat_template
中設置 enable_thinking
標誌。
更多詳細信息,請參閱:
推薦生成參數
模式 | 溫度(Temperature) | 存在懲罰(presence_penalty) |
---|---|---|
非思考模式(通用請求) | ≤ 0.3 | 1.0 |
思考模式(標準請求) | ≈ 0.6 | 1.0 |
複雜推理請求 | ≥ 0.8 | 1.0 |
- 混合推理模型需要仔細調整採樣超參數,這些參數因領域而異。
- 對於直接查詢,使用較低的溫度;對於複雜的“思考模式”任務,使用較高的溫度。
- 存在懲罰在 0 到 2 之間可以幫助避免重複輸出。
🔧 技術細節
T-pro-it-2.0 模型基於 Qwen 3 模型家族構建,通過持續預訓練和對齊技術進行優化。在不同階段使用了多種數據集進行訓練,以提升模型在推理任務和通用語言處理任務上的性能。在推理過程中,支持多種推理框架,並可通過設置不同的參數來控制模型的輸出。同時,模型原生支持 32,768 個標記的上下文長度,並可通過特定配置擴展上下文處理能力。
📄 許可證
該模型採用 Apache-2.0 許可證。



