🚀 Condor-Opus-14B-Exp
Condor-Opus-14B-Exp 基于 Qwen 2.5 14B 模态架构,旨在增强 14B 参数模型的推理能力。该模型针对通用推理和回答进行了优化,在上下文理解、逻辑演绎和多步骤问题解决方面表现出色。它使用长思维链推理模型和专门的数据集进行了微调,以提高理解能力、结构化响应和对话智能。
🚀 快速开始
以下是使用 apply_chat_template
加载分词器和模型并生成内容的代码片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "prithivMLmods/Condor-Opus-14B-Exp"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What are the key principles of general-purpose AI?"
messages = [
{"role": "system", "content": "You are a helpful assistant capable of answering a wide range of questions."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 增强的常识知识:该模型提供跨多个领域的广泛知识,提高了准确回答问题和生成连贯响应的能力。
- 改进的指令遵循能力:在理解和遵循复杂指令、生成结构化响应以及在长时间交互中保持连贯性方面取得了显著进展。
- 多功能适应性:对各种提示更具弹性,增强了处理广泛主题和对话风格的能力,包括开放式和结构化查询。
- 长上下文支持:支持最多 128K 个输入上下文标记,并可以在一次输出中生成最多 8K 个标记,非常适合详细响应。
- 多语言能力:支持超过 29 种语言,包括英语、中文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "prithivMLmods/Condor-Opus-14B-Exp"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What are the key principles of general-purpose AI?"
messages = [
{"role": "system", "content": "You are a helpful assistant capable of answering a wide range of questions."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 详细文档
预期用途
- 通用推理:设计用于广泛的应用场景,辅助逻辑推理、回答各种问题和解决常识性问题。
- 教育和信息辅助:适用于为学生、教育工作者和普通用户提供解释、总结和基于研究的响应。
- 对话式 AI 和聊天机器人:非常适合构建需要上下文理解和动态响应生成的智能对话代理。
- 多语言应用:支持全球通信、翻译和多语言内容生成。
- 结构化数据处理:能够分析和生成结构化输出,如表格和 JSON,对数据科学和自动化很有用。
- 长内容生成:可以生成扩展响应,包括文章、报告和指南,在大文本输出中保持连贯性。
局限性
- 硬件要求:由于其大参数规模和长上下文支持,需要高内存的 GPU 或 TPU。
- 响应中可能存在偏差:虽然设计为中立,但输出仍可能反映训练数据中存在的偏差。
- 创造性任务中的输出不一致:在讲故事和高度主观的主题上可能产生不同的结果。
- 对现实世界的认知有限:无法访问其训练截止日期之后的实时事件。
- 长输出中的错误传播:早期响应中的小错误可能会影响长格式输出的整体连贯性。
- 提示敏感性:响应的有效性可能取决于输入提示的结构好坏。
📄 许可证
本模型采用 Apache-2.0 许可证。
📊 评估结果
详细结果可查看 此处!
总结结果可查看 此处!
属性 |
详情 |
模型类型 |
文本生成 |
基础模型 |
prithivMLmods/Pegasus-Opus-14B-Exp |
库名称 |
transformers |
指标 |
值 (%) |
平均准确率 |
37.62 |
IFEval (0-Shot) |
40.43 |
BBH (3-Shot) |
44.08 |
MATH Lvl 5 (4-Shot) |
52.27 |
GPQA (0-shot) |
18.90 |
MuSR (0-shot) |
25.42 |
MMLU-PRO (5-shot) |
44.60 |
