A

AMD OLMo 1B

由 amd 开发
AMD-OLMo 是由 AMD 在 AMD Instinct™ MI250 GPU 上从头开始训练的一系列 10 亿参数语言模型。
下载量 4,419
发布时间 : 10/31/2024

模型简介

AMD-OLMo 是一个基于 OLMo 架构的 10 亿参数语言模型,经过预训练、监督微调(SFT)和 DPO 对齐等多个阶段训练,具有较高的训练吞吐量和多任务表现。

模型特点

高性能训练
使用 AMD Instinct™ MI250 GPUs 进行训练,具有较高的训练吞吐量(12,200 标记/秒/ GPU)。
多阶段微调
经过预训练、监督微调(SFT)和 DPO 对齐等多个阶段,提升模型性能。
多任务表现出色
在多个标准基准测试中表现优异,具有良好的常识推理、多任务理解和负责任 AI 能力。

模型能力

文本生成
指令遵循
多轮对话
常识推理
多任务理解

使用案例

研究
语言模型研究
用于研究语言模型的性能和行为。
聊天应用
聊天机器人
用于构建多轮对话聊天机器人。
在 MT-Bench 上得分为 4.35(AMD-OLMo-1B-SFT)
指令遵循
指令生成
根据用户指令生成响应。
在 AlpacaEval 1 上胜率为 54.22%(AMD-OLMo-1B-SFT-DPO)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase