F

Flow Judge V0.1

由 flowaicom 开发
Flow Judge v0.1 是一款轻量级但功能强大的 38 亿参数模型,可在多个领域对大语言模型(LLM)系统进行定制化评估。
下载量 6,094
发布时间 : 9/15/2024

模型简介

Flow Judge v0.1 是一款基于 Phi-3.5-mini 指令模型架构的轻量级评估模型,专注于对大语言模型系统的性能进行定制化评估。

模型特点

可定制评估
用户能够定义自己的评估标准和评分规则,使 Flow Judge 满足特定需求,实现对 LLM 系统性能的精准评估。
多评分体系支持
支持三种不同的评分尺度,包括二元通过/失败评分、3-李克特评分和5-李克特评分,可满足不同粒度的评估需求。
结构化评估结果
生成带有<feedback>和<score>标签的结构化评估结果,包含定性反馈和数值分数。
轻量级高性能
尽管模型规模较小,但在保留数据集和域外基准测试中,其性能可与更大的模型相媲美。

模型能力

大语言模型系统评估
定制化评分
结构化反馈生成
多尺度评分

使用案例

客户服务
客户投诉处理评估
评估AI系统对客户投诉邮件的回复质量
提供详细的反馈和评分,指出回复中的优点和不足
内容生成
生成内容质量评估
评估AI生成内容的准确性、相关性和流畅性
根据自定义标准提供结构化评分和反馈
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase