对于评估工具,还有不完善的地方 很多优秀的评估工具都
  

书涵139 799

{{ttag.title}}
对于评估工具,还有不完善的地方
    很多优秀的评估工具都有些糟糕的名字。比如 GSM8K 其实并不需要加上 8K,而 HumanEval 虽然叫做人类评估,实际上并没有用到人类进行评估(之所以叫 HumanEval 是因为问题是由人类创建的)。MATH 这个名字太普通了,所以人们开始称之为「Hendrycks-math」,这应该算是一个聪明的命名方式,以创建者的名字来命名。

如果你想让你的评估工具得到广泛使用,你首先要做的是帮助人们使用它。例如,当我制定了一个评估工具时,我通常会帮助他人在模型上运行它。如果他们的模型在这个评估上表现良好,那么人们通常会喜欢它并进一步的推广它。HELM 就非常擅长为其他人评估模型并公布结果。

此外,如果你能为人们使用你的评估工具创造激励机制也很有帮助。对员工来说,最好的激励之一就是他们领导所重视的东西。因此,获得实验室或公司内部领导的支持对你的评估工具可能会有所帮助,他们会要求底下员工运行它。当我在谷歌创建 MGSM 时,我选择与 Dipanjan Das(Google Deepmind 的研究主管)合作完成,尽管我们不在同一个团队。我与他合作纯粹是因为他是个有趣的人(并不是为了推广这个评估工具),但我认为 Dipanjan 很喜欢这个工具,并且在他的团队中获得了一些人的支持使用。

然而,LLMs 的出现,对评估工具提出了更高的要求。LLMs 具有大规模多任务处理能力并能生成长回答。目前还没有一个单一的评估工具能够充分评估 LLMs。当前流行的评估工具仍然使用非常简单的评分方式(要么是多项选择,要么是检查数字,或者执行单元测试),即便这些方法也存在问题。如果我们能围绕一个单一的提示,比如零样本思维链(zero-shot chain-of-thought),那会很好。我知道由于很多原因这不是一个完美的解决方案,但我认为为了让大家统一标准,这是合理的。

一个新的推动力是人类对模型进行配对评估,比如 LMSYS,但这种评估方式是一把双刃剑。它们之所以强大, 是因为你可以通过一组简单的提示得到一个单一的数字指标来衡量一个语言模型的好坏,并且可以通过大量的样本来平均掉样本级别的噪声。不过,成对评估的危险之处在于你并不完全确定你在测量什么 —— 例如,相对于正确性,风格等这类因素的权重影响有多大。

对模型生成内容(model-generated)的评估也变得有些流行。虽然我倾向于对模型生成的评估比较挑剔,但如果做得好,它们可以用于快速实验和观察性能的大幅提升,这是有可能的。但是创建一个经得起时间考验的伟大的评估需要非常小心,我不想在合成评估中冒任何风险。

一个显而易见的观点是,评估的主题决定了有多少人会关心这个评估。你可以创建一个非常高质量的特定领域评估(例如,法律、医疗等),在这些情况下,最重要的是根据该领域专家所重视的内容来定制评估。

我曾经制作过一个组织病理学图像基准,不出所料,它在医学图像分析领域之外几乎没有引起任何关注,只获得了 40 次引用。话虽如此,一旦更多人意识到其重要性,你创建的特定领域评估也有可能获得更多关注。

评估中一个日益重要的问题是测试集污染。创建了一个好的评估之后,评估的示例往往会传播到互联网的各个地方,如 arxiv 论文、ChatGPT 示例或 reddit。解决这个问题的一个方法是对测试集进行「隐藏」,但这种方法引起了很多分歧。斯坦福大学教授 Chris Manning 提出了一个很好的建议,即对公开测试集、私有测试集都进行评估,并监控模型在这两个测试集上是否有大的偏差。这种方法平衡了在公开测试集上测试的低摩擦性和私密测试集的高可信度。

我注意到的最后一件事是,你关心的评估很大程度上表明了你的身份。一个充满博士的研究室可能会对语言模型在数学、编码和物理上的推理能力感兴趣。相反,我看到像 LMSYS 这样的面向用户的评估被来自软件或产品背景的工程师视为黄金标准。虽然我两者都关心,但我个人更倾向于智能,因为我相信智能是 AI 与人类交互的根本驱动力。

社区应该更多地投资于评估,尽管这可能很痛苦,通常不会像建模工作那样得到很多回报。但归根结底,好的评估工具是 AI 研究人员对模型的客观评价指标,并且是对该领域产生重大影响的一种方式。

打赏鼓励作者,期待更多好文!

打赏
1人已打赏

发表新帖
热门标签
全部标签>
西北区每日一问
技术盲盒
【 社区to talk】
安全效果
干货满满
技术笔记
每日一问
信服课堂视频
GIF动图学习
新版本体验
技术咨询
2023技术争霸赛专题
功能体验
产品连连看
安装部署配置
通用技术
秒懂零信任
技术晨报
自助服务平台操作指引
原创分享
标准化排查
排障笔记本
玩转零信任
排障那些事
SDP百科
深信服技术支持平台
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
高手请过招
升级&主动服务
高频问题集锦
社区新周刊
POC测试案例
全能先锋系列
云化安全能力

本版达人