发布日期:2024-12-31 02:54 点击次数:207

o1 完满版公开仅 10 天开云kaiyun.com,Scaling Law 新范式就被逆向工程复现了!
Hugging Face 官方发文,开源了膨胀测试时策划的法子。
用在小小小模子 Llama 1B 上,数学分数成功越过 8 倍大的模子,也越过了策划机科学博士生的对等分数(40%)。

那么用在 Llama 3B 上呢?逾越幅度更大,以致能和 20 几倍大的 70B 模子比好意思。

天然 OpenAI o1 的配方实足障翳,莫得发布完好意思细节或代码,但团队基于 DeepMind 公布的接洽服从,完成了我方的本质。

在 DeepMind 接洽的基础上,Hugging Face 团队作念出如下创新:
各种化考证器树搜索(Diverse Verifier Tree Search),一种简便而有用的法子,不错擢升各种性和更高性能,罕见是在算力预算填塞的情况下。
开源轻量级器具包 Search and Learn,与推理框架 vLLM 互助,快速构建搜索政策
测试时策划膨胀政策
现在膨胀测试时策划主要有两种政策:自我优化和搜索。
在自我优化中,模子识别和矫正后续迭代中的过失来迭代优化我方的输出或"念念法"。
团队以为天然此政策对某些任务有用,但频频条件模子具有内置的自我优化机制,这可能会收尾其适用性。
搜索法子侧重于生成多个候选谜底并使用考证器选定最好谜底。
搜索政策更纯真,不错适合问题的难度。Hugging Face 的接洽主要聚焦于搜索法子,因为实用且可膨胀。
其中考证器不错是任何东西,从硬编码到可学习的奖励模子,这里将要点先容可学习的考证器。
具体来说,接洽触及三种搜索政策:

Best-of-N
为每个问题生成多个反映,并使用奖励模子为每个候选谜底分派分数。选定分数最高的谜底(或加权变体),这种法子强调谜底质料而不是频率。
Beam search
一种探索管制决策空间的系统搜索法子,频频与过程奖励模子 (PRM) 相联结,以优化管制问题中中间花式的采样和评估。与在最终谜底上产生单个分数的传统奖励模子不同,PRM 提供一系列分数,推理过程的每个花式分派一个分数。这种提供精细反馈的智商使 PRM 终点合乎大模子。
各种化的考证器树搜索 ( DVTS )
新开导的 Beam search 变体,它将驱动 Beam 拆分为孤立的子树,然后使用 PRM 作念磋议膨胀。这种法子不错擢升管制决策的各种性和举座性能,尤其是在测试时算力预算较大的情况下。
本质建造:3 种搜索政策 PK

领先将数知识题提供给大模子,生成 N 个中间花式。
每个花式王人由 PRM 评分,臆想每个花式最终能得出正确谜底的概率。
给定的搜索政策使用这些花式和 PRM 分数,来选定应该进一步探索哪些标的,生成下一轮中间花式。
搜索政策阻隔后,PRM 将对最终候选管制决策进行名次,以生成最终谜底。
为了比较各式搜索政策,接洽中使用了以下灵通模子和数据集:
言语模子,Llama-3.2-1B-Instruct算作主要本质对象,因为轻量级模子不错快速迭代,何况在数学基准测试中性能不饱和
经由奖励模子,使用了Llama3.1-8B-PRM-Deepseek-Data,与言语模子同属一个系列,且在测试中给出了更好的服从。
数据集,使用 MATH 基准测试的子集MATH-500,该子集由 OpenAI 发布,数知识题横跨 7 个科目,对东谈主类和大大宗模子来说王人有挑战性。
本质服从:动态分派政策达到最优
领先,大宗投票政策比磋议解码基线有权贵创新,收益在轻便 N=64 后趋于沉稳。
团队以为,之是以出现这种收尾,是因为大宗投票难以管制需要密致入微推理的问题,能够管制几个谜底错到一块去的任务。

奖励模子加入后的政策,推崇均有擢升。
Best-of-N政策分为两种变体,原版(Vanilla)不磋议谜底之间的一致性,加权版(Weighted)汇总所有用率交流的谜底,并选定总分数最高的。
服从发现加权版长久优于原版,罕见是在算力预算大的时代更昭彰,因为确保了频率较低但质料较高的谜底也能获选。

Beam Search政策终于让 1B 模子推崇入手高于 8B。
但 Beam Search 并不是万金油法子,在简便的问题上推崇反而不如 Best-of-N。
团队通过稽察服从树,发现如若一个中间花式得到了高分,那么所有这个词树就会垮塌到这一步,影响了后续谜底的各种性。

最终,DVTS法子创新了谜底的各种性,该法子与 Beam Search 比拟有以下不同之处:
关于给定的 Beam 宽度(M)和生成数目 N,驱动 Beam 集设定为 N/M 个孤立子树
关于每个子树,选定 PRM 分数最高的花式
生成 M 个新的下一步,继续选定分数最高的
重叠这个过程,直到生成 EOS token 后阻隔,或达到最大深度

在对问题难度细分后,发现 DVTS 法子在 N 比较大时增强了对简便 / 中等难度问题的性能。
而 Beam Search 在 N 比较小时仍然推崇最好。

最终基于问题难度动态分派政策的法子不错取得最好收获。

终末团队淡漠,改日这项技能还有更多值得探索的场所:
更高大的考证器,擢升其隆重性和泛化智商至关紧迫。
最终诡计是完好意思自我考证,现在在引申中仍然难以完好意思,需要更密致的政策。
在生成过程中加入明确的中间花式或 "念念法" ,通过将结构化推理整合到搜索过程中,不错在复杂任务中得到更好的性能。
搜索法子不错用于合成数据,创建高质料的磨练数据集
灵通的经由奖励模子现在数目较少,是开源社区不错作念出紧要孝顺的领域
现在的法子在数学和代码等领域推崇出色,这些问题骨子上是可考证的,怎么将这些技能膨胀到结构性较差或评判表率主不雅的任务,还是一个紧要挑战。
辩论区有网友暗示,这种法子更合乎腹地部署,而不是 API 调用,因为调用 256 次 3B 模子和过程奖励模子,频频会比调用一次 70B 模子更贵。

也有东谈主建议在 Qwen 系列模子上尝试,以及指路天工 Skywork 发布了两个基于 Qwen 的 PRM 模子

开源代码:
https://github.com/huggingface/search-and-learn
参考权衡:
[ 1 ] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
[ 2 ] https://x.com/_lewtun/status/1868703456602865880
— 完 —
点这里� � 存眷我,铭刻标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~
Powered by kaiyun在线登录网址 @2013-2022 RSS地图 HTML地图
Powered by站群系统