AG真人国际中国官网登录入口从 Spec 到亏空函数: 的确会用 AI Agent 的东谈主, 仍是在联想轮回

发布日期：2026-06-12 07:17 点击次数：97

AG真人国际中国官网登录入口从 Spec 到亏空函数: 的确会用 AI Agent 的东谈主，仍是在联想轮回

导读：本文先容了 AI agent 使用“亏空函数开辟”（LFD）与 /goal 轮回的实战教育，强调通过优化方针而非固定例格，能让 agent 在 30 小时内逆向工程居品中枢并终了 50 倍性能进步。

作家分析了 agent 屡次“舞弊”优化评估集的失败案例，建议构建细腻亏空函数需包含大方针、盲测敛迹、测量器具和强制熵，幸免局部最优并鼓吹的确改革。

99% 的东谈主都把 /goal 和轮回用错了。

他们听到的噱头是“万古候运行的轮回会教唆自治智能体（long-running loops prompting autonomous agent）”：把任务丢给它，离开，归来就有可奇迹的代码。

但顶尖的 agentic 工程师在往常 6 个月里仍是不靠 /goal 作念到了这少量，也等于 GPT-5.2 和 Opus 4.5 发布以后。这叫 harness engineering + spec-driven development：

为智能体搭建一个能不雅察问题的 harness

写一份紧凑的 spec，包含系数测试用例

让 Codex 或 Claude Code 无东谈主值守地轮回，直到恬逸每一项要求

我频频在夜里启动这种任务，一次跑 2 到 5 小时。4 月有一次，它啃掉了咱们 Vercel monorepo 里的一个 Turbo build-cache bug，早上起来仍是全绿。其实并不需要 /goal。

4 月 11 日 Elvis

我再说一次，因为我一直看到有东谈主用错：惟有把一个带着正确 harness 的智能体丢进轮回里，你不错解决任何工程问题。Codex 刚刚 one-shot 了咱们的 turbo cache 缔造，因为我给了它像团队里的的确开辟者一样调试所需的一切。使用老法子需要8小时。

那 /goal 到底是作念什么的？

底下是一条单独的教唆词，在我离开技能完成的事情：

约 30 小时，6，300 行代码，爬取 92k 页面，API 破耗 40 好意思元

克隆另一个居品的中枢轮回，从零反向工程出竣工架构

在通常的查询上，咱们版块的输出比参考居品好约 50 倍。（这是一个新的数据层，会撑握 newsjack.sh[1]，也等于我一直在作念的开源 news-intel skills）

秘籍是 loss function development（LFD）：给智能体的中枢输入从“要构建的 spec”造成“要优化面对的方针”。

每月提醒一次：你不该再给 coding agents 写教唆词了。你应该联想教唆 agents 的轮回。

You shouldn’t be prompting coding agents anymore， you should be designing loops that prompt your agents.

这是 Peter 那条推文的一个具体落地版块。

spec-driven development 里的 spec，当今造成开首，不再是极端。

我试了好几轮才把这件事作念对。但这里是竣工顶住。不外咱们得先从它一动手有多灾祸讲起，这么你才能意会该怎么联想这些 /goals。

智能体舞弊了 3 次。

一切都从我一贯的作念法动手：写 spec。

我仅仅把 codex 指向另一个居品的公开网站，问它“咱们怎么我方构建这个？”。30 分钟后，它给出了一套竣工的系统联想和测试用例，也等于 spec。

但这一次，我试了一个不同的教唆词。

“/goal implement until your output matches theirs exactly”

然后发生了这些：

轮回 1（5 分钟）

智能体拿到了 eval set，生成了与之对应的 seed data，然后 5 分钟内宣宣布捷。

“100%” recall，泛化才略为零。一个只可找到我交给它的那 30 个东西的搜索引擎，lol。

缔造 → 让它失明。运行技能荫藏 eval，只在评分时揭示，并给出逐项 miss list。

轮回 2（20 分钟），盲测，30 个条件。

我把 eval set 对智能体荫藏起来，但它通过 miss 学会了舞弊。每一个“你没找到 X”都会造成下一轮的要津词。几轮之后，它用了刚好 30 个要津词，每个条件一个，然后又“赢了”。

缔造 → 扩大 eval set。用几百个条件评分，多到无法陈设。

轮回 3（30 分钟），盲测，200 个条件。

把新 eval set 加到 200 个条件之后，智能体又舞弊了。

特兴致的是，它照旧在陈设。要津词列表延迟到几百个，每个词都是为下一个 miss 精准准备的钓饵。

三轮，三次舞弊。

那一刻我明显了：智能体仅仅在优化。

舞弊不是智能体的 bug。bug 在我的方针里：我告诉它要去那儿，却把系数捷径都打开了。

每一条你莫得封住的低价旅途，都会成为优化器全力冲刺的场合。而我的启动方针漏掉了系数围栏。

轮回 4（30 小时），盲测，200 个条件，硬铁心。

于是我动手禁闭场合。铁心要津词列表，荫藏 eval，扩大日历范围。每个缔造都关掉一条低价旅途，直到剩下独一能让数字络续飞腾的场合，等于的确把任务作念得更好。

它住手舞弊了。

然后它动手跑。约 30 小时打算，爬取 92k 页面，约 40 好意思元 token 资本，6，300 行代码。

效能咱们参考的居品仅仅地板，不是天花板：在通常的查询上，咱们最终透深入了约 50 倍的效能。

（意思意思的东谈主不错看这里的竣工进程和证据）

5 月 21 日 Elvis

codex 确切太荒诞了。淌若你以为前端克隆仍是很夸张，望望这个：我刚把 codex 指向另一个居品，30 分钟后拿到了它的架构、数据模子、prompts，还有资本估算。378 行重建斟酌。最荒诞的是，当今我不错一转教唆词措置：

"/goal implement until your output matches theirs exactly"

Loss function development（LFD），一个好亏空函数的结构

大巨额东谈主想构建居品时，都是用 agents 在几个小时内从零走到发布。

但的确的难点在后头，也等于长尾。spec 从没想过的边际情况，只会在分娩环境里一个过错日记接一个过错日记地冒出来。你一一修。莫得被日记拿获的情况会由用户阐述，而这是发现 bug 最好意思丽的形状。

我仍是自动化了其中低廉的一端。我的 OpenClaw agent Zoe 每天盯着过错日记，新过错一出现就启动 Codex 并创建 PR，这个轮回基本仍是压到很紧了。（竣工建立纪录在这里[2]）

长尾仍然需要几个月。这等于为什么即使 agents 在干活，构建一个好居品仍然需要时候。

LFD 会快进这条长尾。淌若你能一动手就拿到的确的 expected-output examples，也等于大界限意旨上的“好效能长什么样”，你就不错在发布前作念 soak：几百个边际情况在一次优化运行里打到智能体身上，而不是等一个季度的 bug report 冉冉淌下来。它倏得变得可行，是因为对越来越多的问题来说，这些 examples 就公开摆在那里。

Spec-driven development：

构建这个。让测试通过。

Loss-function development：

构建这个。让测试通过。然后针对这 1，000 个 eval cases 络续迭代。

测试套件是有限的，一朝全绿就收尾。一个 1，000 case 的 eval，淌若达到 95%，它等于一个你要络续下跌面对的方针，除非达标，不然莫得出口。这很蹙迫，因为智能体会作念出几百个你永瞭望不到的决策，而每一个决策都需要一个参照系来判断。淌若你莫得写方针，智能体会我方选一个。就像第 1 到第 3 轮展示的那样，AG真人国际·(中国)官方网站它会选最低廉、最容易恬逸的东西。

亏空函数比 eval 更大。它有 4 个部分：方针、敛迹、面容、强制熵。四块。

1. 方针

敷裕大，让陈设不合算。28 个条件的 eval 一轮就被记着了。越多越好。

不要让智能体看到谜底 key。Eval data 只用于过后评分。淌若智能体能在运行技能看到谜底，它就会找到偷看的倡导。

2. 敛迹

智能体被允许作念什么，以及不允许作念什么。

时候是智能体永远会忘掉的敛迹。Agents 没或然候感。它们会为了 2% 的进步磨 10 个小时，因为目的情势上还在动。但 2 小时内完成的 80% 决议，胜过 30 天后完成的 100% 决议。解决倡导：建立 wall-clock budget。

钱。对每一次付费调用建立硬上限：crawler credits、LLM spend，以及一次性 key 的总好意思元上限。

战争面。系数 providers、允许的 models、并发上限。把智能体沙盒到你只但愿它触碰的东西里。

法子论。是否允许 LLM analysis，照旧只可用 deterministic logic？智能体能打听哪些数据源？明确写出来。

3. 面容（harness）

莫得面容的敛迹仅仅一种嗅觉，智能体会很甘愿地违抗它，因为它看不出我合法在违抗。对上头的每一个敛迹，都给智能体提供一个 CLI command 来查验它。

以正确分散率测量方针。严慎继承方针面容。的确例子：一个稚拙的”让 LLM 给两张截图打分”的 judge，会批准有 12px 间距过错的 UI clone，因为 LLM 其实看不见图像，它会把图像转成 embedding，再相比 embedding。是以淌若你想要 pixel perfect 的 UI clones，就给你的智能体一个 pixel-diff tool。然后 /goal 直到 pixel diff 为 0。

时候核算。给每次运行和每一步都打 timestamp。智能体应该知谈每一步花了多久，总 wall-clock elapsed 是若干。时候是一等面容，不是脚注。

Provider budget。“咱们当今在 crawlers 上烧了若干钱？”应该是一条号令，而不是算计。跟踪剩余 scrape credits、本轮 burn、累计 burn，以及下一批付费调用前的预测 burn。

LLM spend。给它一个 LLM API key 用在 data-plane 上，不错简化许多逻辑。但智能体应该负使命地用钱，而前提是先知谈我方践诺花了若干。

Codex Usage。这一项有点 meta。轮回应该有自我领悟：我在此次优化上花了若干 tokens？这有助于知谈面前优化智力的梯度。

模式等于那句老话：你看不见的东西，就无法优化。

淌若你刚动手跑这些轮回，不要一启动就离开。先陪它跑第一轮。不雅察它触碰了什么。阐发你搭的 harness 如实被正确使用。然后再去睡眠。（况兼试着别一直想着醒来会看到什么）

4. 强制熵

为什么强制熵蹙迫：每个轮回都会从上一轮的竣工高低文络续。模子不是再看成手，它会读取我方之前上百个决策，以及到面前为止灵验的梯度。

在 /goal 轮回里，掷中局部最大值是默许情状。莫得明确的一脚踢开，智能体会络续沿着消灭座山往上走，而“消灭座山”等于它住手校正时刚好所在的位置。

举个例子，淌若一个小旋钮能让效能进步 0.1%，智能体会一直拧阿谁旋钮，即使还有 1000 个其他旋钮不错试。

熵必须被显式强制插足运行进程，因为模子不会主动引入它：

每轮都作念过拟合反念念。我是在构建更通用的决议，照旧在悲伤 eval？淌若是在悲伤，下一次蜕变必须移除一个 eval-shaped artifact（铁心列表、荫藏特征、扩大 eval、拒却 seed），而不是再加多一个。

停滞时强制熵。淌若上一轮莫得鼓吹目的，下一轮不成是“消灭个想法，更用劲”。模子必须作念一次的确松懈性的进步。“think outside the box” 是个好教唆词，不错禁绝智能体仅仅把消灭个旋钮拧得更狠。

保留迭代日记。让智能体纪录假定、预期失败模式、每一步的会诊，这么它不错回头看，并跨越 compactions 作念反念念。

Meta-Meta-Prompt

一动手这些 goals 是我我方写的，但我很快领悟到，这亦然 agents 该作念的奇迹。

是以我写了一个 skill，用来生成这类方针，匡助跑一次好的 loss-function-development。

当今开源在这里：

https://github.com/elvisun/loss-function-development[3]

Image

/lfd-design 用来生成 harness 和 goal

一王人向下的梯度下跌：两个轮回

博亚体育app中国官网入口

退一步看，这一王人都是梯度下跌。

内轮回是智能体：写代码，跑测试，缔造。短周期，快速反应，单一方针，让测试通过。这是开辟者的内轮回，而 spec-driven development 等于运行它的法子。Coding agents 仍是把它自动化了。

外轮回是 /goal：跨越许多周期，把系数这个词系统推向一个 outcome metric，发布、测量、改场合、下跌。长周期，寥落反应。这蓝本是居品团队的轮回，也等于几个月的 ship-measure-iterate soak，当今被压缩进一次运行里。

两个轮回当今都仍是自动化。剩下需要你作念的，是界说亏空函数，也等于 /goal 到底应该优化什么，以及应该以什么形状优化。

你在蒸馏一个居品，疏漏任何留住公开产物的东西

换个视角看，这践诺上是蒸馏，仅仅从 training-time 移到了 prompt-time。DeepSeek、Kimi、Minimax 这一线等于这么减轻了与 GPT 和 Claude 的大部分差距：用别东谈主家的输出磨练你的模子，直到你的模子能复现它们。

但当今你无用蒸馏一个模子。你不错用 /goal 和 LFD，对任何公开可找到的 artifact 进行蒸馏拟合，它不查验里面，也不需要查验里面。

重心是公开这个词。蒸馏别东谈主在 ToS 铁心下、登录墙后、付费墙后的输出，并分歧理。但公开辟布的东西，也等于一家公司为了获取客户而 ship 出来的输出，一直都不错被学习。这部分并不新，它是软件里最陈腐的招数。新的地方在于，当今这件事很低廉，而且几小时就能完成，不再需要几个月。

退一步看，更大的变化是：惟有存在 information symmetry，推行资本就会坍缩到接近 0。也等于说，当输出是公开的，每个东谈主都能看到“好”长什么样，任何东谈主都不错用 40 好意思元在一个周末把它蒸馏归来。

是以这里出现了一个越来越有价值的新护城河：information asymmetry。

阿谁典型的开源公司仍是先眨眼了。2026 年 4 月，cal.com[4]（500 万好意思元 ARR）把分娩代码转为迥殊，况兼关闭了开源[5]。他们给出的原理，读起来险些等于这篇著述的纲目：在 AI-driven security threats 的期间，你不成把 source 留在智能体读得到的地方。

“/goal read cal.com[4]source code and enumerate its attack surface until something works”

这种挫折太危急，也太容易推行。

一个身份中枢等于”open source”的公司，在 2026 年决定洞开仍是造成职守。这仍是证明了一切。

在软件的系数这个词历史里，“咱们构建了它”也曾等于护城河。

阿谁期间正在收尾。

下一个期间属于那些领有 artifact 从未包含之物的东谈主：别东谈主无法评分的 eval set。你的用户的确踩到的边际情况清单。你私行测量的 ground truth。谁领有竞争敌手的智能体看不到的方针，谁等于独一一个能让我方的轮回络续下跌的东谈主。

居品当今仅仅一个周末。

去构建阿谁周末无法触碰的 eval。

参考阅读

References

newsjack.sh: https://newsjack.sh/

这里: https://x.com/elvissun/status/2025920521871716562

https://github.com/elvisun/loss-function-development: https://github.com/elvisun/loss-function-development

cal.com: https://cal.com/

关闭了开源: https://x.com/pumfleet/status/2044406553508274554?s=20

原文： https://x.com/elvissun/status/2065035615800864954

淌若你也在善良 AI 愚弄如何的确落地到分娩环境，2026.6.26 - 6.27 GIAC 深圳站值得善良。此次大会会相连商议智能愚弄开辟、架构演进AG真人国际中国官网登录入口，以及来自一线实践的教育与案例。

上一篇：AG真人国际中国官网登录入口 6.12好意思加墨寰球杯: 墨西哥2-0 开幕就给南非下马威创三大不成念念议
下一篇：没有了

AG真人国际中国官网登录入口 从 Spec 到亏空函数: 的确会用 AI Agent 的东谈主, 仍是在联想轮回

AG真人国际中国官网登录入口从 Spec 到亏空函数: 的确会用 AI Agent 的东谈主, 仍是在联想轮回