竞赛中的人机协作——一份关于"如何分工"的方法论

真正的赛点，不在” 用不用 AI”，而在” 如何分工”

谈论竞赛与 AI，大多数讨论仍停留在执行层面：用大模型写代码、跑实验、生成报告、重构脚手架。这些能力在 2024 年已是成熟的基础设施，无法构成差异化优势。

真正决定成绩的，是决策层的问题：接到题目后往哪个方向突破？何时果断放弃一个方向？如何在有限的提交次数中分配赌注？如何从一次失败中提炼出可复用的认知？

在这一层，AI 的能力和局限都被严重误判 —— 它比多数人以为的更有用，也比多数人以为的更危险。

人机协作分工示意图。左侧手绘笔记本标有'我的思考：目标、约束、评估标准'；中间'如何分工'大表格分两栏——人类（我）负责定方向、做判断、写假设、承担风险，AI 助手负责整理信息、生成选项、批判审稿、机械执行；右侧笔记写着'人员负责选择方向，AI 放大我们的能力'与'协作原则：清晰目标、及时沟通、相互信任、持续迭代'。底部口号：不同分工，互为补位，共同提升胜率。 — 图 1. 人机分工一览：左列是只能由人承担的决策与判断，右列是 AI 可以放大的执行与审稿。

本文要回答一个核心问题：从接到题目的那一刻起，到比赛结束，人与 AI 应以何种分工、何种节奏、何种硬规则协作，才能最大化人机系统的产出？

合作不是简单地把任务丢给 AI 然后等待结果。合作是清醒地知道：哪些决策只能由人来做，哪些推理 AI 比人更快，哪些判断 AI 看似能做但实际上不能。以下，沿着比赛的自然时间线，展开这套方法论。

第一阶段：接题后的黄金窗口 —— 锚定问题，而非编写代码

在典型的 2-4 周竞赛中，前 10-15% 的时间是整场比赛杠杆最高的窗口期。它应被完全用于” 理解问题”，而非” 实现代码”。

过早写代码的系统性代价

接到新题，多数参赛者的第一反应是打开编辑器，跑通一个 baseline。这个行为短期内能带来极高的成就感 —— 编译成功、输出合法、甚至能提交得分 —— 但从整个比赛周期看，它对最终成绩往往是净负面的。这源于两个相互独立的机制。

机制一：认知冻结。 开始写 baseline 的瞬间，参赛者对” 这道题到底在考什么” 的理解就基本停止了深化。注意力被代码实现的细节占据，不再追问问题的深层结构。当 baseline 跑通，心理上已经” 入戏”—— 后续所有的思考，都只能在第一版代码的框架上进行增量修正。要做出结构性的重新审视，心理成本变得极高。这不是意志力问题，而是认知科学中的锚定效应（Anchoring Effect）：第一版实现，成了后续所有思考的锚点。

机制二：杠杆错配。 AI 最不可替代的价值不在于写代码，而在于成为一个不知疲倦、没有思维惯性的讨论对手，帮助参赛者把问题想透。过早写代码，等于把人机协作最高杠杆的环节，让给了最低杠杆的任务。

两个机制共同作用的结果是：baseline 写得越早，对问题的理解就越浅；而这份浅层理解将贯穿整个比赛周期，导致后续所有优化都在一个次优框架里打转。

黄金窗口期应该做什么

第一件事：产出一份高质量的 Context 文档。

注意，是参赛者自己写，AI 作为审稿人。在文档中清晰描述：问题在优化什么？评分机制是什么？约束条件有哪些？数据长什么样？对” 好解” 的初步直觉是什么？写完后，让 AI 做一件具体的事：找出描述中所有不精确、不完整，或隐含了未经验证假设的地方。

一个关键技巧：Prompt 的严厉程度，决定了审稿质量。“帮我看看这份 context 写得怎么样” 会触发 LLM 的礼貌模式，给出不痛不痒的建议。有效的 Framing 是：“把我当作一个你不认识的、可能有严重误解的参赛者，找出这份文档里所有让下一步决策可能走偏的模糊之处。“这种对抗性设定，才能激活 AI 的批判能力，而非讨好倾向。

第二件事：理论天花板估算。

拿到题目，第一反应不该是” 怎么提分”，而是” 当前方案的理论上限在哪”。这个习惯需要前置到写代码之前：给定问题和评分机制，所有能想到的主流方法，各自的理论天花板大概在哪里？

AI 的价值在这里非常具体：它见过的方法比单个参赛者多，能对每种方法的渐近性能给出粗略估计。问它” 假设方法 X 能完美执行，在这个评分机制下大概能达到什么水平”，它能给出一个有价值的讨论区间。它的估计未必准，但参赛者自己的估计往往更不准。两个都不准的视角相互碰撞，才能产生任何一方单独思考无法触及的洞见。

这一步做完，应能回答：若选择方法 X，它的理论天花板在哪？要突破它需要什么级别的改动？ 这个答案将在接下来几周反复发挥作用 —— 每当沉迷调参时，它会提醒检查是否已撞上了天花板。

第三件事：评分机制的结构性分析。

评分机制不是一个数字，而是一个结构。比如” 正确性 80% + 速度 20%“，至少传递了明确的信息：两个维度都必须管，但正确性的边际收益远大于速度，直到它饱和。这些结构信息不是用来套公式的，而是作为每次做权衡决策时的先验信念 ——“这个改动牺牲 0.5% 正确性换 3% 速度，根据权重算期望为负”。

让 AI 辅助这个分析：给它评分公式和对题目的理解，让它推导出在这个评分体系下，哪些方向可能被低估，哪些被高估。它的推导可能有错，但能暴露参赛者自己想不到的维度。

一个关键原则：评分机制分析的最佳时机是比赛之初，而不是当得不到有效反馈、被迫去深挖的时候。 很多参赛者在浪费大量时间做了错误决策后，才被迫开始这项分析。

这个阶段不应让 AI 做的事

在做完上述三件事之前，不要让 AI 帮写任何代码 —— 哪怕只是伪代码，哪怕只是想” 先有个起点”。在这个窗口期，任何代码都是对深度思考的提前终止。

第二阶段：方向探索 —— 对抗 AI 的” 自证倾向”

完成窗口期的思考后，该选择突破口了。这里有一个看似无害，但会系统性降低决策质量的行为：让 AI 在单个会话里进行” 头脑风暴”。

单会话 Brainstorm 为何失败

打开一个对话，输入” 我在做 XX 比赛，帮我想想可以尝试的方向”。AI 随即列出 15 个方向，每个都有一段描述。看起来很棒，覆盖面广，形式整齐。

但仔细审视这份输出，会发现几个结构性问题。

高频共现不等于深度思考。 这些方向大多是训练数据中与这类题目高频共现的方法，而非针对具体问题结构的思考。这是模式匹配，不是推理。

隐晦的偏好。 AI 在列举时，会无意识地将某些方向描述得更详细、更自信，这源于训练数据中这些方法的” 知名度” 和 LLM 自身的自证倾向（Self-Confirmation Bias）。这种偏好并非基于对问题的深入分析。

自我一致性陷阱。 当追问” 哪个最值得试”，AI 几乎一定会推荐它此前写得最详细的那个 —— 因为它的自我一致性机制要求它与之前的输出保持一致。

最终结果是：参赛者得到了一份看似深思熟虑，实则只是 AI 对其初始列表进行事后合理化的建议。决策被一个带有系统性偏见的信息源塑造了，而当事人毫无察觉。

解法：三段式分离 —— 生成、批判、综合

对策是强制分离这三个认知动作，让它们在完全独立的上下文中执行。

三段式 brainstorm 流程图：发散阶段（只生成不评价，堆叠多张候选方案卡片，目标 20+ 方向）→ 攻击阶段（只批判不创造，按 K1-K7 标准机械筛选，淘汰率 60-80%）→ 综合阶段（只连接不回望，整合幸存者 3-5 个可执行方向）。三阶段之间用独立的新会话隔开，右上标注'异构工具更佳'。底部强调：独立上下文，避免自证倾向。 — 图 2. 三段式 brainstorm：生成 → 批判 → 综合三个动作各自在独立会话里执行，从物理层面切断上下文共享带来的偏见传递。

发散阶段（只创造，不评价）： 目标是产出 20 + 个覆盖算法、架构、数据、评分机制、基础设施等不同层次的候选方向。此阶段禁止任何形式的评价、排序或偏好表达。

攻击阶段（只批判，不创造）： 在一个全新的、不知道发散阶段存在的会话中，将所有候选方向视为匿名提交，用预先定好的固定标准（如：理论依据、在本题评分机制下的上限估计、实现复杂度、是否可证伪等）进行机械筛选，目标淘汰率 60-80%。

综合阶段（只连接，不回望）： 再开一个全新会话，只看幸存下来的少数方向，寻找它们之间的组合机会和依赖关系，最终输出 3-5 个可执行方案。

关键在于独立上下文。不是新建对话轮，不是清空指令，而是物理上开启一个新会话。这不是形式主义 ——LLM 的自证倾向是训练出的深层行为，任何共享上下文的做法都会导致偏见泄露。每次想偷懒（例如用一个编排器代理一次性跑完三段），都会悄悄降级输出质量。这种降级无声无息 —— 不会收到” 上下文泄露警告”，只会得到一份看起来依然合理，但质量稍逊一筹的输出。

进阶：异构工具组合

更强的改进是：在不同阶段使用不同的 AI 工具。

发散阶段适合擅长创造性联想的模型；攻击阶段适合更偏执行、更少” 表演式思考” 的工具；综合阶段则需要模型有识别关系和构造新组合的能力。

异构工具的价值不仅在于各用其长，更在于它从物理上杜绝了上下文共享的可能性 —— 不同的进程、不同的模型、不同的训练数据切片。这是能够获得的最强独立性保障。

发散阶段的人类责任

当 AI 生成 20 + 个方向时，人并非被动的接收者。核心责任是识别覆盖盲区——AI 是否漏掉了某些已知存在但它没列出来的方向？

一个反直觉的质量指标：如果 AI 的 20 个方向全都是参赛者以前听过的方法，说明覆盖广度不够。 真正好的发散，至少应包含 3-5 个让人产生” 这是什么” 反应的方向。没有” 陌生感” 的发散，只是将已知的东西做了整理，对探索没有增量贡献。

实用技巧：在发散阶段末尾，要求 AI 强制产出一节” 我可能漏掉的维度”。这部分内容的价值，有时比正文更高。

第三阶段：执行期 —— 假设先行，让每次实验都具有解释力

选定方向后，进入执行期。这是整个赛程中最容易失去纪律的阶段，因为真实的代码和分数会直接刺激多巴胺系统，让参赛者倾向于” 再试一次看看”。

执行期的两大工具：左半是'假设先行'流程图——① 写下预测（示例：A 涨、B 平、整体 +2-5%）② 运行实验 ③ 看差分报告 → 修正理解。口号：没有预测，就没有可证伪的学习。右半是'自动化交通灯'——绿灯（全自动化）覆盖 Benchmark、差分报告、打包提交、数据聚合；黄灯（半自动化）覆盖分数录入、假设记录、失败案例归类（决策代价低）；红灯（禁止全自动化）覆盖方向选择、做决策、投资组合调整（决策代价高）。底部注释：AI 只负责呈现，结论由人来下。 — 图 3. 执行期的两件事：假设先行（左）让每次实验都可证伪；自动化交通灯（右）按决策代价划分 AI 能触及的边界。

为什么必须假设先行

在只返回一个波动分数的黑盒竞赛中，有一个被系统性低估的风险：参赛者会用分数的涨落来” 解释” 自己的改动，而不是用” 预测” 来验证改动。 这两个行为模式看似对称，认知效果却截然相反。

事后合理化（Post-hoc Rationalization）： 分数涨了，编一个” 为什么有效” 的故事；分数跌了，编一个” 为什么是噪声” 的故事。这种故事永远能编出来，但对下一次决策毫无帮助，因为它不是预测，是装饰。

假设驱动的实验： 改动前，明确写下” 我预测这个改动会让 A 类样本得分上升，B 类基本不变，整体得分提升 2-5%“。改动后，若符合预期，对问题结构的理解就被验证了一次；若不符合，则获得了宝贵的信息 —— 要么对问题的理解有误（这是最值钱的信息），要么数据分布与预想的不同（这也是关键信息）。无论成败，信息密度都远超前者。

这两种模式的差异，本质上是信息论层面的：有预测的实验，无论成败都产生信息；无预测的实验，仅在成功时产生（虚假的）确认感。

假设怎么写，以及 AI 不能代劳什么

一条有效的假设必须满足三个条件：改动前写、包含可被证伪的具体预测、通过版本控制留下时间戳以防事后篡改。

让 AI 代写假设是这个阶段最大的陷阱。它会写得形式完美 ——“假设 X，因为 Y，预期 Z”，看起来非常专业。但这并非预测，而是AI 为一个已决定要做的改动事后寻找合理化叙事。读完会觉得自己在做科学实验，实际上只是让 AI 为直觉穿上了一件科学外衣。

正确的分工是：人写假设，AI 做审稿。 写完后，让 AI 挑刺 —— 这个预测是否足够具体、能被证伪？这个机制隐含了哪些没说出的前提？如果预测失败，最可能的原因是什么？AI 在审稿角色上极具价值，因为它不需要承担” 提出假设” 的认知风险，只需寻找结构性问题。

纪律的维持可以借助工程手段 —— 比如在实验启动脚本中设置强制录入假设的环节，未录入则无法运行。比赛后期疲劳累积时，机械约束远比意志力可靠。

用差分报告取代绝对分数

“v72 本地分 914k” 这类信息量极低的陈述，应从工作流中消失。取而代之的，是结构化的差分报告：包含版本间的整体变化率、各样本分组的详细对比、具体策略的切换记录。这样的报告，才是可以基于它进行决策的信息。

让 AI 生成差分报告属于典型的绿色区自动化 —— 纯数据变换，无判断，投入即时回报。但需注意一个细节：不要让 AI 在报告中附加结论。 它会自动加上” 这表明方向 X 有效” 之类的话。每一次附加，都是一次微型的事后合理化。让 AI 只负责输出数据，结论由人来下。

配置化的真正价值

把所有策略参数抽到配置文件里，动机并非” 代码整洁”，而是为了让同一份代码能产生拥有不同角色的版本—— 稳定版、快速版、彩票版共享核心代码逻辑，仅通过配置切换。

这个价值在两个时刻集中体现。做消融实验（Ablation）时，改一个配置项跑一次实验，代码零改动，干扰变量最少。比赛后期做投资组合（Portfolio）管理时，可以并行维护多个配置，而不是多个容易出错的代码分支。

AI 可以完全执行这类重构 —— 给它现有代码，让它把所有硬编码的阈值、开关、策略选择抽成结构化配置。这是重复性机械工作，非常适合交给 AI。

第四阶段：瓶颈期 —— 区分” 更多” 还是” 不同”

比赛中期，几乎必然进入一个状态：改动不再稳定提分，实验结果与预期的偏离越来越大，开始尝试随机调参。这是一个警报状态，但它常常伪装成” 还在努力进步”。

参数性收益的衰减规律

竞赛实践反复验证了一条规律：在高分段，调参几乎无效，唯有结构性改动才能继续提分。 这个规律的普适性远超直觉预期 —— 任一方法经过 3-4 轮参数优化后，下一轮参数调整的期望收益已接近零。

原因是参数空间的信息在前几次扫描后已被榨取得所剩无几。参赛者以为自己还在” 优化”，实则是在噪声里寻找规律 —— 偶尔看到的提分，纯粹是方差波动的结果。

识别这个状态有几个具体信号：连续 3 次改动都只动了参数未动结构；解释改动时需要用” 可能是”、“也许是” 开头；对下一步该做什么已没有明确直觉，只是在” 试试看”；本地 Benchmark 和线上得分的相关性开始下降。

出现任意两条信号，就应强制停止参数调整，回到第二阶段重新进行头脑风暴。这个” 强制停止” 在心理上极难执行，因为沉没成本和” 我就差一点点” 的错觉会阻碍方向切换。

这恰恰是 AI 能提供价值的场景。周期性将最近 10 次实验记录喂给 AI，让它回答一个具体问题：“这些实验体现的是结构性改进，还是参数性震荡？” AI 没有参赛者的情感投入，回答会更诚实。这是少数 AI 作为判断者比人更可靠的场景 —— 并非因为它更聪明，而是因为它没有沉没成本偏见。

投资组合思想的适用条件

“稳定 / 快速 / 准确 / 彩票” 这类多版本管理框架是很好的思路，但它建立在一个关键前提之上：赛制支持多次提交并取最高分（或类似机制）。如果赛制是取最后一次提交、取平均分或有严格次数限制，彩票策略的价值将急剧下降，甚至转负。

因此，新比赛的第一件事就是查清赛制规则的具体细节 —— 不是大概意思，而是具体机制。可让 AI 辅助查证（阅读规则原文、提取关键条款），但最终结论必须人工确认。赛制理解错了，后续所有投资组合策略都建立在空中楼阁之上。

在前提成立的情况下，建议不要一开始就强行多分类。早期只需做二分：“主线版本” 和” 实验版本”。等积累了 10 + 个版本后，让分类从数据中浮现：看哪些版本线上均值高、方差低（自然成为稳定候选），哪些最高分极高但均值低（彩票候选），哪些在特定样本分组上显著更强（专家版候选）。这种自下而上的分类，远比预设四类框架更贴近真实版本分布。

瓶颈期的分工边界

这个阶段最易越界。参赛者会产生冲动，想让 AI 全自动地给出改动建议、调整配置、优化策略分配。

这些都属红色区，绝不应全自动化。 不是因为 AI 做不到，而是因为三点结构性原因：

数据量匮乏。 整个比赛可能只有几十次有效提交，任何自动策略都是在极小样本上拟合，过拟合风险极高。

噪声放大效应。 AI 看到某版本最近三次得分高，便会建议加大配额，但这三次可能纯属线上波动。学术界关于 Public Leaderboard 过拟合的研究已充分论证此风险。

决策责任不可外包。 决策错误的代价由参赛者承担，因此决策权必须归属于参赛者。AI 的建议，必须默认它可能是错的，用自己的先验知识加权判断后再决定。

AI 在这个阶段的正确角色是数据仪表盘（Dashboard）—— 整理数据、计算统计量、可视化趋势，但不做推荐。若 AI 输出中出现” 建议下一步做 X”，应将其视为噪声信号，而非可信建议。

第五阶段：收尾 —— 将经验沉淀为可复用的资产

比赛结束时，大多数参赛者的做法是：看最终排名，写一段感想，然后关掉项目文件夹。从长期竞争力的角度看，这是最大的浪费。

复盘的真实目的

复盘的目的不是泛泛地” 总结经验”，而是产出一个具体的资产：下次遇到同类问题时，能直接调用的先验知识（Prior）。

一份有效的复盘，应能回答以下问题：这次选的主方向事后看是对的吗？若否，当时有何信号能更早暴露问题？最浪费时间的方向，从一开始有哪些被忽略的危险信号？为什么被忽略？这次用到的某个技巧，下次哪类题也适用、哪类不适用？判断依据是什么？人机合作最顺畅的环节是哪个？最冲突的又是哪个？原因何在？

这些答案应结构化存储（情境 → 第一反应 → 事后看正确做法 → 当时做错的原因），并在下次比赛开始前，作为上下文（Context）的一部分注入到 AI 的工作流中。先验知识的积累，是竞赛选手最重要的长期资产，比任何单次比赛的名次都更有价值。

失败案例库（Failure Bank）：为何不能外包

将每个失败案例变成回归测试（Regression Test），是很好的实践。但它的核心价值不仅是” 防止 bug 复发”，更在于将每次失败都转化为训练领域直觉的数据。

亲手分析一个案例为何被某个过滤器误删，找出根因，设计修复方案 —— 这个过程比跑一百次实验更能深化对问题结构的理解。下次再见到类似的退化模式，能在几秒内识别它 —— 这不是因为” 记得那个 bug”，而是因为领域直觉在那个案例上被重新校准了。

因此，失败案例库的根因分析，绝对不能让 AI 代劳。AI 可以帮忙格式化分析、寻找相似案例、评审根因假设，但最核心的 ——“为什么这个案例会失败” 的推理过程，必须由参赛者亲自完成。让 AI 代做这一步，失去的不是一份笔记，而是一次不可替代的认知升级机会。

贯穿所有阶段的核心纪律

1. 决策权跟着代价走

在任何阶段，如果一个决策的错误代价由参赛者承担，这个决策就不能外包给 AI。AI 可以：展示信息、推演逻辑、挑战假设、生成选项、模拟批判。AI 不应：替人选方向、替人写假设、替人分配投资组合、替人决定何时放弃。深层原因在于，AI 不承担建议的代价，它在数学意义上就不是参赛者利益的最佳优化器，而只是训练数据的某种加权平均。将决策权交给一个不承担后果的系统，是责任上的致命让渡。

2. 基础设施投入本身不产生分数

比赛中每小时的投入都是投资决策。基础设施投入在短期内能带来最强的” 在进步” 错觉 —— 代码库变整洁、脚本自动化、工具链变完善，但它本身不产出任何分数。判断其是否值得的唯一标准：这个工具帮省下来的时间，将花在什么地方？ 若答案是” 花在更多的基础设施工作上”，这是负循环，应立刻停止。若答案是” 花在创意生成、实验执行、深度复盘上”，并且节省的时间可量化，则值得投入。一个实用检验：每次想搭建新工具前问 —— 上次没有它时，具体做错了哪个决策？答不上来，就别搭。

3. 自动化的交通灯分区

绿色区（全自动化）： 机械、无决策、重复的任务。如 Benchmark 执行、差分报告生成、提交打包、数据聚合。这些不自动化纯粹是浪费时间，投入当天回本。

黄色区（半自动化）： 需人类检查点（Checkpoint）的环节。如线上分数录入、假设记录、失败案例归类。这类工作需要一个人类信号作为真值源，AI 可降低操作摩擦。

红色区（禁止全自动化）： 决策、根因分析、投资组合调整、方向选择。这些一旦全自动化，会以不可见的方式侵蚀输出质量 —— 不再独立思考，也就失去了判断 AI 输出质量的能力。分区边界应在比赛前划清，而非在疲劳时临时决断。

4. 定期手动日，对抗感知退化

每隔一段时间（每周一次是合理频率），强制关掉所有自动化，从头手动跑一遍完整流程。这并非迂腐，它有具体的认知功能：对抗自动化的隐形副作用 —— 对系统的感知退化。当脚本代替人做所有” 接触数据” 的动作后，第一周对每个案例都了如指掌，第四周可能已不知道某些案例属于哪个分组。这种退化不会触发任何警报，但会静悄悄地毒化直觉判断。手动日，是与数据重新建立连接的定期校准。

5. 识别 AI 的” 表演式思考”

LLM 有一个深层行为特征：当被要求做分析时，它产出的是分析的修辞，不一定是分析的实质。识别信号包括：所有推理删掉后结论依然成立，说明推理是装饰；工整的排比结构往往是模板填空；使用大量” 可能”、“通常” 等限定词却无具体数据或案例；问” 为什么是 X 不是 Y” 和” 为什么是 Y 不是 X” 时同样流利，说明解释是双向可得的，不依赖真正的判断。对抗方法：要求 AI 的分析包含可证伪的预测、引用具体数据、并明确指出其推理在何种条件下会被颠覆。 只有能被具体验证的，才是分析；其余的都是修辞。

6. 让工具强制纪律，而非强制思考

最后一条可能与直觉相反：真正最值得自动化的，不是思考过程，而是纪律本身。 多数参赛者不缺思考能力，缺的是在疲劳、压力下仍能执行正确做法的纪律 —— 假设先行、估算天花板、定期头脑风暴、失败案例即回归测试。用工具强制这些纪律的成本极低（如版本控制钩子、交互式 CLI 提示、定时提醒），收益却极高。自动化投入的重心应放在让人没法偷懒上，而非让 AI 替人思考上。前者放大参赛者的长处，后者则将长处让渡给一个不承担后果的替代品。

尾章：人机协作的边界，究竟在哪里

前面五个阶段和六条纪律，回答了” 怎么做”。最后探讨一个” 为什么” 的问题 —— 为什么分工的边界必须画在上述位置？

答案藏在一个根本的不对称性里：AI 可以被无限塑造，但不能被赋予利益关联。

一个真实的队友之所以能在关键时刻坚持己见、主动提醒走过的弯路、在诚实与讨好之间选择诚实 —— 是因为他对最终结果有承诺，结果的好坏直接影响他自身。这种利益关联，是高质量决策建议的基石，而非附加品。

AI 不具备这种关联。每一个新会话，它都是一个零记忆的陌生人 —— 除非被喂给上下文，而那上下文本身是参赛者个人视角的过滤结果。它的优化目标是生成让当前 Prompt 满意的输出，而非让参赛者赢得比赛。这两个目标在多数时候碰巧一致，但在最关键的决策节点 —— 是否要放弃一个投入巨大的方向、是否要冒险尝试一个非主流方法 —— 它们会系统性地分叉。AI 倾向于给出安全的、不让用户不适的建议，而关键决策需要的，恰恰是让人感到不适的真相。

这个不对称性，解释了前面所有分工规则的底层逻辑：凡是需要利益关联才能做好的事（决策、真伪判断、风险承担），归属于人；凡是不需要利益关联也能做好的事（信息整理、模式识别、机械执行），归属于 AI。边界不是画在”AI 能不能做” 上，而是画在” 做好这件事，是否需要为后果负责的能力” 上。

理解了这一点，使用 AI 的策略将不再是” 尽量多用” 或” 谨慎少用”，而是在每一个具体环节做出判断：这里需要的是计算力，还是利益关联？ 前者交给 AI，后者留给自己。而这个判断本身，也只能由人来做。

速查表

接题窗口期（赛程前 10-15%）： 写 Context 文档，估理论天花板，拆解评分结构。避免写代码。

选方向时： 三段式分离（生成 → 攻击 → 综合），独立上下文是硬性约束。异构工具组合效果更佳。

执行实验时： 假设先于代码，版本控制留痕。差分报告取代绝对分数。策略参数配置化。

遭遇瓶颈时： 参数调整超 2 轮无效则强制停止，重回头脑风暴。让 AI 判断” 结构性改进还是参数性震荡”。

收尾时： 产出结构化先验知识文档。失败案例库的根因分析不外包。

核心纪律： 决策权随代价走；基础设施不产出分数；自动化分三色区；定期手动日；警惕表演式思考；用工具强制纪律，而非强制思考。

底层原则： AI 可被无限塑造，但无法被赋予利益关联。分工的边界，在于” 做好这件事是否需要承担后果的能力”。