从主观审美到可测规则
做内容的人都知道一个痛点:判断一篇稿子好不好,往往是主观审美。你觉得好,别人觉得不行。换一个审稿人,结论又变了。
这种主观判断在个人创作时还能忍,但在团队协作和自动化流程里就成了硬伤——因为没有共识标准,Agent 不知道该按什么规则来判断质量,人也不知道怎么给 Agent 设定质量门。那次做 PPT 审稿时,我遇到了这个问题的典型场景。
主观审美的困局
几页 PPT 发出去,三个人看了,三个评价:一个说"视觉冲击力不够",一个说"信息密度太高",一个说"还行但没什么亮点"。
三个评价都正确,但互相矛盾。"冲击力不够"要求增加视觉装饰和留白,"信息密度太高"要求减少文字增加图示。这两个方向是矛盾的——冲击力靠简化信息、增加留白来实现,但信息密度靠压缩留白、增加文字来保证。到底往哪个方向改?
主观审美的困局在于:每个人都在用不同的标准做判断,但这些标准没有被说出来。"冲击力不够"背后可能有一套关于配色对比度和封面留白比例的偏好,"信息密度太高"背后可能有一套关于单页字数上限和段落间距的容忍度。偏好和容忍度都是可量化的,但讨论时没人把这些量化标准拿出来。
结果就是:讨论变成了审美辩论而不是质量改进。你花半小时争论"到底冲击力重要还是信息密度重要",但没有人意识到这两者可以通过指标平衡——配色对比度不低于 3:1 保证冲击力,单页文字不超过 150 字保证信息密度可控。两个指标可以同时达标,但你必须先把主观感受拆成具体参数。
从审美到规则的转化
我决定做一个实验:把三个审稿人的主观评价拆开,提取每个人背后的具体判断标准。
"视觉冲击力不够"拆成三个指标:配色对比度低于 3:1(标准是 4.5:1 以上为优秀,3:1 为及格),封面页留白超过 60%(标准是 40%-60% 为合理范围),关键数据没有用大字号突出(标准是核心数据字号至少是正文的 1.5 倍)。
"信息密度太高"拆成三个指标:单页文字超过 150 字(标准是 100-150 字为宜),超过 3 个段落(标准是每页不超过 2 个段落),每段超过 40 字(标准是每段 20-40 字为宜)。
"没什么亮点"拆成三个指标:没有 callout 框(标准是每页至少 1 个 callout),没有数据可视化(标准是关键数据至少有 1 个图表),没有对比表格(标准是涉及多个维度时必须有对比)。
每条主观评价都能拆成几个具体的、可测量的指标。这些指标不一定完整,但它们把模糊的"感觉不好"变成了明确的"哪几个参数不达标"。
有了这些指标,质量判断就不再是"我觉得不行",而是"配色对比度 2.8:1,低于 3:1 的标准"。前者不可讨论,后者可讨论、可验证、可改进。可讨论意味着团队可以对阈值达成共识,可验证意味着 Agent 可以自动检查,可改进意味着每次改稿都有明确的优化方向。
程序化质量判断
有了可测指标,下一步就是让程序来做判断。我用 Kimi 的审稿报告功能做了一次验证:把 PPT 的结构数据输进去,让它按指标评分。
结果比三个人的主观判断更一致——因为指标是固定的,评分标准是明确的。不同审稿人对同一指标的评分可能差一两分,但不会出现"冲击力不够"和"信息密度太高"这种方向性矛盾。方向一致之后,优化才有效率——你知道每次改稿都在往同一个方向走,而不是左右摇摆。
程序化质量判断的好处不只是客观性,更重要的是可复用。主观判断每次都要从头讨论——换一个人就要重新对齐标准。程序化判断一旦设定了指标,后续所有同类内容都可以自动评估,不需要重复讨论。
提炼方法
这次从主观审美到可测规则的转化,提炼出一个具体方法:
每次遇到"感觉不好"的评价时,追问:具体哪个参数让你觉得不好? 把主观感受拆成可测指标。
拆的方法三步走:
- 举一个你觉得好的例子,对比当前内容和好例子的差异。差异是具体的,不是模糊的。
- 把差异翻译成具体参数:字号、间距、对比度、字数、元素数量。参数是可测量的,不是不可验证的。
- 给每个参数设定阈值:低于这个值就算不达标。阈值是可共识的,不是个人偏好的。
这个方法后来写进了 jp015 的质量规则:所有内容质量判断,先拆成可测指标,再做评分。不接受纯主观评价作为改稿依据——因为纯主观评价不可复用、不可验证、不可自动检查。
从主观审美到可测规则,不是消灭审美,而是把审美变成可传递、可复用的标准。审美是起点,规则是路径。有了路径,Agent 才能帮你守住质量。没有路径,Agent 只能每次都问你"你觉得这版怎么样",而你的回答每次都可能不一样。