为什么开发者不信任 AI 内容和代码

AI厌恶现象：为什么开发者不信任AI生成的内容

生成式人工智能积极融入日常工作流程，这不仅激起了热情，也引发了显著的抵触情绪，尤其是在经验丰富的IT专业人士中。这种对常被称为“AI泥浆”的厌恶，在与大型语言模型（LLM）生成的文本和代码交互时表现得尤为明显。在本文中，我们将深入探讨这种现象的深层原因，借鉴生物学、心理学、信息论以及实际开发经验的原理。我们的目标是理解为何AI生成的内容常被视为空洞且不可靠，以及这如何影响专业社区内的信任和责任。

不信任的根源：沟通的生物学和经济学视角

人类互动的核心在于一个约定俗成的契约：每一次沟通都要求发送者投入认知资源——时间、构思、组织和说服的努力。这种投入关乎作者的声誉，也预示着信息的价值。接收者则投入他们的注意力——这在当今是最稀缺的资源之一。如果接收到的信息不值得所付出的注意力，信任就会受到侵蚀，导致不满和兴趣丧失。神经网络通过将内容创作成本几乎降为零，彻底改变了这种动态。作者可以在几分钟内生成一段需要大量时间阅读的文本。这违反了这种隐性契约，造成了创作者与消费者之间努力的不平衡。如果一段文字缺乏真正的智力投入，其对读者的价值就趋近于零。同样的逻辑也适用于代码：审查那些明显由AI生成、未投入显著人类努力的代码，被视为不负责任的推卸，并浪费了合格专业人士的时间。

进化心理学与文本的“恐怖谷”效应

数百万年的进化塑造了我们的大脑，使其能够高效评估其他生物体。我们通过非语言线索（如面部表情、语调、动作）本能地判断可信度和意图。AI不提供此类信号，使得我们的威胁检测系统缺乏输入，并将其解读为潜在危险。这种机制类似于视觉感知中的“恐怖谷”效应：一个几乎与人类相同但又不完全相同的物体，比明显非人类的物体更能引起强烈的排斥感。在文本语境中，神经网络生成的内容语法正确、表面逻辑清晰、风格中立。它与人类语言足够相似，足以激活我们的识别机制，但又因缺乏独特的、有机的个性标记而显得足够不同，从而引发不安。大脑检测到虚假，并将其解读为来自一个假装是人类但实则不然的“代理”的威胁。

社会心理学与责任问题

社会信任建立在一种社会契约之上，这种契约意味着相互的脆弱性和责任。然而，AI无法被追究责任；它没有声誉可供失去。这造成了所谓的“责任鸿沟”。与责任扩散（旁观者效应）不同，后者是责任在人群中被稀释，而这里则是责任在人类和一台“做出决策”的机器之间被稀释。矛盾之处在于：一方面存在“算法厌恶”——单个AI错误对信任的破坏程度远超十个人类错误；另一方面又存在“自动化偏见”——盲目遵循机器建议的倾向。我们既因AI缺乏责任而对其不信任，又因其表面的自信和速度而依赖它。这种鸿沟阻碍了我们批判性思考并为自己的决策承担责任，反而将其委托给一个公正却不负责任的系统。

主观感知：空洞冒充思想

在我看来，核心问题并非神经网络本身，而是它试图将空洞冒充为思想。那些没有原创见解的人，将AI用作生成平庸内容的挡箭牌，掩盖了他们缺乏个人立场的事实。立场总是包含风险、选择，以及即使观点有误也愿意捍卫的意愿。经过数十亿文本训练并通过RLHF校准的LLM内容，是一种“加权平均”的结果。它既不好也不坏；它只是“平淡无奇”。然而，真正有价值的文本总是偏离中位数，是独特经验、深度思考和作者个人视角的结晶。是独特性而非平均性赋予文本深度和价值。缺乏这种个人印记使文本变得面目模糊，就像火车站广播的通知一样，无法引起情感共鸣或激发思考。

人类文本与AI文本对比

| 特征 | 人类文本 | AI文本 |

| :------------- | :------------------------------------------------ | :------------------------------------------------------- |

| 节奏与结构 | 节奏多变，句长多样。 | 结构统一，句式单调。 |

| 比喻 | 出人意料，有时大胆。 | 安全、陈词滥调或缺失。 |

| 细节程度 | 可能有留白，信任读者的智力。 | 解释每一步，“仿佛是给五岁小孩讲故事”。 |

| 立场 | 坚定、主观，有论据。 | 中立，“一方面……另一方面……” |

| 例子 | 生动、源于个人经验、出人意料。 | 抽象、通用、普遍。 |

信息论：不确定性降低与无聊感

从信息论的角度来看，大型语言模型（LLM）本质上是“打了兴奋剂的T9输入法”，它根据上下文预测下一个词元。信息被定义为不确定性的减少：一条消息越不可预测，它所携带的信息量就越大。神经网络生成文本的过程，是创建统计学上平均序列的过程。它们几乎缺乏香农熵，这意味着新信息量极少，可预测性极高。相反，人脑寻求新颖性，寻求带有价值并能缓解无聊的新模式。神经网络组织已知的、可预测的内容，创造出虽然正确但信息量空洞的内容。这导致AI文本常常显得枯燥无味，因为它没有提供任何新颖或独特的东西。

如何识别AI生成的内容（和代码）

经验丰富的用户和开发者通常能凭直觉识别AI生成的内容，通过其特有的标记：

结构模式：

* 列表癖： 过度使用项目符号或编号列表，即使段落格式更合适。当AI难以构建连贯叙述时，常会求助于此。

* 对称结构： 重复使用“首先……其次……再次……”之类的短语，项目长度惊人地统一，制造出人工对称感。

* 分形重复： 文本的每个部分都遵循相同的僵硬模式（论点、解释、例子、结论），导致单调和可预测性。

词汇和语义标记：

* 填充短语： 过度使用诸如“让我们深入探讨”、“值得注意的是”、“因此”、“值得强调的是”、“总而言之”等引导性短语，掩盖了缺乏深度思考的问题。

* 超级正确性： 缺乏口语、俚语或省略语。文本听起来过于正式，像官方文件的翻译，缺乏自然语言的韵味。

* 虚假流畅： 大量使用过渡词和让步连词，制造出流畅叙述的假象，却掩盖了逻辑漏洞或肤浅的论证。

* 空洞形容词： 使用“有效”、“方便”、“强大”、“灵活”等笼统、无信息的形容词，却不具体说明其含义。

* 缺乏矛盾： 线性、绝对一致的叙述。人类会改变主意、并置观点、承认复杂性，而AI则生成“理想化”的连贯文本。

* 虚假深度： 冗长的段落，仔细阅读后发现只是同一观点的多次重述。

* 过度自信： 文本以同样的自信和不加区分的方式描述截然不同的知识领域，这是任何人类专家都无法做到的。

在代码方面，除了过多的注释外，还常出现表明是AI生成的“痕迹”。例如，代码可能语法正确，甚至在简单情况下功能正常，但却忽略了关键方面：缺乏异常处理、针对大型数据集的低效算法、安全漏洞，或完全忽视边缘情况。这样的代码可能可以运行，但对于生产环境来说，它很少是最佳的、可维护的或安全的，需要大量的人工优化和重构。