从Next Token Prediction到智慧涌现

原文链接:https://www.zhihu.com/question/1968361285579150015/answer/1988303137023467994

大模型的本质原理不是概率统计，而是压缩+模拟，或者说，它是在某个临界点从统计跃迁到了智能压缩，而这个临界点即为所谓的“智慧涌现”，或Grokking现象。
预测不是目的，而是手段，是模型将客观世界的规律与表征压缩到自己固定大小的参数中的手段
对模型的大量预训练以及强化学习手段（RLHF等）实际上都是在进行类似于蒙特卡洛树搜索的操作，基于梯度的参数随机优化方法与庞大的参数量，从模拟的角度看，与蒙特卡洛方法“随机穷举”的思想有异曲同工之妙。
提示词工程可以看作是一种“推理时梯度下降”，精心编写的提示词实际上在输入层就在一定程度上实现了特征的解耦与提炼，使模型在一开始就达到了在粗糙的提示词下需要经过前向推理以提取特征才能达到的某种“中间状态”
模型的思考能力（CoT）与逐步的逻辑推理是追求极致优化（降低loss）的必然结果，这一结果的产生是建立在大量的数据支持的基础上的（Scaling Laws），因为想要在有限的参数下拟合如此多的不同模式的样本，发掘其背后本质规律而不是硬记样本标签是模型学到的最具效率，最“简单”的方式。这也很像强化学习或模拟的思想。
模型的幻觉与创造力同源。在未知/开放性的问题上，模型的概率分布接近平缓，因此难以给出确定的答案。
NTP本质上是因果效应的体现，反映了事物运转的底层原理，因此可以产生类似”智慧”的现象。
通过压缩数据来预测未来，从而提取智能，是基于信息论的“人造智慧”的最佳范式。