万字长文剖析城市大模型：认知、应用、展望

6 月 06, 2025 AI前沿

5 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

游戏故事1——斯坦福25小镇

2023年4月，斯坦福和谷歌的研究者成功构建“虚拟小镇”引爆AI圈。虚拟小镇里有25个AI智能体。这些生成式智能体有不同的身份，比如药店店主、大学教授和他至爱的妻子、学音乐的儿子、邻居夫妇。他们的行为会符合他们的身份。他们可以与环境交互，比如在咖啡馆、酒吧、公园、学校、宿舍、房屋和商店不同的场所中有适宜的行为。看到浴缸漏水会从客厅找到工具并尝试修复漏水问题。更厉害的是，他们出现了“社交行为涌现”，彼此间会互相传播信息，协作举办活动，比如举办情人节PARTY。（https://arxiv.org/pdf/2304.03442.pdf）

以前，无论在计算领域，还是在城市学、社会学领域，对于这种复杂系统、社会行为的模拟都是非常困难的。从元胞自动机CA到多智能体系统MAS，都只能模拟相对简单系统的问题。智能体需要认知自己的身份，要有记忆，有连贯性的行为，要和他人协作，加上极高的时空复杂度，使得这类问题通常不可计算。但是基于大语言模型，这种随着时间推移而展开的动态复杂互动模拟实现了。

相比上文中接地气的现状应用，这可能才是更符合我们所预期的城市领域大模型价值。

1. 底层算法：直面“涌现”

可计算问题，是可以用算法或程序来解决的问题。然而现实世界中的绝大多数问题不是可计算问题，无法通过计算来求解。

城市问题，有多少可以抽象为计算模型，用计算解决？在规划师直觉里，我们可能会认为几乎没有。在具体的垂直领域可能部分存在，比如交通、能源资源供应等。但城市作为一个复杂系统，所面临的涌现性问题，即多个子系统耦合后产生的问题，是很难抽象成数学问题的。

随着算法的改进、数据量的增长、计算能力的提升，可计算问题的范围已经并还在快速扩大。斯坦福25人小镇的例子，让我们看到大模型技术带来的全新可能，对可计算问题边界的大幅拓展。

大模型的神奇在于“智能涌现”。过去的人工智能是教什么学什么，没教过的就不会。而当参数量大到一定规模后，忽然发现没有教过的东西突然无师自通了。无论是城市，还是大模型，“涌现”是作为复杂系统的基本属性之一。用大模型的智能涌现，去应对城市复杂系统的问题涌现，听起来是不是很美妙？

其实，全世界对大模型的理论工作原理很多时候还是一头雾水。所谓“涌现”，不过是还没有搞清楚其中的机理机制，解释不清楚，便称之为“涌现”。但很多时候我们希望“可解释”，无论是城市问题的研究，还是大模型工作原理的研究都是这样。

然而，另一个角度，无论是做城市设计还是做规划决策，其实都不是在追求唯一正确的解，而往往只是提出一个相对平衡合理的方案，成为讨论和共识的平台。在这个意义上，大模型的能力十分匹配：通过人机协同完成对复杂系统的模拟和推演，可以实现更高效的决策。但需要再次强调，不要试图让大模型追求“唯一正确解”。

2. 应用架构：AI Agent和RAG

（1）AI Agent

AI Agent是目前业内关注度最高的大模型应用架构。吴恩达认为，如果你在期待 GPT-5 等更好的大模型，其实你可以用 Agent 得到类似的更好的结果。AI Agent以大语言模型为大脑驱动，具有自主理解、感知、规划、记忆和调用工具的能力。其应用方向大致分为自动化智能体和拟人智能体两类：

自动化智能体，旨在实现复杂流程自动化。当给定智能体一个目标时，它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务，并不断重复这个过程，直到完成目标。比如告诉机器：设计一个特定尺寸的卧室，里面有什么功能、什么家具。机器可以基于对任务要求的理解，自动的生成指令，调用画图软件，并自主操作，画出设计图纸。自动化智能体可能由此带来软件行业交互方式的变革。近期看来，其难点除了大模型能力，还在于系统接口的对接框架以及对现有接口的适大模型化改造。

拟人化智能体，旨在模拟人的情感和人际交互，通常对生成准确度要求不高。大模型的不确定性在这里成为优势，可以实现多样性的模拟。在多智能体环境中，还可能涌现出超越原设计的场景和能力。拟人化智能体通过提供较高情绪价值的陪伴，正在成为新的精神消费品。而在让城市研究兴奋的社会模拟、城市模拟领域，虽然斯坦福25人小镇表现惊艳，但用于严谨的规划分析，甚至是政策决策支撑，还没有看到具有可行性的深入研究。

（2）RAG

如果说AI Agent还显得有些遥远，那RAG架构则是短期看来非常现实的方式。

RAG，检索增强生成（Retrieval Augmented Generation）。简单说就是通过外挂知识库，额外给大模型一些专门的领域知识，大模型从中检索正确的答案。类似于给模型出一道阅读理解题，让它先阅读给定材料，然后回答问题。这种方式显然比直接做问答题靠谱许多，可以有效解决大模型的幻觉、知识实时性、数据安全、训练时间长、需要高算力等问题。

上文中提到的政务服务场景，即是基于RAG架构。对于更广义的城市领域，我们可以通过梳理构建子领域的知识库，实现知识的管理和生产。在这里，相比于大模型本身，专业的知识库可能更为关键。在金融、法律、医疗、建筑等领域，许多行业头部企业已经在投入行业知识库的建设，也成为沉淀行业/领域知识资产，挖掘数据价值的新手段。

城市领域知识具有复杂度高、长尾碎片知识多、常识性强等特点。综合第一章中对于精调型行业大模型的讨论，我们对于哪些知识适合外挂，哪些知识适合基础模型内化，既缺少认知，也缺少尝试，更不用提如何将领域知识结构化。而这，极有可能是一个行业与大模型结合的起点。换句话说，是大模型时代，一个行业能够持续迭代更新的立足点。

3. 数据知识：顶层设计与行业协同

知识或者说数据，是城市大模型的关键。而在现实中，城市又会分解成产业经济、建筑规划、交通市政、城管、应急等各个子系统，各子系统都存在建设行业大模型的需求，而其共同的空间属性，又会最终将这些大模型进一步整合。

各行业独特的法规、规范、标准等，是大模型行业应用的共性基础，涉及版权商用问题，需要各行业主管部门牵头进行顶层设计和统筹规划，以确保行业共性知识库的合规性，并推动建立一个可扩展、可协同的行业大模型技术架构。这种架构应当促进产业链各环节之间的有效沟通和协作，使得各环节能够独立构建和应用其领域模型和企业模型，同时实现跨领域的协同和整合，从而提升整个行业的竞争力和创新能力。在城市领域，由于涉及大量行业的范式和工作流变革，这种统筹尤为必要。

4. 成本效率：缺少性价比如何配得起

一年多以来，各行各业对大模型热情高涨。聊过的需求很多，落地的需求很少。一方面是因为需求方对大模型技术的理解比较少，提出的需要比较“科幻”，另一方面，是出于经济性的考虑，绝大部分场景难以构建商业闭环。有技术实现方案，但没有性价比。尽管我们说城市大模型就是应用于市场失灵的公共服务与公共管理领域的大模型，商业变现不是第一要务，但性价比总归是不能太离谱。

其实不止是行业大模型，成本，是目前使用LLM模型应用都无法绕过的问题。从训练的角度，去年我们在某项目中，仅30MB的文本数据，在百亿参数模型上一次训练的成本接近万元。且训练效果在训前并不可预知。可能经过几轮迭代训练，仍达不到预期。尽管这个成本已经并还在下降，但依然还是贵的。

从应用开发的角度，按照输入和输出token数量收费方式，过于复杂的任务导致Token过量消耗。一个复杂任务一晚上跑掉一栋别墅的钱不是玩笑。

模型的部署与服务也是一大笔钱。虽然从千亿参数到百亿参数，这个费用可以有数量级的下降，但由于效果价值不易评估，也很难看到商业闭环。

更宏观的考虑人工智能的能源成本，就更算不过来了。上文中的斯坦福25人小镇这类案例，从成本，效率等角度上来说，都只存在于实验室中，没有落地的可能性。

人类大脑有100多亿个神经元。大模型参数在千亿规模，可以类比千亿个人工神经元。目前，人类神经元的协同效率还是远高于大模型的，对于大部分专业性的任务，短期内还是人更靠谱。

只有在任务的通用性足够强，可以代替足够多人，或者对计算量、计算速度等需求超越人类极限的情况下，大模型才有性价比。

5. 从大语言模型到跨模态

本文中所指大模型均是大语言模型，没有涉及多模态。多模态是大模型未来的重要方向早已是业内共识，但它到来的如此之快，还是超出了几乎所有人的预期。从通用大模型标配的文生图，到Sora突破了文生视频，在 Transformer框架下不断 Scaling up，涌现出越来越丰富的认知能力。

城市领域相关学科知识天然就是多模态的。规划、建筑、景观等设计和工程都是以文本、图纸为基础描述空间形态，交通、市政等领域还会有更丰富的特殊模态数据。

Transformer可以通过文字学习，承载历史文化、生活经验、地域特征等隐性空间知识，以及法规、规范等结构化知识；而Diffusion（扩散）模型则通过大量设计作品的学习，可以形成特定的设计风格，并进行基于图像甚至三维的创作。Sora 让我们看到了视频生成技术中可以形成高度的三维一致性，也就是可以通过类似方法直接生成三维模型。

最终，当大模型对以语言为表征的社会空间，以及以三维空间为表征的物理空间，具备了理解与创造的能力，并将它们连接在一起，便有机会真正理解并创造未来城市。

游戏故事2——AI智能体Voyager称霸Minecraft

还是以一个游戏故事作为结尾吧。

这同样是23年初的一个发布：在minecraft我的世界的游戏里，一个名为Voyager，由大语言模型驱动、可以终身学习的AI智能体，利用GPT-4不停地探索世界。它不断的开发越来越复杂的技能，并始终能在没有人工干预的情况下自驱的进行新的发现。

它通过自主学习，掌握了挖掘、建房屋、收集、打猎这些基本的生存技能，还通过自我驱动，不断探索着这个神奇的世界，去到不同的城市，路过一片片海洋，一座座金字塔，它甚至还会自己搭建传送门。它会扩充自己的物品和装备，会配备不同等级的盔甲，会用栅栏圈养动物。在不同的环境里，它会给自己提出适当的任务，如果发现自己是在沙漠而不是森林中，就会在学习收集铁之前学习收集沙子和仙人掌。基于环境反馈来完善技能，并将掌握的技能记入记忆。

由此展开，我们希望有个AI，我们给他设一个任务：“对城市不断改良与优化，城市明天更美好”。它便会根据当前的技术水平和城市状态提出适当的任务，相当于做城市体检和城市规划；然后基于环境反馈来完善策略，将掌握的策略与反馈记入记忆，并在类似情况下重复使用，相当于落地实施，并在实施过程中不断的深化对城市的认知，动态的修正规划和策略；因为城市的改良是没有最好只有更好的，所以它会持续探索城市：以自我驱动的方式寻找新的任务，让城市明天更美好。

原文始发于微信公众号（腾讯研究院）：万字长文剖析城市大模型：认知、应用、展望

万字长文剖析城市大模型：认知、应用、展望

发表评论

取消回复

导航菜单

相关推荐

发表评论

取消回复

导航菜单