通用Agent长啥样 - Prompt House AI博客

Key Takeaway

命令行Agent是AI发展的重要方向，它结合了庞大的工具生态、经典的Unix组合哲学和现代AI调度能力。
Unix哲学（一切皆文件、专注做好一件事、程序间协作）与AI模型的ReAct框架（思考与行动循环）高度契合。
通用Agent的核心能力包括感知、思考、行动和循环验证。
大模型负责“思考”，命令行Agent负责“行动”。
MCP（模型控制协议）是实现“感知”和“循环验证”的关键。
通用Agent的“骨架”是一个善于思考的AI大脑，嫁接在拥有海量工具的命令行身躯之上，并辅以MCP的敏锐感知。

Full Content

问你一个问题：

为什么Anthropic和Google这些大厂都在做基于命令行的编程工具？

想象一下，我们花了几十年时间，才从这种满是代码的“小黑窗”，进化到了今天这样漂亮、直观的图形界面。我们已经习惯了用鼠标，但是，诡异的事情发生了：

Anthropic发布的Claude Code，Google发布的Gemini CLI，这些最顶尖的AI工具在一夜之间集体“退化”回了那个“石器时代”。

这究竟是在开历史的倒车，还是这些顶尖高手，看到了我们普通人完全没看懂的未来？

本期视频，我会拆开来跟你们讲透。一旦你理解之后，就能看清楚通用Agent发展方向了。

我建议大家先点个收藏，因为内容可能有点深，需要多琢磨几遍。

首先我们要理解，这些大厂做的Claude Code、Gemini CLI究竟是什么。

一个词：命令行Agent。

为什么要用命令行Agent？它有什么价值？

我认为：

命令行Agent = 庞大的工具生态 + 经典的Unix组合哲学 + 现代的AI调度能力

大家放心，这个公式里的每一个概念我都会详细解释。咱们先从一个最基础的开始，也就是：

命令行是什么东西？

简单来说，在那个上古年代，用户是通过输入一行命令来给计算机下达指令，而不是像我们现在用鼠标在图形化的界面上跟计算机进行交互。

那么，用户在哪里输入命令？在一个叫终端的东西上边。不管你是用Windows还是macOS，都可以找到终端。它其实就是一个界面，用户可以输入，也可以看到计算机的反馈。

接下来，命令输入之后，计算机需要对它进行“翻译”。为什么要翻译？因为语言不通嘛。

我们通过命令行输入的东西，是文本字符串组成的，是给人看的，而机器根本看不懂。于是就了Shell、外壳这个概念，专门负责翻译。

当Shell完成翻译，就会把命令发送到内核，也就是Kernel。

所以，从命令Command Line到终端Terminal、到Shell外壳，最后到Kernel内核，这一串就是非常经典的处理流程。

这套流程中，最先进的地方，就是把外壳和内核分离。为什么要分离？

打个比方，有一家顶级餐厅：

内核就是后厨，可以做出任何菜，但它不直接跟客人说话。

外壳就是金牌服务员，他懂后厨的“行话”，也懂客户的“人话”。客户点菜，他负责翻译、下单给后厨。

而终端就是客户坐的餐桌，它是客户和服务员交流的场所。

所以，“外壳和内核分离”这个天才设计，就好比规定了：服务员不能进后厨做菜，后厨师傅也不能出来点菜。

大家各司其职，餐厅才能高效运转。一是安全，服务员摔倒了（外壳崩溃），不会影响后厨出餐（内核运行）。二是灵活，服务员可以随时根据客户的口味设计新菜单（开发者可以随时开发新命令），而不需要改造整个后厨（修改操作系统）。

这个命令行工具生态，从当年的Unix系统开始，一代一代发展、延续下来，已经变成了一个非常宝贵的资源库。

这就是前边那个等式里边，“庞大的工具生态”的意思。像Claude Code之类的命令行Agent，直接用各种各样的命令行来直接下达命令，效率非常高。

那么，后边的“经典的Unix组合哲学”是什么意思？

Unix是一个非常牛逼的操作系统。它的“子孙后代”无处不在，包括Linux、macOS，以及BSD家族。我特别喜欢它的三条设计哲学：

第一，一切皆文件（Everything is a file）。在Unix里边，无论是硬件设备、进程、还是网络连接，都可以被抽象成文件。然后你就可以用同一套简单的操作，比如open、read、write，来进行统一的交互。

第二，做一件事，并把它做好（Do One Thing and Do It Well）。程序应该保持简单，专注于一个核心功能。于是，命令就是程序；一条命令就专注干好一件事。

第三，也是最关键的一条——程序之间相互协作（Write programs to work together）。这条哲学要求，每个程序的输出都应该能成为另一个程序的输入。这就诞生了Unix历史上最伟大的发明之一：管道，就是这根神奇的竖线 |。它能像水管一样把一个命令的输出直接连接到下一个命令的输入。

所以，命令行Agent在执行的时候，特别像拼乐高。从Unix开始流传下来的命令行工具，就好比是海量的乐高组件。然后，命令行Agent使用管道这根竖线，根据不同的需求，把对应命令行串起来。

而这种拼乐高的方法，正好特别适合模型的运作方式。

今天的模型采用ReAct框架，也就是思考和行动不断循环。

当接到需求后，模型会先思考（Reason）。它会去做拆解，搞清楚究竟需要哪些工具，也就是要用哪些命令。

接着，模型用管道把一条条命令组合起来，开始行动（Act）。

最后，当执行完毕，系统会返回给模型一个结果，比如输出了一个文件。这样模型就能观察（Observe），看看任务有没有完成。

这个就是公式里的最后一部分，“现代的AI调度能力”的意思。

所以你看，命令行Agent的出现，是建立在过去几十年计算机发展的基础上的。从Unix流传下来的工具生态和组合哲学，正好特别适合今天这个AI时代。所以才有了命令行Agent的诞生。

不得不说，Anthropic能想到把这些上古时代的遗产给利用起来，我是非常非常佩服的。

那么看到这里，你可能会问：命令行Agent就是通用Agent吗？

并不是。别着急，你先想想：通用Agent需要具备哪些能力？

我认为有四个：感知，思考，行动，循环验证。

思考已经具备了，也就是模型本身，它就是用来思考的大脑。

行动现在也具备了，就是刚才讲了那么多的命令行Agent。

而感知和循环验证，则需要依靠MCP。通过MCP，Agent能够全面了解用户的意图和当前系统的状态。当全部完成之后，Agent再通过MCP来确认任务是否完成。

所以，通用Agent的骨架，就是一个善于思考的AI大脑，嫁接在一个拥有海量工具、懂得组合艺术的命令行身躯之上，再配上一套叫做MCP的敏锐感官。

当你理解了这个骨架，你就获得了一个“上帝视角”，能够看懂AI产品、通用Agent进化方向。无论是AI助理、AI编程工具还是自动化流程软件，它们的内核都逃不开这个“骨架”。

这套“骨架理论”，是我过去一个月重度使用Claude Code之后总结出来的感悟。在国内，我敢说很少有人会从这个角度，把这件事给你讲得这么透彻。

OK，以上就是本期内容。想了解AI，想成为超级个体，想找到志同道合的人，就来我们newtype社群。那咱们下期见！