Prompt House

Beta
请先登录以管理你的Prompts
FollowJoin

通用Agent长啥样

tech
通用Agent
MCP
UNIX
命令行Agent
Claude Code

Key Takeaway

  • 命令行Agent是AI发展的重要方向,它结合了庞大的工具生态、经典的Unix组合哲学和现代AI调度能力。
  • Unix哲学(一切皆文件、专注做好一件事、程序间协作)与AI模型的ReAct框架(思考与行动循环)高度契合。
  • 通用Agent的核心能力包括感知、思考、行动和循环验证。
  • 大模型负责“思考”,命令行Agent负责“行动”。
  • MCP(模型控制协议)是实现“感知”和“循环验证”的关键。
  • 通用Agent的“骨架”是一个善于思考的AI大脑,嫁接在拥有海量工具的命令行身躯之上,并辅以MCP的敏锐感知。

Full Content

问你一个问题:

为什么Anthropic和Google这些大厂都在做基于命令行的编程工具?

想象一下,我们花了几十年时间,才从这种满是代码的“小黑窗”,进化到了今天这样漂亮、直观的图形界面。我们已经习惯了用鼠标,但是,诡异的事情发生了:

Anthropic发布的Claude Code,Google发布的Gemini CLI,这些最顶尖的AI工具在一夜之间集体“退化”回了那个“石器时代”。

这究竟是在开历史的倒车,还是这些顶尖高手,看到了我们普通人完全没看懂的未来?

本期视频,我会拆开来跟你们讲透。一旦你理解之后,就能看清楚通用Agent发展方向了。

我建议大家先点个收藏,因为内容可能有点深,需要多琢磨几遍。

首先我们要理解,这些大厂做的Claude Code、Gemini CLI究竟是什么。

一个词:命令行Agent。

为什么要用命令行Agent?它有什么价值?

我认为:

命令行Agent = 庞大的工具生态 + 经典的Unix组合哲学 + 现代的AI调度能力

大家放心,这个公式里的每一个概念我都会详细解释。咱们先从一个最基础的开始,也就是:

命令行是什么东西?

简单来说,在那个上古年代,用户是通过输入一行命令来给计算机下达指令,而不是像我们现在用鼠标在图形化的界面上跟计算机进行交互。

那么,用户在哪里输入命令?在一个叫终端的东西上边。不管你是用Windows还是macOS,都可以找到终端。它其实就是一个界面,用户可以输入,也可以看到计算机的反馈。

接下来,命令输入之后,计算机需要对它进行“翻译”。为什么要翻译?因为语言不通嘛。

我们通过命令行输入的东西,是文本字符串组成的,是给人看的,而机器根本看不懂。于是就了Shell、外壳这个概念,专门负责翻译。

当Shell完成翻译,就会把命令发送到内核,也就是Kernel。

所以,从命令Command Line到终端Terminal、到Shell外壳,最后到Kernel内核,这一串就是非常经典的处理流程。

这套流程中,最先进的地方,就是把外壳和内核分离。为什么要分离?

打个比方,有一家顶级餐厅:

内核就是后厨,可以做出任何菜,但它不直接跟客人说话。

外壳就是金牌服务员,他懂后厨的“行话”,也懂客户的“人话”。客户点菜,他负责翻译、下单给后厨。

而终端就是客户坐的餐桌,它是客户和服务员交流的场所。

所以,“外壳和内核分离”这个天才设计,就好比规定了:服务员不能进后厨做菜,后厨师傅也不能出来点菜。

大家各司其职,餐厅才能高效运转。一是安全,服务员摔倒了(外壳崩溃),不会影响后厨出餐(内核运行)。二是灵活,服务员可以随时根据客户的口味设计新菜单(开发者可以随时开发新命令),而不需要改造整个后厨(修改操作系统)。

这个命令行工具生态,从当年的Unix系统开始,一代一代发展、延续下来,已经变成了一个非常宝贵的资源库。

这就是前边那个等式里边,“庞大的工具生态”的意思。像Claude Code之类的命令行Agent,直接用各种各样的命令行来直接下达命令,效率非常高。

那么,后边的“经典的Unix组合哲学”是什么意思?

Unix是一个非常牛逼的操作系统。它的“子孙后代”无处不在,包括Linux、macOS,以及BSD家族。我特别喜欢它的三条设计哲学:

第一,一切皆文件(Everything is a file)。在Unix里边,无论是硬件设备、进程、还是网络连接,都可以被抽象成文件。然后你就可以用同一套简单的操作,比如open、read、write,来进行统一的交互。

第二,做一件事,并把它做好(Do One Thing and Do It Well)。程序应该保持简单,专注于一个核心功能。于是,命令就是程序;一条命令就专注干好一件事。

第三,也是最关键的一条——程序之间相互协作(Write programs to work together)。这条哲学要求,每个程序的输出都应该能成为另一个程序的输入。这就诞生了Unix历史上最伟大的发明之一:管道,就是这根神奇的竖线 |。它能像水管一样把一个命令的输出直接连接到下一个命令的输入。

所以,命令行Agent在执行的时候,特别像拼乐高。从Unix开始流传下来的命令行工具,就好比是海量的乐高组件。然后,命令行Agent使用管道这根竖线,根据不同的需求,把对应命令行串起来。

而这种拼乐高的方法,正好特别适合模型的运作方式。

今天的模型采用ReAct框架,也就是思考和行动不断循环。

当接到需求后,模型会先思考(Reason)。它会去做拆解,搞清楚究竟需要哪些工具,也就是要用哪些命令。

接着,模型用管道把一条条命令组合起来,开始行动(Act)。

最后,当执行完毕,系统会返回给模型一个结果,比如输出了一个文件。这样模型就能观察(Observe),看看任务有没有完成。

这个就是公式里的最后一部分,“现代的AI调度能力”的意思。

所以你看,命令行Agent的出现,是建立在过去几十年计算机发展的基础上的。从Unix流传下来的工具生态和组合哲学,正好特别适合今天这个AI时代。所以才有了命令行Agent的诞生。

不得不说,Anthropic能想到把这些上古时代的遗产给利用起来,我是非常非常佩服的。

那么看到这里,你可能会问:命令行Agent就是通用Agent吗?

并不是。别着急,你先想想:通用Agent需要具备哪些能力?

我认为有四个:感知,思考,行动,循环验证。

思考已经具备了,也就是模型本身,它就是用来思考的大脑。

行动现在也具备了,就是刚才讲了那么多的命令行Agent。

而感知和循环验证,则需要依靠MCP。通过MCP,Agent能够全面了解用户的意图和当前系统的状态。当全部完成之后,Agent再通过MCP来确认任务是否完成。

所以,通用Agent的骨架,就是一个善于思考的AI大脑,嫁接在一个拥有海量工具、懂得组合艺术的命令行身躯之上,再配上一套叫做MCP的敏锐感官。

当你理解了这个骨架,你就获得了一个“上帝视角”,能够看懂AI产品、通用Agent进化方向。无论是AI助理、AI编程工具还是自动化流程软件,它们的内核都逃不开这个“骨架”。

这套“骨架理论”,是我过去一个月重度使用Claude Code之后总结出来的感悟。在国内,我敢说很少有人会从这个角度,把这件事给你讲得这么透彻。

OK,以上就是本期内容。想了解AI,想成为超级个体,想找到志同道合的人,就来我们newtype社群。那咱们下期见!