科技博览

您当前的位置：首页 > 探索发现 >科技博览

大模型调用工具的三种路线，谁会成为智能体的操控之手？

发布时间：2026-05-26 作者：孙鲁昱李阳浏览量：2276 来源：中移科协分享到：

大语言模型（LLM）的爆发式发展正推动人工智能从对话工具向环境交互跃迁，然而受其固有的知识边界和幻觉限制，其难以独立完成需要实时数据、私有知识或命令交互的真实世界任务。为解决该问题，工具调用技术应运而生。本文聚焦智能体工具调用技术，从协议类工具调用、环境控制类工具调用及图形界面操控类工具调用技术三方面进行梳理，探讨运营商如何应对未来智能体时代，并提出构建一张AI时代的网、算、存资源统一智能调度网络的建议。

1、智能体工具调用技术

工具调用技术作为打通模型能力与外部系统的关键桥梁，赋予了大模型感知环境、决策行动，以及基于反馈持续迭代的闭环能力，是实现AI智能体（AI Agent）的核心机制之一。当前，工具调用技术已演化出三条不同的技术路线，分别是以MCP为代表的开放协议标准化路径；以CLI为代表的系统环境控制路径；以及以Computer Use等为代表的图形界面操控路径。从这三条路线看，其分别对应不同的抽象层级与应用场景。

①协议类工具调用，以MCP协议为例

协议类工具调用的实现方式主要是将工具调用方法写入双方协议并将协议内容作为模型上下文，从而规范大模型的输出格式以调用工具，例如MCP协议、A2A协议等，其中又以MCP协议最具代表性。MCP协议，全称 ModelContextProtocol，即模型上下文协议，是由Claude模型的研发者Anthropic公司提出并开源的一项开放标准。OpenAI于2025年3月宣布接入MCP协议，随着多个国际巨头不断接入MCP协议，2025年该协议进入了快速发展期，号称要成为大模型领域的“USB-C接口”。

MCP协议将外部平台暴露的所有工具、API信息集成为一个包含工具接口、工具功能、调用方法、传入参数、返回信息以及调用示例等的工具列表。一方面，大模型仅需要获取第三方平台的MCP工具列表，便可以按照列表内容格式发送请求执行任务；另一方面，第三方平台只需要按照MCP协议要求，将对外暴露的API整理为一份MCP工具列表便可以被大模型发现并调用。相较于过去用户根据API驱动大模型执行功能调用（FunctionCall）的方法，MCP方案显著降低了用户对接第三方平台的工作量。

一个标准的MCP服务遵循client/server结构，包括以下几个组成部分：主机，即负责处理问题、向MCP服务器发送请求的大模型，例如Claude、DeepSeek等；MCP客户端，即在主机程序内部，与 MCP服务器保持 1:1的连接，是用户、大模型信令中转的桥梁；MCP服务器，即为MCP客户端提供大模型所需的上下文、工具列表和提示词，同时负责用户鉴权；资源，即本地或网络中可由API调用的可安全访问的资源（例如文件、数据库等）。一次完整的MCP协议服务需要经过以下流程：用户向MCP客户端发起请求，客户端将请求转发给MCP主机，由MCP服务器完成用户鉴权，同时将现有的工具、资源列表以及用户问题发送给大模型，大模型根据现有工具和资源列表决定需要使用的工具和资源及其调用方式，并把调用这些工具的格式化请求发送给客户端，客户端转发给MCP服务器，MCP服务器根据大模型的指示完成对应操作，将获取到的结果发送回大模型，由其整理后发送给MCP客户端，最后转发给用户。

②环境控制类工具调用，以CLI工具为例

另一种典型的工具调用技术路径则更为直接，通过大模型编写脚本调用系统工具获取信息、执行任务，其中CLI工具应用最为广泛，下文将以此为例介绍该类型工具调用技术。2026年1月，智能体OpenClaw爆火社区并迅速完成了“破圈”，短短两个多月时间便在GitHub收到超过30万的星标，如谷歌、豆包、元宝、Kimi等国内外大厂纷纷下场与OpenClaw展开合作，使得“龙虾”成为了近两年来难得的现象级AI产品。而OpenClaw的爆火也让命令行界面（CommandLineInterface）这一计算机最古老的操作方式重新引起业界的重视，在智能体时代获得了全新的生命力。与专门为人类视觉操作设计的图形用户界面（GUI）相比，CLI背靠计算机行业几十年发展积累下的成熟环境，具有确定性文本内容输出、可组合性指令、低带宽需求等优势，天然更加适配大模型的文本处理范式。

在CLI范式下，用户通过对智能体下达指令，智能体在本机执行组合命令行指令的方式调用计算机上各种工具获取输出，相比MCP范式更加轻量化。同时，由于大模型在训练时就已经掌握了主流的CLI语法规则以及FFmpeg、Python等常见工具的使用方法，所以不需要再进行工具使用协商，而一些大模型没掌握的工具，也可以通过调用工具自带的help方法进行学习，这点大大节省了词元（token）的消耗。而对于特殊的CLI工具以及调用工具的规则，则需要智能体技能（Skills）的帮助。

Anthropic在2025年10月推出了AgentSkills，并于12月将其作为一套开放标准发布。Skills是对CLI范式下模型调用的必要补充，作为调用agent时输入的模型上下文，其涵盖范围不仅覆盖了CLI工具使用方法，还包含很多灵活的用法，它可以规定智能体在什么条件下调用何种工具来解决什么问题，并规定好智能体的反馈模式，例如近期大火的将同事“蒸馏”为Skills案例便是将人类的交互模式作为智能体的输出样板。以OpenClaw为例，一个典型的CLI范式的智能体架构包含以下四层：外部入口层，可以是web页面、聊天软件等，用户通过该层向智能体下达任务；网关层，负责管理会话列表并进行鉴权，是连接大模型与外部工具的桥梁；智能体层，部署大模型或大模型接口并为其配置Skills文件，当智能体收到用户请求时，通过搜索列表获取最适合解决问题的Skills，并将该Skills作为模型上下文与用户请求一并输入给大模型，生成CLI调用指令；执行层，负责执行CLI指令与用户权限管理，并将输出反馈给大模型。

③面向图形界面的工具调用

在MCP和CLI之外，还有一类面向GUI的工具调用方法，即通过智能体获取手机、电脑桌面的图像画面并输出鼠标、键盘操作信号来执行任务。这一路线凭借其接近人类操作方式的理念独树一帜，自1990年微软推出windows3.0系统以来，计算机操作系统以及其软件在遵循着GUI设计这种人类视觉-动作回路操作方式的技术路线上取得了巨大的成功。这种依赖点击、拖拽等操作的设计因其更符合人类视觉动物的特点，成为了目前操作系统和软件生态的主流。很显然，如果AI可以直接通过图形界面控制计算机执行任务，就无需对现有系统和软件做任何适配，直接复用现代主流的GUI操作方式，同时也最接近于人类的操作习惯。中国移动正在布局的云电脑、云主机等业务，也与这种调用模式息息相关。

面向图形界面的工具调用这一方案在2024年随着视觉-语言-动作（VLA）模型的成熟取得突破，使智能体具备了“看屏幕、理解界面、执行操作”的能力，突破了传统大语言模型的能力边界，向视觉智能体方向发展。目前市面主流的技术方案有以下两种：Anthropic公司于2024年10月推出的 Computer Use（云端桌面自动化功能），和字节跳动于2025年1月推出的UI-TARS（原生GUI理解功能）。这两种技术方案均为由AI接管鼠标、键盘操作，通过计算机桌面图像获取信息并执行任务，其区别主要体现在模型选择上。其中ComputerUse功能采用了Claude通用视觉模型配合特定提示词方案，而字节跳动则收集了大量屏幕录制-操作序列对，建立了GUI专用的视觉-动作语料库，并有针对性地对模型进行了预训练与微调，采用专有模型实现GUI理解、操作。

2、三种模式的对比分析

①MCP与CLI的技术博弈

未来的智能体发展趋势是使用协议工具还是应该调用命令行执行任务，这个问题在OpenClaw爆火，MCP“式微”的当下成了热门话题。虽然CLI与MCP并不在智能体架构的同一层级，一个是协议层面另一个则是模型调用的工具，不是完全的竞争关系。但CLI事实上取代了很大一部分原有MCP的功能。诸如OpenClaw一类的智能体全面采用CLI方案而非MCP，另外包括Perplexity在内的多家公司也宣布放弃MCP方案，一时间业内关于CLI将会取代MCP的声音不绝于耳。

首先，相较于MCP，CLI有以下两方面优势：一是节省词元消耗，由于调用MCP协议需要模型将所有工具的全量调用方式作为模型上下文，而CLI则可以依靠模型本身知识或者读取skills描述，选择对应skills完成任务，skills支持从列表到详细信息的渐进式披露，一般情况下这两种方式词元的消耗量均小于MCP模式，据试验MCP模式的词元消耗量约为CLI模式的20倍。二是执行复杂任务更便捷，MCP模式在执行多种任务组合的工作流时需要逐个调用工具，得到反馈后调用下一个工具，而CLI模式则可以通过管道符组合多条CLI指令的方式一次性解决工作流任务。

但是，采用CLI指令执行任务在安全性上有天然的劣势，即使是经验丰富的程序员，也很难检查出一系列复杂CLI指令背后的潜在风险，这也是OpenClaw容易误删文件的原因，另一方面skills的高权限也很容易被注入漏洞。这些都决定了CLI方案更适合灵活且安全要求低的个人用户，而MCP方案在企业级应用上凭借其可控性和安全性依然不可取代，成熟的企业级智能体需要结合二者的优点，例如ClaudeCode。

②GUI模式：第三条路线的优势和局限

相较于MCP和CLI，目前GUI模式还存在明显的限制，一是多模态大模型能力不足，多模态大模型目前在复杂任务和视觉任务的处理能力上相对较差，导致智能体执行任务缓慢、成功率低；二是词元消耗量过高，当前仅对单帧1920×1080的屏幕内容图像词元化之后就需要占用约2125个词元，成本过高。

表1 几种智能体优劣势对比

尽管目前很多服务为了适配智能体都做了MCP协议适配或CLI化的设计，但是目前绝大多数的应用软件，尤其是绘图、设计领域，GUI界面依然是最主要的操作方式，同时GUI智能体也是与人类操作方式最接近的智能体，更容易被人类管控过程。人类通过视觉智能体远程控制云电脑完成任务，并通过GUI全程监督和调整AI的执行过程，相较于黑箱智能体模式，更加符合人类的操作习惯。智能体未来的局面，可能出现的结果是三者结合使用，对于企业级应用需要MCP协议确保安全边界，而个人用户需要CLI工具的灵活与低成本，而视觉方案可以供用户低门槛使用和零成本对接第三方工具从而大大拓展智能体的生态环境。

③算力难题：三条路线背后的幕后推手

通过观察三种智能体工具调用技术的发展脉络我们可以发现，现阶段在模型能力以外，词元消耗量及其背后的算力成本是制约智能体发展的关键因素，无论是MCP被CLI“反超”，还是图像工具调用技术难以普及，其背后均有算力资源昂贵、词元消耗过高的原因，而即使是采用词元消耗量最低的CLI模式，其花费也依然让普通人望而却步。在算力资源采购成本居高不下，算力需求与日俱增的当下，通过算网一体化调度，做好算力资源分配、数据与媒体的高效传输便成了高效利用存量资源，降低算力成本的有效方法，是缓解“算力焦虑”的可行方案。

3、总结

通过对目前主流的智能体工具调用技术的对比与观察，在AI时代，算力资源的紧张将会愈加严重并且这种稀缺带来的成本高企制约了智能体的发展。而搭建一张集网算存资源于一体高效调度的智能传输网络，从而优化算力资源分配，保障数据传输，降低智能体使用成本，变得十分重要。目前移动研究院团队在视联网建设的基础上积极探索AI时代的未来网络架构、词元及媒体流传输协议与词元编解码算法，预期打造一张智能体通信的高速传输网络。

【我们尊重原创，也注重分享。版权原作者所有，如有侵犯您的权益请及时联系，我们将第一时间删除。分享内容不代表本网观点，仅供参考。】

上一篇：从固定摄像头到无人机联动，立体视联网如何让城市拥有空中之眼？

下一篇：“比特”和“瓦特”联手，会如何影响我们的生活？