如今,手机上的AI助手已经进化到只需一句话就能跨应用自动点咖啡、点外卖、甚至购物。这些功能常常被当作宣传卖点出现在发布会上,但实际上我们普通用户也能亲手在手机上搭建一个这样的AI Agent,而且操作简单,还不用root手机。接下来,我就手把手教你怎么做。
在开始教程前,先看看我们需要准备哪些工具?
其实东西不多,都是现成的。你需要一部安卓手机,版本最好在Android 10以上,太老的系统可能跑不动。
软件方面,核心是三个:AutoGLM For Android这个App(可以从GitHub或酷安下载)、Shizuku(用来给App授权)、以及一个智谱BigModel平台的账号。模型用的是智谱专门为手机操作训练的AutoGLM-Phone,目前还是限时免费的。
接下来是具体步骤:
第一步是开启手机的“开发者模式”。这个其实很简单,进到「设置」里找到「关于手机」,然后对着「版本号」连续点七下,手机会震动一下提示你已经是开发者了。返回设置主菜单,就能看到一个新增的「开发者选项」入口。
接下来安装Shizuku。这个App的作用是让AutoGLM能拥有一些系统级的权限,但又不用真的去Root手机。安装好后打开它,选择「无线调试」的方式激活。
这时候你需要回到「开发者选项」里找到「无线调试」,打开后点击「使用配对码配对设备」,屏幕上会弹出一串IP地址和配对码。把这串码输入到Shizuku里,配对成功后它就会显示“正在运行”。
然后是安装AutoGLM App。从酷安或者GitHub上把APK下载下来装上,打开后会看到一连串的权限申请,全部允许就行——特别是Shizuku权限、无障碍权限和悬浮窗权限,少一个后面都跑不起来。
现在到了最关键的一步:获取API Key。
去智谱的BigModel平台注册一个账号,登录后你会看到一个搜索框,直接搜“autoglm-phone”就能找到这个模型。点击开通,目前是免费的。开通之后,去「API Keys」页面创建一个新的Key,复制下来备用。
回到AutoGLM App的设置里,找到模型配置,把刚才复制的Key填进去。Base URL要写成https://open.bigmodel.cn/api/paas/v4,注意不要画蛇添足在后面加什么 /v1/chat/completions。Model这一栏直接填autoglm-phone,一字不差。
全部配置好之后,回到主界面,试试你的第一个指令。输入“打开微信,给文件传输助手发一条消息,内容是‘你好,AI’”,然后点击开始。
你会看到屏幕上弹出一个悬浮窗,上面显示着AI的思考过程——它正在识别屏幕上的按钮,规划下一步操作。然后微信自动打开了,找到了文件传输助手,输入了文字,点了发送。整个过程就像有人在远程控制你的手机,那种感觉真的很奇妙。
那些我替你踩过的坑:
我和很多小白一样,对工具了解有限,因此一开始尝试时也走了不少弯路。最大的坑是选错了模型。一开始我用的Doubao-1.5-pro,发现无法实现后才明白,AutoGLM需要的不是普通的对话模型,而是专门为手机操作训练的视觉模型,比如智谱的autoglm-phone或者其他的视觉模型。前者是官方搭配,成功率最高。
另一个常见的坑是Base URL的写法。AutoGLM App会自动拼接后面的路径,所以你只需要填基础地址。如果画蛇添足加上 /v1/chat/completions,就会报“服务器错误”。
Shizuku的激活也是个容易出问题的环节。如果无线调试一直配对不上,可以试试用USB线连接电脑,在电脑终端里执行一条命令来激活。具体命令在Shizuku的官方文档里有,照着做就行。
还有一个经验是:指令越具体,成功率越高。AI不是读心术,你说“帮我点一份黄焖鸡”,它可能真的只点一份黄焖鸡米饭,但不会帮你选门店、口味、优惠券。如果改成“打开美团,搜索黄焖鸡,选销量第一的那家,点大份,然后停在付款界面”,它就能一步步执行到位。
这件事的意义在哪?
说实话,我折腾下来最大的感受是:最终效果并没有我预想中那么好用。操作不够流畅,偶尔会卡住,远远谈不上完美。那为什么还要费劲体验它?
首先,这是一种很新颖的交互方式,这种质变本身就值得亲自感受一次。
更重要的是,基于这套思路,我们可以搭建更有意思的东西。比如既然AutoGLM App底层调用的是语言模型(GLM-4.5等),它本身就具备自然对话能力,完全可以实现一个能陪你聊天的私人助手。而且现在模型已经开源,你甚至可以把它部署在自己的设备上,调教出一个真正懂你、只属于你的AI。
说白了,这件事最有意思的地方不是它现在有多好用,而是你自己动手、探索的过程,看着AI真的按你的指令动起来,哪怕只是发出一条微信,也是十分有趣的。