手机竟能“点屏幕”,这一创新让人不禁思考,连看似笨拙的AI都有了光明的未来
手机竟能“点屏幕”,这一创新让人不禁思考,连看似笨拙的AI都有了光明的未来。回顾去年11月,荣耀为Magic 7 Pro的发布策划了一场别出心裁的事件营销。荣耀CEO赵明现场演示了AI Agent YOYO通过美团下单2000杯瑞幸饮料的壮观场景,尽管这一行为略显荒诞,但它成功吸引了公众眼球,更重要的是,它背后所展示的技术——“基于GUI的个人AI智能体”值得我们深入探讨。 这项技术的核心在于“GUI”,即图形用户界面。与传统的API接口不同,YOYO拥有了一只虚拟的“手”,能够直接在图形界面上进行操作,且这一切都在用户眼前实时发生。当然,市售机型的体验与发布会演示可能有所不同,但目前的技术已展现出巨大的潜力。 YOYO的核心是多模态模型,GUI交互则融合了语言和视觉的理解。它不仅能理解自然语言指令,还能感知屏幕状态,识别界面元素,并进行拟人化操作。这一过程中,YOYO可能利用了手机的无障碍功能或底层权限来控制屏幕点击事件。 与谷歌通过API调用实现AI Agent功能的方式相比,荣耀的GUI模拟前台操作在逻辑上形成了鲜明对比。它绕过了API调用的商业博弈和数据成本,能够更快、更容易地扩充支持的应用,改善用户体验。同时,它避免了数据归属和隐私安全等问题,使得荣耀无需向第三方平台支付API费用。 这种“返祖”式技术路径让人联想到谷歌的Duplex AI电话助手。它通过模拟人类打电话的方式订餐,在当时同样令人耳目一新。如今,荣耀的GUI-based AI Agent也在用原始与先进相结合的思路,探索全新的可能性。 对于用户而言,这种AI Agent无需学习成本,简单直白;对于第三方应用和服务平台而言,也几乎无需额外的开发成本即可接入。它降低了门槛,提高了兼容性,既是对传统人机交互的致敬,也为AI Agent的落地和体验提升提供了新路径。 展望未来,我们需要两种AI Agent:一种是高智商型,能够解答复杂问题;另一种是懂事能干的执行型AI,能够轻松完成用户的简单指令。基于GUI的AI Agent正是后者的典范,它门槛低、上限高、适应性强,未来或将广泛应用于各种场景。 随着大模型与UI的结合,人机交互将迎来前所未有的重新定义。尽管GUI历经半个世纪发展仍是人机交互的主流,但新的操作系统和交互方式正逐渐清晰。在这个充满变革的时代,让我们共同期待AI带来的更多惊喜吧! 你是否也对AI的未来充满期待呢?欢迎与我分享你的看法!







