EP 99 · 46 min
哪种用户交互方式将成为人工智能时代的未来?
从1970年代的窗口、图标、键盘和鼠标,再到今天ChatGPT的对话框,世界用了50年才把用户交互"驯服"成现在的样子。这期播客我们为您介绍在人工智能时代可能的五种用户交互方式:自然语言+多模态,智能代理Agent,零用户界面,元宇宙和脑机接口。谁能打破传统的GUI,成为AI时代的未来?
在此页收听 / Listen here
这期讲了什么
AI时代的五种用户交互方式,谁能打破图形用户界面的美妙诅咒——
- 自然语言和多模态交互:ChatGPT对话框从OpenAI的”临时工”方案,意外成为全球大模型交互的标准模式;自然语言交互经历三次升级——提示词工程让AI听懂指令,上下文工程让对话从单轮变多轮,RAG给AI挂载了私有知识库;交互进一步从文字扩展到语音助手和多模态——用手势圈出图片、用语音提问,已经无限接近人与人之间的交流方式
- Agent带来的AX:AI代理不仅能”看懂”屏幕上的按钮菜单,还能通过MCP等协议直接控制应用程序,成为软件的”第一类用户”;传统RPA工具”按坐标点击”的脆弱自动化,被能理解语义和意图的AI代理所取代;用户与技术的关系从”我来操作”变为”AI代我操作”;Kora AI、Replit Agent等案例展示了AI代理的实际能力;设计范式从以屏幕为中心的UX,转向以关系为核心的AX(代理体验);挑战包括自动化悖论、透明度缺失和可解释性难题
- 零用户界面和环境感知计算:前两种方式仍未跳出GUI的枷锁;AI可以动态实时生成用户界面,按需呈现按钮、图表或时间线视图;到2030年预计90%的界面将由AI定制生成;零用户界面(Zero-UI)让系统根据你的习惯和位置自动提供服务;环境感知计算(Ambient Computing)让AI像空气一样无处不在;未来的界面应该像水一样流动,适应每个人独特的认知风格
- 元宇宙带来沉浸式交互:VR/AR沉浸式体验的追求从1838年立体视觉起已延续近两百年;AI是元宇宙的核心引擎,没有AI就没有真正的沉浸感;真正的范式转变不在于空间维度从二增到三,而是从”指令驱动”转向”意图驱动”;“生产力悖论”——沉浸式UI在专业培训、医疗、制造领域效果显著,但在通用日常任务中屡次失败,用户尝鲜后又回到2D屏幕;技术和非技术障碍并存:处理能力、电池续航、晕动症、高昂成本、隐私担忧
- 脑机接口打开”潘多拉魔盒”:BCI分三类——侵入式(精度高,需手术)、非侵入式(方便,信号差)、半侵入式(寻找平衡);两个核心难题:如何从大脑”读取”信息,以及如何向大脑”写入”信息;目前运动意图解码已有成果,但对意识本质的理解仍是终极障碍;一旦真能干预意识,将引发记忆编辑、情绪编程等深刻伦理挑战——这才是潘多拉魔盒真正危险的地方
- 技术心智模型是最大挑战:不管技术多先进,人类大脑的”系统1”依赖本能习惯,“系统2”才会费力学习新模式;每个人脑中固化的”技术心智模型”决定了我们如何看待新交互方式;乔布斯推广触摸屏的艰辛证明,改变心智模型比技术创新更难;未来设计师必须同时是心理学家,帮用户建立新的认知框架
几个关键判断
- 前两种交互方式仍困在GUI的”美妙诅咒”里——无论用自然语言、语音、手势还是Agent,最终操作的依然是传统图形界面的按钮和菜单;真正的交互革命,需要从根本上重构我们与技术的关系
- AI才是这场变革的主角,不是某种特定的设备形态——元宇宙之所以现在还无法取代GUI,不是因为VR/AR技术不够好,而是因为没有足够成熟的AI来实现”意图驱动”的交互;AI是所有新交互方式的共同引擎
- “生产力悖论”揭示了元宇宙的真实处境——高参与感与低通用性之间的矛盾,说明沉浸式界面的未来是补充而非替代;在高价值专业场景发挥所长,在通用日常场景继续让位给AI增强的2D界面
- 技术心智模型是所有新交互方式的终极障碍——历史一再证明,再好的技术,如果跟用户脑中既有的认知框架对不上,就会被打上”难用”的标签;未来的设计不只是技术工程,更是认知工程
时间轴
- 01:28 当前的AI交互方式:从对话框中的自然语言到多模态
- 06:31 Agent智能体替代人类用户:从表达需求到表达目标
- 13:58 AI驱动未来交互方式:从零用户界面到环境感知计算
- 20:27 元宇宙的世界:AI驱动的混合交互才是未来
- 30:07 脑机接口:打开意识的潘多拉魔盒
- 37:49 总结:不管面对什么样新型的交互方式,用户习惯才是最大的挑战
推荐阅读
- 个人长文:《哪种用户交互方式将成为人工智能时代的未来?》
- Jakob Nielsen: “Farewell to UI Design, Hello to AI Agents”
- Neuralink: Current BCI Research