基于LLM的UI自动化:探索大语言模型与移动端UI自动化的深度融合

中期汇报:基于LLM的UI自动化 探索大语言模型与移动端UI自动化的深度融合 1. 项目背景 随着移动应用生态 […]

中期汇报:基于LLM的UI自动化

探索大语言模型与移动端UI自动化的深度融合

1. 项目背景

随着移动应用生态的迅猛发展,用户对智能交互的需求日益增长。传统UI自动化工具(如Appium)依赖预定义脚本,难以应对动态界面和复杂任务。

核心目标

构建一个能够“看懂”手机界面、“听懂”用户指令并自主完成操作的智能代理系统。

背景

图 1:项目背景与概念演示

2. 技术路线

本项目采用了分层架构设计,确保系统各模块解耦且高效协作。

路线

图 2:技术路线架构全景图

UI感知层

  • 使用YOLO模型进行图标检测
  • 使用OCR技术识别界面文本内容
  • 利用视觉模型进行语义理解

语义理解层

  • 整合用户指令、当前UI状态及历史记录
  • 通过大语言模型进行上下文理解

动作规划层

  • 解析LLM输出的高层动作
  • 将抽象动作映射为具体坐标或控件标识

执行与反馈层

  • 通过ADB执行具体操作
  • 实时获取新界面状态,形成闭环反馈

3. 项目目标与设计机会

目标

图 3:项目核心目标与设计机会分析

4. 当前进展

4.1 多App UI识别能力拓展

针对拼多多、得物、淘宝等应用的典型页面构建了结构化UI数据集。

数据集

图 4:结构化任务数据集

4.2 知识库驱动的操作增强

构建了轻量级操作知识库,涵盖常见用户意图及异常处理策略。

知识库

图 5:集成至Agent决策流程

5. 项目意义与创新点

01 从单点到泛化 系统性解决跨App UI理解难题。
02 知识+LLM双驱动 兼顾准确性与灵活性。
03 强调可评测性 引入外部Agent与标准测试集。

6. 下一步计划

  1. 完善知识库体系:扩展至淘宝、得物。
  2. 提升UI解析鲁棒性:优化针对动态内容的感知。
  3. 加速评测体系建设:完成LlamaTouch测试。