Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping
Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping
Background
MLLM在从UI模型生成UI代码的任务中显示出卓越的性能,然而现存的基准测试仅局限在静态网页,忽略了动态交互。
Findings
- MLLM难以生成交互部分
- MLLM容易发生10种类型的故障:
- 交互元素缺失
- 无交互
- 错误交互元素
- 交互元素类型错误
- 交互元素位置错误
- 交互后影响元素位置
- 交互后元素类型错误
- 交互元素对象错误
- 部分交互
- 功能错误
- MLLM在视觉上不明显的交互上表现不佳
- 单一的视觉模态描述无法让MLLM理解交互
Improvement
- 为交互式元素应用视觉标记
- 利用故障感知提示使MLLM避免潜在故障
- 视觉显著性增强
- 视觉和文本描述结合
Methodology
This post is licensed under CC BY 4.0 by the author.

