SheetAgent是一个通过大型语言模型(LLM)实现,用于电子表格的推理和操作的通用智能体。SheetAgent旨在解决电子表格操作中存在的复杂和现实任务,这些任务需要推理挑战,例如长视野操作和模糊要求。为了应对这些挑战,提出了SheetRM基准测试,它包含了依赖于推理的多步骤任务。SheetAgent由三个协作模块组成:规划器(Planner)、信息提供者(Informer)和检索器(Retriever),它们共同实现电子表格的高级推理和精确操作。SheetAgent能够自动处理多样化的电子表格推理和操作任务。面对包含多个工作表的大规模电子表格,该图展示了其在可视化(f)方面的专业能力,并在长期和多步骤任务(a, b)上实现了准确的操作,同时保持了一致的推理能力(c, d),即使面临不清晰要求(e)等挑战。
- 规划器(Planner):通过生成Python代码来操作电子表格,采用闭环规划过程,通过反馈和反思实现精确控制。
- 信息提供者(Informer):生成特定于子任务的SQL查询,帮助规划器处理推理挑战。
- 检索器(Retriever):在遇到错误时,从代码库中检索高质量的代码示例,帮助规划器进行更有效的纠正。
SheetAgent概览。SheetAgent由三个关键组件组成,包括规划器(Planner)、信息提供者(Informer)和检索器(Retriever)。规划器通过虚拟沙箱以ReAct方式与目标电子表格进行交互。信息提供者提供特定于子任务的SQL查询,其执行结果作为规划器处理推理挑战的依据。当遇到错误时,检索器被激活以检索类似的教程代码片段,有效纠正错误。

用于开发和评估基于LLM的代理,以处理具有高级推理能力的精确电子表格操作SheetRM的概述和特性

SheetAgent在多个基准测试上实现了显著的性能提升,与基线相比,传递率(Pass Rate)提高了20-30%,在电子表格操作的准确性和表格推理能力方面表现出色。两个操作任务数据集:SheetCopilot Benchmark (SCB) 和 SheetRM,3个推理能力数据集:WikiTableQuestions (WTQ)、FeTaQA 和 TabFact

SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Modelshttps://arxiv.org/pdf/2403.03636.pdfhttps://github.com/sheetagent/sheetagent.github.io