通过使用 GPT-4o (GPT-4o) 在 ARC-AGI (ARC-AGI) 任务中取得 50% 的成绩，目前这是最先进技术 (SoTA)。 - Getting 50% (SoTA) on ARC-AGI with GPT-4o

Getting 50% (SoTA) on ARC-AGI with GPT-4o

主要内容

研究背景与目标：
- 作者通过使用 GPT-4o 在 ARC-AGI 数据集上实现了 50% 的准确率（达到了当前的最新状态，即 SoTA），相较于之前的 34% 准确率有显著提升。
实现方法：
- 生成大量样本：生成大约 8,000 个 Python 实现，并基于这些实现对示例的正确性进行筛选。
- 多种改进方法：
  - 使用 few-shot prompts 执行步步推理。
  - 通过对示例输出进行验证后修正部分实现。
  - 特征工程：提供更好的网格表示。
  - 针对 ARC-AGI 问题的主要分类（网格大小变化与否）使用专门的 few-shot prompts。
ARC-AGI 简介：
- ARC-AGI 是一个用于评估 AI 一般推理能力的数据集，包含视觉问题。任务是从每个问题提供的输入输出对中猜测转换规则，并应用到测试输入上。
性能分析与预测：
- 作者讨论了他们的方法优化过程，包括样本增加、提示和代码修正等，以及进一步提高性能的可能性。
- 提到了当前策略下增加计算资源会带来额外的性能提升，并根据对比不同的 prompt 版本，揭示了改进提示和修正步骤的重要性。
对现有 LLMs 的评论：
- 文章讨论了 François Chollet 关于当前大型语言模型（LLMs）不能实际学习的观点，并给出了与当前研究结果相悖的证据。
总结与风险评估：
- 强调了大规模计算资源和合适工具在提升 LLMs 解决复杂任务能力中的重要性。
- 讨论了 transformaive AI（TAI）的潜在风险，并呼吁对 AI 发展予以更多关注和谨慎。

结论

作者展示了通过大量生成和筛选 Python 实现来提升 ARC-AGI 数据集上的性能的有效方法，并讨论了其对现有 LLMs 能力的影响和潜在的未来方向。文章还对传统观点和风险评估提出了见解，为进一步的 AI 研究提供了有价值的参考。