人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出卓越的能力,挑战了我们对学习和认知的理解。OpenAI 最新开发的 GPT-4 [Ope23] 模型是使用前所未有的算力和数据量进行训练的。在本文中,我们报告了我们对 GPT-4 早期版本的测试,当时 OpenAI 仍在对其进行开发。我们认为(这个早期版本的)GPT-4 属于新一批 LLMs(如 ChatGPT 和 Google 的 PaLM),这些模型比以前的 AI 模型展现出更普适的智能。我们讨论这些模型不断提升的能力和影响。我们证明了除了其对语言的掌握外,GPT-4 可以完成涉及数学、编程、视觉、医学、法律、心理学等新颖而困难的任务,同时无需任何特殊提示。此外,在所有这些任务中,GPT-4 的表现与人类水平的表现非常接近,并且通常远远超过了先前的模型,如 ChatGPT。考虑到 GPT-4 的广度和深度的能力,我们认为它可以被合理地视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对 GPT-4 的探索中,我们也需要特别强调我们发现的其局限性,并讨论了迈向更深入和全面的 AGI 版本所面临的挑战,包括可能需要追求超越下一个单词预测的新范式。最后,我们对最近技术飞跃的社会影响和未来的研究方向进行了反思。