访谈：Christian Gibson | 探索后端系统的细节

原地址：https://openai.com/blog/discovering-the-minutiae-of-backend-systems

访谈时间：2022年12月8日

Christian Gibson 是 OpenAI 超算团队的一名工程师

common.docs_name - LarkCCM_Docs_Menu_Image

最初是什么引起了你对工程的兴趣？

我很幸运在很年轻的时候就发现了编程，并用它作为一个入口去探索其他话题。在中学时，一个朋友向我介绍了BASIC编程语言的一种特殊风格，这种语言内置在德州仪器的计算器中（由于每个程序限制 27 个单字母变量并且严重依赖 GOTO 语句，我的代码可以预见地无法维护）。尽管如此，我们还是创建了一些简单的程序，比如基于文本的冒险游戏，一个用于连接计算器的聊天应用，以及常用的二次方程助手。​

后来，我写了更复杂的程序：一个用于说明牛顿原理的可视化助手和一个用于估算行星及其卫星位置的轨道计算器，这引起了我学校Linux俱乐部的关注。不久后，我开始与NDISwrapper斗争，试图使我的CardBus基础的WiFi适配器工作，并使用Compiz设置我的桌面窗口！通过代码发现的这种模式在高中和之后的时期一直持续下去，导致了我今天对工程的兴趣。​

什么使你来到OpenAI？

在我上一份工作中，我从后端角色转移到了全栈职位，只是为了发现我对前端工作和界面设计不感兴趣。我想回到一个更接近后端系统的角色，并且想念我在学术界享受的与Linux环境的交互。OpenAI提供了我所寻找的工作变化，而且还有更多；你很难找到一个比在OpenAI的超级计算集群上工作更适合我正在寻找的东西。​

在OpenAI，你主要关注解决哪些问题？

探索性的AI工作流本质上是快节奏的；研究者希望能够从arXiv上获取预印本并测试新的方法，而不被他们在上面运行代码的平台所拖累。他们也是难以置信地复杂，研究者行为更像数学家——依赖他们在职业生涯中建立的直觉来设计解决方案，来解决本周引起他们关注的任何问题。这些运行时在世界上最大的一些超级计算机上执行，增加了另外一层复杂性，处理这倒数第二层是我团队参与的地方。我们努力在研究需求阻碍进展之前先发制人，如果做不到这一点，我们会与研究团队合作，尽快确定瓶颈并实施变通办法。​

你认为在OpenAI从事超级计算与在其他地方有什么不同？

我们运营的规模，坦白说，是令人震惊的。第三方硬件供应商经常私下告诉我们，我们遇到的问题他们以前从未见过。这通常是因为我们的安装在单一连续的超级计算机中有更多的硬件，比他们的其他客户要多，尽管偶尔是因为我们的性能期望。大多数模型训练方法的同步特性导致了一个配置，其中整个集群实际上以最慢的节点的速度运行。​

我们最著名的模型在价值十亿美元的超级计算机上进行训练，因此，我们最终追踪那些大多数其他人会忽略的性能降低。看到像单行更改这样的事情命中主线内核是令人兴奋的，知道它每周将节省约 6 天在我们的队列中的计算时间，或者在新的驱动程序版本上看到一个行项目，知道它是我们的发现导致了现在上游的修复，这是令人兴奋的。​

对你来说，OpenAI的典型一天是怎样的？

访谈：Christian Gibson | 探索后端系统的细节​

访谈：Christian Gibson | 探索后端系统的细节