分享
OpenAI o1 代码能力实测
输入“/”快速插入内容
OpenAI o1 代码能力实测
飞书用户4392
飞书用户8114
2024年9月13日修改
🔗 原文链接:
https://mp.weixin.qq.com/s?__biz=MzIz...
⏰ 发表时间:2024-09-13 原创 ElliotBai
今天 OpenAI 终于发了新模型,大家都很兴奋。
奥特曼说它推理很厉害,写代码很厉害,官方也演示了一段用 HTML 和 CSS 写 Transformer原理的视频。
刚好我之前也搭建了一个 UI 生成的工具,于是连夜就让OpenAI 的新模型来挑战了一下现在的前端代码擂主:克劳德!
用实战来看能不能挑战成功!
(之前在我的工具环境中测试下来,Claude 遥遥领先,OpenAI 在前端代码能力上,跟 DeepSeek 不相上下)
参赛选手:
OpenAI - o1-mini,OpenAI - 01-preview,claude-3-5-sonnet-20240620
参赛规则:
•
统一走中转 API(公平公正)
•
相同的工程环境(React,给的相同的组件库)
•
每一局每位选手最多有 3 次机会,一次成功得分最高。
◦
如果失败,则会把报错信息给到模型继续修改,相应分数也会有折扣
题目:
Claude 和 OpenAI 各出了一套,最后各选一半
评分指标:
1.
任务完成时间(30分)
a.
0-10s:30
b.
11-20s:20
c.
21-30s:10
d.
31s+:5
2.
代码准确性(30分)
a.
第1次成功:30
b.
第2次成功:20
c.
第3次成功:30
d.
未能成功:0
3.
美观与结构(20分)
a.
主观打分
4.
功能实现程度(20分)
a.
满级:20
b.
次满级:15
c.
马马虎虎:10
d.
偏离预期:5
结论放在最后了~
第 1 局
题目:
设计一个简洁的个人博客首页,包含博主简介、最新文章列表和一个简单的导航栏。
•
Claude