
第一位人工智能软件工程师震惊硅谷!手里拿着10枚IOI金牌,他们决心要毁掉程序员的工作。
当我醒来的时候,程序员担心他们真的会失去工作。
第一位AI软件工程师的登场,直接引爆了整个科技圈。它只需要一个命令就可以端到端地处理整个开发项目。
在sw -bench基准测试中,它在没有人工帮助的情况下解决了13.86%的问题。
相比之下,GPT-4只能处理1.74%的问题,而且两者都需要人工提示来告诉它们要处理哪些文件。
可以说,它远远超过了之前所有的大型AI模型。
从零开始建立一个网站,自己发现和修复错误,甚至训练和微调自己的人工智能模型都很容易。您还可以为一些成熟的代码库做出贡献。
只要给它看一篇关于一些不熟悉的技术的博客文章。它也可以在短时间内完成。
例如,使用ControlNet生成带有隐藏文本的图像,Devin只需点击一下即可使用~
据报道,它已经成功通过了一家人工智能公司的面试,并完成了Upwork的实际工作。
这背后的公司,认知,虽然是一家初创公司,但规模很小,但能力很强。
招聘信息中清楚地写着:我们有10名国际奥委会金牌获得者。
让同事说:哦莫,你疯了~
目前Devin还没有公测,但已经有一小部分人获得了资格,开始了一波实际测试……
首个人工智能软件工程师亮相
Devin被介绍为世界上第一位完全自主的人工智能软件工程师。
它将大量精力投入到长期推理和计划中,并且可以计划和执行需要数千个决策才能完成的复杂软件工程任务。
在此过程中,它可以在任何步骤回调所有相关的上下文信息,以确保整体逻辑,并随时方便错误纠正。
由于Devin是端到端的AI,所以它也配备了软件开发人员常用的工具,如shell、代码编辑器、浏览器等(在沙盒计算环境中),专注于全方位的服务。
最后的Devin,让人类只发号施令,什么都不做。
具体来说,其主要功能包括以下六个方面:
1. 端到端构建和部署过程
Devin不仅可以帮助我们解决代码问题,还可以帮助我们解决与之相关的整个工作流程。
例如,当我们需要设计一个网页游戏时,Devin不仅可以生成网页,还可以直接完成服务器端的部署,然后直接发布到网上,省去了中间的人工操作。
告诉戴文,我们想做一个个人网站运行一个定制版的戴文的人生游戏。
Devin接着说,他会先搭建网站的基本架构,然后问是否还有更具体的需求。
在明确了需求之后,Devin给出了这样一个任务清单:
创建React应用程序,安装UI模块和其他依赖项
使用React和UI模块构建一个前端环境
部署服务器并确保它在私有IP下运行
通过CDN将p5.js库添加到首页
在React中部署并验证游戏的功能和资源是否配置正确
然后,Devin将根据他设计的列表开始编写代码,然后部署服务…
当所有的工作最终完成后,一个点击游戏的链接呈现在我们面前。
2. 独立发现和修复bug
不仅开发和部署可以一次完成,Devin的调试能力也是一流的。
开发人员给了Devin一个GitHub链接,让他熟悉这个项目,然后为测试准备数据。
然后,Devin一步一步地编写测试程序,准备相关数据,然后运行。
因此,在开发人员发布的完整项目中,Devin实际上发现了甚至开发人员自己都没有发现的漏洞。
在发现漏洞后,Devin会追踪到错误的位置和相应的数据,然后分析原因并提供解决方案。
经过最后的调试,程序中的bug被成功修复,测试也完美通过。
3. 训练和微调你自己的人工智能模型
除了这些通用的程序或项目,作为一个全能的人工智能助手,Devin还具有帮助人类训练和微调其他人工智能的能力。
对于一些常见的模型(例如示例中的Llama),用户在推广时只需要提到模型的名称,Devin就会直接知道该训练哪个模型。
在本例中,具体的微调方法(QLoRA)以GitHub链接的形式输入到Devin。
在收到指令后,Devin仍然像一个正常的程序一样计划和执行它。所需的环境和依赖关系,以及模型本身,将被自动下载和安装。
这些准备工作完成后,微调工作将有序进行,并可以实时监控状态。
4. 修复开源库
Devin的能力不仅在于开发者自己的项目,也在于开源社区。
例如,我们只需要将GitHub项目的issue链接丢给Devin,它就会立即完成所有需要的配置,自动收集上下文信息,然后开始解决问题。
当然,来自开源项目的特性请求没有问题。这个过程和解决问题是一样的。您可以自己配置它,收集上下文,然后开始编码。
5. 成熟的生产库也可以发挥作用
它还没有结束,Devin还可以向我们展示成熟的生产库。
根据官方介绍,sympy Python代数系统中存在对数计算错误,Devin成功解决了这个问题:
配置环境、重现bug、编写代码并自己修复它、测试它,一步到位。
6. 不熟悉的技术,现在就学习,现在就销售
最后,当遇到不懂的技能时,Devin可以直接学习并快速付诸实践。
把你的新技术文章的链接直接发给Devin:
嗨Devin !我在这篇博客文章(url附件)中发现,有可能生成带有隐藏文本的图像。文章中提到了一个脚本。你能配置它并为我生成一些图片吗?
Ps,用ControlNet就可以了。
Devin收到请求后,他首先询问了更详细的需求,然后开始阅读博客文章,并像往常一样制定了行动计划。
有了详细的行动计划,在几分钟内立即进行了编码和调试。
同样,如果您在这里遇到bug也不要惊慌,Devin也能够直接修复它们。
在完成工具的构建后,Devin并没有麻烦人类自己配置和使用,而是一气之功,最终生成了我们想要的带有隐藏文本的图像:
可以说,表演相当惊人。
在具体的测试中,德文的结果同样令人印象深刻。
在评估Devin的表现时,团队没有使用常见的Humaneval,而是使用更具挑战性的sw -bench。
该数据集由GitHub中的实际问题组成,Devin在没有任何帮助的情况下达到了13.86%的最高分辨率。
同样在无辅助条件下,GPT-4的问题解决率为零。之前的最佳水平为1.96%,辅助水平仅为4.8%。
全公司每人一枚IOI金牌
在这样一个突破性的新成就背后,是一家鲜为人知的初创公司。
但在这个“鲜为人知”的背后,其实是一个拥有10枚IOI金牌的10位编程天才团队……每人一枚。
Devin背后的公司名为Cognition AI,总部位于纽约和旧金山。它的定位是一个专注于推理的应用人工智能实验室。
该公司在两个月前正式成立,此前一直秘密运作。
这支队伍目前只有10人,但总共获得了10枚国际奥委会金牌。创始成员都曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等AI前沿领域工作过。
据悉,认知AI由Scott Wu、Steven Hao和WaldenYan共同创立。
联合创始人兼首席执行官Scott Wu。根据我们目前掌握的信息,Scott Wu曾就读于哈佛大学,是Lunchclub的联合创始人兼CTO。
连续三年获得IOI金牌;
联合创始人兼首席技术官Steven Hao毕业于麻省理工学院计算机科学专业,此前曾在Scale AI、Jane Street、DE Shaw和Quora工作。
同样是前IOI金牌得主:
联合创始人兼首席运营官瓦尔登曾在哈佛大学学习计算机科学和经济学。他还从事MIT PRIMES密码学和机器学习方向的计算机科学研究。他也是沃顿商学院高中投资竞赛的北美决赛选手。
2020年第32届IOI金牌得主:
根据X的推文的转发,其中一个创始成员被曝光。
尼尔·吴(Neal Wu)也有哈佛大学的教育经历,曾在tryramp和GoogleBrain工作。
整个团队的长期目标是通过解决推理问题,在广泛的学科领域开启新的可能性,而“代码只是一个开始”。
然而,对于Devin来说,他们还没有透露他们是如何实现这一壮举的,包括他们是使用自己的专有模型还是第三方模型。
此外,认知人工智能目前已经获得了2100万美元的A轮融资,由硅谷投资大亨彼得·蒂尔的创始人基金领投。
众所周知,Peter Thiel以发现这种突破性的创新项目而闻名,哈佛背景的企业家与他的关系更为密切。
他在之前的早期投资中也有类似的背景,最著名的是扎克伯格和Facebook。
“自动化软件工程类似于自动驾驶”
当Devin出现时,许多工程师都震惊了:软件工程师……要失业了?? ?
然而,一些人仍然乐观:人工智能最终将我们从繁重的编程任务中解放出来。
前特斯拉人工智能主管卡帕西给出了保证。
自动化软件工程目前看起来与自动驾驶类似。
具体体现在开发过程中:先是人类手工写代码,然后GitHub Copilot自动完成几行,然后ChatGPT写代码块,现在Devin出现了。
接下来,他认为自动化软件工程将演变为协调开发人员编写代码所需的许多工具:终端、浏览器、代码编辑器等,以及负责监督的人,逐渐转向更高层次的工作。
结合Kapasi对自动驾驶的经验和理解,他所表达的更多的是一种渐进的推进,即会有一段时间的人机协同驾驶,然后经过数据和迭代反馈,就可以实现全自动驾驶。
自动化软件也是类似的,首先是低代码,然后是零代码,最后根本不需要任何人编写代码。
困惑AI CEO给予了高度肯定:这应该是任何Agent的第一次演示。
它似乎跨越了人类水平的门槛,而且工作可靠。它还告诉我们结合LLM和树搜索算法可以实现什么
Noam Brown,扑克AI之父,前FAIR(元)研究科学家,现在是OpenAI的成员,转发了Kai Mic:
2024年对人工智能来说是激动人心的一年。
那么,程序员准备好被解放了吗?(总督)

