专注推理和代码的应用人工智能初创公司Cognition Labs,推出了世界上第一款能够根据提示词搭建整个网站的人工智能软件工程师。
如果仅需三言两语,就能在几分钟内得到一个现成的网站或软件,会是怎样的情形?这已不再是遥不可及的幻想,多亏了全球首个人工智能软件工程师Devin的问世。Devin已于本月12日,由Cognition Labs低调地在X(以前的Twitter)上发布。
人们吹捧其为独一无二的人工智能代理,而Devin实际上也证明了自己并非浪得虚名。它不仅通过了多场面试,还完成了自由职业平台Upwork上的项目。但这个自动化工具是何方神圣?它背后了不起的发明人又是何许人也?让我们深入探索一番。
Devin是什么?
Devin是一款人工智能代理(AI Agent),或者说是完全有能力充当软件开发人员和工程师的自动化助理。请不要把它和可以给出建议或完成代码的GPT聊天机器人弄混淆。Devin的能力远不止于此,它可以独立完成一个项目,创建和发布完整的软件。相比于OpenAI的ChatGPT或谷歌的Gemini,Devin的更加先进。
Devin作为一款自动化智能软件工程师兼助理,能帮助人类软件工程师专注于处理更有趣或更有创意的问题。但是,Devin的能力不限于此。如果您使用过人工智能图像生成器,就知道它根据几个词,创建一份完整艺术作品的过程。没错,这种事情Devin也能做到,但要借助软件应用程序。Devin能够根据文本提示创建功能网站。这还远远不够。Devin还能在调试工作的同时,列出完成任务所采取的所有步骤。
按照开发人员的说法,Devin拥有当前SWE-Bench编码基准上最先进的技术。它不仅通过了人工智能公司的工作面试,并在Upwork上完成了现实工作,整个过程全自动化。Devin配备了shell、代码编辑器、浏览器等常见开发工具,能解决所有软件设计问题。
Devin的特点
Devin具备长期推理和规划能力,也因此能执行需要数千个决策的复杂任务。它还具备连续记忆的能力,能在每一步回忆相关的上下文,并学习每个错误。
Devin由自己的shell、代码编辑器和浏览器支持,足以满足在其妥善处理任务所需的一切。但Devin也可以与用户协作,接受反馈,并随着时间的推移而不断改进。Devin是一款非常强大的工具,具有以下功能:
-
学习,并在适当的指导下使用不熟悉的技术;
-
端到端地构建和部署应用程序;
-
调试技术高超;
-
甚至可以训练和微调自己的人工智能模型。
它的性能如何?影响如何?
根据SWE-Bench编码基准的评估,Devin的性能表现超越了GPT-4、Cladue-2等竞争对手。该基准测试的挑战性较高,要求人工智能代理解决GitHub上发现的真实世界问题。Devin解决了13.86%的问题,远高于之前的成绩最好的模型Claude-2。(Claude最近推出了新版本Claude-3,Devin的表现又将如何,还有待观察。)
Devin的优点
Devin有几个明显的优点,例如:
-
自动编码——可以自动编写代码、调试、部署应用程序。
-
从网上学习——甚至可以在完成任务时,利用互联网学习不熟悉的知识。
-
完成项目——可以在20分钟内编写一个基本的网站和应用程序的代码。给技术人员和非技术用户都带来帮助。
-
积极影响——Devin不一定会取代软件工程师,而是辅助他们。
Devin的局限性
尽管Devin优势多多,看起来影响力颇深,但还是存在一些局限:
-
知识范围有限——虽然它可以从互联网上学习,但在专业知识储备上无法与人类相媲美。
-
缺乏创造力——Devin和其他所有人工智能一样,操作可能毫无新意。因此,它在处理微妙复杂的挑战时,可能会失败。
-
伦理问题——和任何人工智能或技术一样,Devin也应该有责任感,但Devin无法理解这一点,可能会导致它在无意中违反隐私、安全或法律标准。
-
对工具和资源的依赖——Devin高度依赖于它的shell、代码编辑器、浏览器。所以,如果这些工具遇到任何问题,Devin只好罢工。
开发团队
Devin背后的开发团队Cognition Labs是一家新兴的初创公司,成立仅两个月。这是一个非常沉默和神秘的创业公司,低调行事,某天不知从哪冒出来,给世人带来神奇的人工智能工具Devin。这家公司,或者自称专注于推理的应用人工智能实验室,非常年轻,而且只有10个人。但它已经得到了一些业内大厂的支持,如Peter Thiel的创始人基金和Twitter前高管Elad Gil。Cognition Labs目前已经获得了2100万美元的启动资金。随着Devin未来不断取得更多成果,很可能会获得更多资金。
该公司由现任首席执行官Scott Wu、首席技术官Steven HAO和首席采购官Walden Yan创立。关于创始人和Cognition Labs的更多信息,可以阅读Devin发布后,彭博社对Scott Wu的采访。
最后的想法
Devin在“从提示词到行动”方面的能力,无疑是人工智能工程中的新突破。但讽刺的是,它取代了人工智能工程,但还是用自动化手段,基于文本提示来处理任务。我们等待的不过是下一场有关人工智能的辩论,例如像Devin这样的工具取代了部分底层程序员或软件工程师。乐观地说,我们应该对人工智能的发展速度感到惊讶。但未来还有待探讨,因为Devin对这个行业产生多大的实际影响还有待观察。
(机器翻译,轻度译后编辑,仅供参考。)
原文链接
编辑:张湄婕