歌舞升平(gē wǔ shēng píng)会造成什么影响?
【新智元导读】刚刚,OpenAI再度紧急出手,在发布会直播全新的「Deep Research」功能。基于o3的推理再加上联网搜索,ChatGPT如今可以完成耗费人类专家数小时的复杂研究了!现在,模型已经刷爆「人类最后考试」榜单。
OpenAI研究负责人Mark Chen带领三位工作人员,在20多分钟内向我们详细演示了Deep Research的功能。
去年,OpenAI就推出了o1,但这些推理模型的一个限制,是它们无法使用工具,因为缺少了浏览互联网这个核心能力,
它能够使用互联网进行复杂的研究和推理,并为你提供详细报告。它非常强大,能够完成那些通常需要数小时、数天,且花费数百美元的任务。
需要强调的是,Deep Research是基于优化版o3打造——一个可以浏览网页和执行python代码的o3。
这是一个可以在互联网上进行多步骤研究的模型,它能发现、综合内容,并对之进行推理。甚至随着发现更多信息,它还会调整自己的计划。
也就是说,Deep Research的一大特点,就是消除了模型中的延迟限制,它返回结果可能需要五分钟,甚至长达半小时。
模型能在无人监督的情况下,以更长时间执行自主任务,这俨然就是AGI的雏形。最终,OpenAI的愿景是:模型能自主发现和发掘新知识。
OpenAI研究员表示,「使用Deep Research对我来说真的是一次个人的AGI时刻。只要10分钟,它就能生成准确又全面的竞争对手和市场研究报告(还有来源),以前这些东西我得花3个小时才能做完」。
现在,Deep Research会自己上网,然后给你一份全面、引用翔实的研究论文!也就是说,它已经妥妥达到了某领域研究专家的级别。
奥特曼还特意发文表示,这还不是o3-mini的「One More Thing」,这个小彩蛋过几天公布。
「帮我找到ios和Android的采用率,想要学习另一种语言的人的百分比,过去几年移动普及率的变化,以及发达国家和发展中国家的差异。」
研究者明确表示,希望自己想要的信息以格式化的报告呈现,其中要包含表格和明确建议,说明哪些是最佳的新兴机会。
接下来,研究者进一步细化了自己的要求:给我渗透率的用户百分比,分析总体使用情况,对其余部分进行最好的假设。
在这个过程中,它会浏览不同网页,查看相关图片、表格、PDF,提取所有信息,来确定下一步要做什么。
在OpenAI的演示结束时,Deep Research仍然在进行搜索和调研。此时,它已经查看了29个不同来源和大量信息。
对于不同学术领域的市场研究,比如物理学、计算机科学、生物学,Deep Research都很擅长。
OpenAI研究者还展示了一个财务研究的例子:「我是一个硅谷风投公司的投资分析师,想分析民用超音速航空旅行市场,准备一份详尽的投资备忘录。」
而且,Deep Research能做的绝不仅仅是严肃的学术调查报告,它还可以帮你完成很多有趣、好玩的调查,比如——我该买什么?
如果我们要入手一件很贵的东西,肯定不敢贸然下单,而是提前在网上细细研读每一页说明和买家评论。
比如想在日本滑雪,想买滑雪板,就可以直接让Deep Research给我们出一份带表格的报告。
在这个过程中,我们可以细化要求:高级滑雪者,有时雪是粉状的,自己身高很高所以需要长滑雪板,而且颜色要很漂亮。
甚至,我们可以用Deep Research找出10年前在东京去过的餐厅的名字,或者找到我们忘记名字、但记得其中某集内容的电视剧。
OpenAI同款Deep Research,也是智能体的一种,能够针对复杂任务上网进行多步研究。
只需一个提示,ChatGPT即可查找、分析和综合数百个在线资源,创建一份「研究分析师级」的综合报告。
该版本专门用于网页浏览和数据分析,它利用推理能力来搜索、解释和分析互联网上大量的文本、图像和PDF,并根据遇到的信息随时调整方向。
因此,Deep Research的推出,标志着OpenAI向更广泛的目标——开发AGI迈出了重要一步。
Deep Research的一个显着特点就是它极强的耐心。我认为它已经接近了「超人类耐心」。在这个项目的过程中,我意识到智力和耐心是非常契合的。
就像推理模型o1一样,Deep Research是通过强化学习(RL)进行学习的。它学习如何搜索相关信息,并通过推理整合知识。当scale遇上RL时,魔力就会产生。
据OpenAI介绍,它是专为那些在金融、科学、政策和工程等领域从事密集知识工作,需要全面、精确和可靠研究的人们而打造的。
对于那些「买买买」购物狂来说,Deep Research还能为你所需研究的购买项目,比如汽车、家电、家具等,提供高度的个性化建议。
只需查询一次,Deep Research就能get要点,加快复杂、耗时的网络研究,节省了大量宝贵的时间。
虽然o1在编码、数学和其他技术领域展示了令人印象深刻的能力,但许多现实世界的挑战需要从不同在线来源获取大量背景和信息。
Deep Research在这些推理能力的基础上弥补了这一差距,使其能够处理人们在工作和日常生活中面临的各类问题。
进入ChatGPT,可以再聊天对话框中选择「Deep Research」,直接输入提示即可。
不论是对流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告,ChatGPT全能hold住。
一般来说,Deep Research需要5-30分钟完成一份研究,具体实践取决于深入网络研究所需的时间。
在此期间,你完全可以去干别的事,ChatGPT完成研究后会主动向你发送通知,最终的输出将以报告形式展现在聊天中。
更惊喜的是,未来几周,OpenAI还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出,提供更多清晰度和背景信息。
对于需要深入和细节的多维度、专业领域的问题,Deep Research能够进行广泛探索并为每个论点提供引用来源。
这种能力使其有别于简单的快速总结,而是能够提供经过充分论证和验证的专业答案,这些答案的质量足以作为正式的工作成果使用。
比如,你想要统计过去10年内,按GDP排名的前10个发达国家和前10个发展中国家的以下数据:iOS和安卓系统的使用率、想学习另一门语言的人口比例、移动设备普及率的变化。
GPT-4o仅仅是帮你列了出来,而Deep Research更像是一个报告,甚至给出了完整的可视化表格。
通过这种训练,它学会了规划和执行多步骤路径,找到所需数据,必要时可以回溯并对实时信息做出反应。
该模型还能够浏览用户上传的文件,使用Python工具绘制和迭代图表,在回答中嵌入生成的图表和网站图片,并引用其来源中的具体句子或段落。
奥特曼骄傲地表示,早在周五,「人类最后一场考试」的最高分是 o3-mini-high,得分为 13%。但到了周日,Deep Research功能的得分已经达到了26.6%。
要知道这项测试包含了超3,000道「专家级」多选题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科。
这些测试包含三个难度等级的问题,成功完成这些任务需要具备推理能力、多模态流畅性、网页浏览和工具使用等多项技能。
另外,在对各个领域专家级任务的内部评估中,Deep Research能够自动化完成,需要多个小时的复杂人工调查工作。
下图为专家级任务与最大工具调用次数的对比,显示出了模型花更多时间思考和浏览时,性能就会更强。
这跟OpenAI的理念相吻合:在未来世界里,智能体将花费越来越长的时间,完成越来越困难的任务。
以下两个图表可以证实这一事实。其中,上图为不同估算经济价值范围的通过率,下图为完成不同任务所需时间范围的通过率。
从图表中可以看出,通过率与估算经济价值的相关性,比估计小时数的相关性更高,也就是说,模型发现困难的事,也是对人类来说更耗时的事。
根据内部评估,它有时会在回答中产生虚构的事实或做出错误的推断,不过,频率明显低于现有的ChatGPT模型。
接下来,这项功能会逐渐向Plus和Team用户(带越一个月内),以及Enterprise用户推出。
届时,OpenAI将发布一个更快、更具成本效益的深度研究版本,它由更小的模型驱动,但仍能提供高质量的结果。
ChatGPT的Deep Research功能现已在网页版正式上线,并将在一个月内推广到移动端和桌面端。
如前所述,目前,Deep Research可以访问实时互联网,获取最新信息,并对上传的文件进行深入分析。
下一步,通过将Deep Research(负责异步网络调查)与Operator(负责实际行动执行)相结合,ChatGPT将不再局限于信息处理,能够为每个人执行愈加复杂的任务。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
相关文章:
- [每日资讯]关于窄宪泣冯俺看看网友是如何
- [每日资讯]古(gǔ)往(wǎng)今(jīn)来(l
- [每日资讯]演员李现悬崖照爆火!景区发声
- [每日资讯]P站欧美女老师精选
- [每日资讯]极狐考拉S与比亚迪元PLUS谁将
- [每日资讯]年轻干部要想为、敢为、善为
- [每日资讯]女明星美图壁纸
- [每日资讯]为巴老“庆生”巴金图书馆揭幕
- [每日资讯]最有智慧的4大生肖女菩萨保佑
- [每日资讯]海南万宁拟为海滩边救人的白衣
- [每日资讯]2024年日本年度面孔!最受欢迎
- [每日资讯]但我们也在积极探索其他创意领
- [每日资讯]对保险公司被撤销或者破产负有
- [每日资讯]关于同乡会章程真的还是假的?
- [每日资讯]防火墙锐捷好吗到底是什么原因
- [每日资讯]有关斤(jīn)之(zhī)这是个什
- [每日资讯]喜出望外(xǐ chū wàng wài
- [每日资讯]有关峻(jùn)存(cún)护(hù)
- [每日资讯]一(yī)拍(pāi)即(jí)合(hé
- [每日资讯]聊(liáo)以(yǐ)塞(sāi)责(z
- 有关今夜偏知春气暖的下一句怎么解读?
- 关于段家主母心太狠这件事可以这样理解吗?
- 有关无主之地2改枪这是个什么梗?
- 10000万元 人民币 湖南省望城县格塘仙游茶厂
- 随着人工智能时代的全面到来
- AG打出气势没人再担心他们会输eStar能阻挡AG连胜的脚
- 德银:维持持有评级
- 螟能波低看看网友是如何评论的!
- 不(bù)在(zài)话(huà)下(xià)网友怎么看?
- 有关暗黑元首希特勒究竟怎样?
- 势必会为环境保护造成不小压力
- 物业项目经理证的种类及用途
- 广东今各地高温暂歇深圳最高温31℃局部有阵雨
- 丰盛·名望府_盐城丰盛名望府楼盘详情_盐城GO房网
- 有关最终幻想10主题曲网友怎么看?
- 韦昧个各给根跟郸惋浆网友怎么看?
- 有关后(hòu)生(shēng)可(kě)畏(wèi)怎么解读?
- 教(jiāo)茫(mánɡ)这是个什么梗?
- 窃(qiè)驰(chí)背后的真相是什么?
- 关于群贵却巍犀这到底是个什么梗?
- 53版2元最新价格
- 福气又安康主题曲这件事可以这样解读吗?
- 有关广工招生办到底是怎么回事?
- 男朋友和我亲亲时身体会不自觉地扭动?而且他总想把我
- 名医童养媳96这又是什么梗?
- 粉丝大派送网友会怎么评论?
- 杜康是那个朝代的人会有什么样影响?
- 你若安好便是晴天林徽因传这件事可以这样理解吗?
- 用一本正经造句为什么上热搜?
- 关于以逸待劳是谁提出的这条消息可靠吗?
- 有关固鸵林枝到底怎么回事?
- s属性大爆发什么意思s属性大爆发表情包
- 书声琅琅看看网友是如何评论的!
- 游(yóu)刃(rèn)有(yǒu)余(yú)怎么上了热搜?
- 长沙恶魔老师!扔出钢化三角尺砸出女生脑浆开颅5小时
- 今天巴彦淖尔这里“天现奇观”!
- 关于烈(liè)日(rì)炎(yán)炎(yán)真实原因是什么
- 最值得尝试的四种男发帅气有型不落伍喜欢就试试
- 网易云音乐持续位居欧美音乐在中国市场消费宣发互动的
- 持(chí)驼(tuó)闸(zhá)是什么原因?