歌舞升平(gē wǔ shēng píng)会造成什么影响?

时间：2025-02-04 来源：(原创/投稿/转载) 编辑：联络员

　　【新智元导读】刚刚，OpenAI再度紧急出手，在发布会直播全新的「Deep Research」功能。基于o3的推理再加上联网搜索，ChatGPT如今可以完成耗费人类专家数小时的复杂研究了！现在，模型已经刷爆「人类最后考试」榜单。

　　OpenAI研究负责人Mark Chen带领三位工作人员，在20多分钟内向我们详细演示了Deep Research的功能。

　　去年，OpenAI就推出了o1，但这些推理模型的一个限制，是它们无法使用工具，因为缺少了浏览互联网这个核心能力，

　　它能够使用互联网进行复杂的研究和推理，并为你提供详细报告。它非常强大，能够完成那些通常需要数小时、数天，且花费数百美元的任务。

　　需要强调的是，Deep Research是基于优化版o3打造——一个可以浏览网页和执行python代码的o3。

　　这是一个可以在互联网上进行多步骤研究的模型，它能发现、综合内容，并对之进行推理。甚至随着发现更多信息，它还会调整自己的计划。

　　也就是说，Deep Research的一大特点，就是消除了模型中的延迟限制，它返回结果可能需要五分钟，甚至长达半小时。

　　模型能在无人监督的情况下，以更长时间执行自主任务，这俨然就是AGI的雏形。最终，OpenAI的愿景是：模型能自主发现和发掘新知识。

　　OpenAI研究员表示，「使用Deep Research对我来说真的是一次个人的AGI时刻。只要10分钟，它就能生成准确又全面的竞争对手和市场研究报告（还有来源），以前这些东西我得花3个小时才能做完」。

　　现在，Deep Research会自己上网，然后给你一份全面、引用翔实的研究论文！也就是说，它已经妥妥达到了某领域研究专家的级别。

　　奥特曼还特意发文表示，这还不是o3-mini的「One More Thing」，这个小彩蛋过几天公布。

　　「帮我找到ios和Android的采用率，想要学习另一种语言的人的百分比，过去几年移动普及率的变化，以及发达国家和发展中国家的差异。」

　　研究者明确表示，希望自己想要的信息以格式化的报告呈现，其中要包含表格和明确建议，说明哪些是最佳的新兴机会。

　　接下来，研究者进一步细化了自己的要求：给我渗透率的用户百分比，分析总体使用情况，对其余部分进行最好的假设。

　　在这个过程中，它会浏览不同网页，查看相关图片、表格、PDF，提取所有信息，来确定下一步要做什么。

　　在OpenAI的演示结束时，Deep Research仍然在进行搜索和调研。此时，它已经查看了29个不同来源和大量信息。

　　对于不同学术领域的市场研究，比如物理学、计算机科学、生物学，Deep Research都很擅长。

　　OpenAI研究者还展示了一个财务研究的例子：「我是一个硅谷风投公司的投资分析师，想分析民用超音速航空旅行市场，准备一份详尽的投资备忘录。」

　　而且，Deep Research能做的绝不仅仅是严肃的学术调查报告，它还可以帮你完成很多有趣、好玩的调查，比如——我该买什么？

　　如果我们要入手一件很贵的东西，肯定不敢贸然下单，而是提前在网上细细研读每一页说明和买家评论。

　　比如想在日本滑雪，想买滑雪板，就可以直接让Deep Research给我们出一份带表格的报告。

　　在这个过程中，我们可以细化要求：高级滑雪者，有时雪是粉状的，自己身高很高所以需要长滑雪板，而且颜色要很漂亮。

　　甚至，我们可以用Deep Research找出10年前在东京去过的餐厅的名字，或者找到我们忘记名字、但记得其中某集内容的电视剧。

　　OpenAI同款Deep Research，也是智能体的一种，能够针对复杂任务上网进行多步研究。

　　只需一个提示，ChatGPT即可查找、分析和综合数百个在线资源，创建一份「研究分析师级」的综合报告。

　　该版本专门用于网页浏览和数据分析，它利用推理能力来搜索、解释和分析互联网上大量的文本、图像和PDF，并根据遇到的信息随时调整方向。

　　因此，Deep Research的推出，标志着OpenAI向更广泛的目标——开发AGI迈出了重要一步。

　　Deep Research的一个显着特点就是它极强的耐心。我认为它已经接近了「超人类耐心」。在这个项目的过程中，我意识到智力和耐心是非常契合的。

　　就像推理模型o1一样，Deep Research是通过强化学习（RL）进行学习的。它学习如何搜索相关信息，并通过推理整合知识。当scale遇上RL时，魔力就会产生。

　　据OpenAI介绍，它是专为那些在金融、科学、政策和工程等领域从事密集知识工作，需要全面、精确和可靠研究的人们而打造的。

　　对于那些「买买买」购物狂来说，Deep Research还能为你所需研究的购买项目，比如汽车、家电、家具等，提供高度的个性化建议。

　　只需查询一次，Deep Research就能get要点，加快复杂、耗时的网络研究，节省了大量宝贵的时间。

　　虽然o1在编码、数学和其他技术领域展示了令人印象深刻的能力，但许多现实世界的挑战需要从不同在线来源获取大量背景和信息。

　　Deep Research在这些推理能力的基础上弥补了这一差距，使其能够处理人们在工作和日常生活中面临的各类问题。

　　进入ChatGPT，可以再聊天对话框中选择「Deep Research」，直接输入提示即可。

　　不论是对流媒体平台的竞争分析，还是关于最佳通勤自行车的个性化报告，ChatGPT全能hold住。

　　一般来说，Deep Research需要5-30分钟完成一份研究，具体实践取决于深入网络研究所需的时间。

　　在此期间，你完全可以去干别的事，ChatGPT完成研究后会主动向你发送通知，最终的输出将以报告形式展现在聊天中。

　　更惊喜的是，未来几周，OpenAI还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出，提供更多清晰度和背景信息。

　　对于需要深入和细节的多维度、专业领域的问题，Deep Research能够进行广泛探索并为每个论点提供引用来源。

　　这种能力使其有别于简单的快速总结，而是能够提供经过充分论证和验证的专业答案，这些答案的质量足以作为正式的工作成果使用。

　　比如，你想要统计过去10年内，按GDP排名的前10个发达国家和前10个发展中国家的以下数据：iOS和安卓系统的使用率、想学习另一门语言的人口比例、移动设备普及率的变化。

　　GPT-4o仅仅是帮你列了出来，而Deep Research更像是一个报告，甚至给出了完整的可视化表格。

　　通过这种训练，它学会了规划和执行多步骤路径，找到所需数据，必要时可以回溯并对实时信息做出反应。

　　该模型还能够浏览用户上传的文件，使用Python工具绘制和迭代图表，在回答中嵌入生成的图表和网站图片，并引用其来源中的具体句子或段落。

　　奥特曼骄傲地表示，早在周五，「人类最后一场考试」的最高分是 o3-mini-high，得分为 13%。但到了周日，Deep Research功能的得分已经达到了26.6%。

　　要知道这项测试包含了超3,000道「专家级」多选题和简答题，涵盖从语言学到火箭科学、从古典学到生态学等100多个学科。

　　这些测试包含三个难度等级的问题，成功完成这些任务需要具备推理能力、多模态流畅性、网页浏览和工具使用等多项技能。

　　另外，在对各个领域专家级任务的内部评估中，Deep Research能够自动化完成，需要多个小时的复杂人工调查工作。

　　下图为专家级任务与最大工具调用次数的对比，显示出了模型花更多时间思考和浏览时，性能就会更强。

　　这跟OpenAI的理念相吻合：在未来世界里，智能体将花费越来越长的时间，完成越来越困难的任务。

　　以下两个图表可以证实这一事实。其中，上图为不同估算经济价值范围的通过率，下图为完成不同任务所需时间范围的通过率。

　　从图表中可以看出，通过率与估算经济价值的相关性，比估计小时数的相关性更高，也就是说，模型发现困难的事，也是对人类来说更耗时的事。

　　根据内部评估，它有时会在回答中产生虚构的事实或做出错误的推断，不过，频率明显低于现有的ChatGPT模型。

　　接下来，这项功能会逐渐向Plus和Team用户（带越一个月内），以及Enterprise用户推出。

　　届时，OpenAI将发布一个更快、更具成本效益的深度研究版本，它由更小的模型驱动，但仍能提供高质量的结果。

　　ChatGPT的Deep Research功能现已在网页版正式上线，并将在一个月内推广到移动端和桌面端。

　　如前所述，目前，Deep Research可以访问实时互联网，获取最新信息，并对上传的文件进行深入分析。

　　下一步，通过将Deep Research（负责异步网络调查）与Operator（负责实际行动执行）相结合，ChatGPT将不再局限于信息处理，能够为每个人执行愈加复杂的任务。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇：古(gǔ)往(wǎng)今(jīn)来(lái)这条消息可靠吗?
下一篇：关于窄宪泣冯俺看看网友是如何评论的！

栏目分类

随机推荐