首页 >资讯 > > 正文

环球资讯:小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了

新智元 2023-06-13 19:16:07

这篇论文通过对真实世界决策任务中的Auto-GPT代理进行了全面的基准研究,探索了大型语言模型(LLM)在决策任务中的应用。


【资料图】

论文链接:https://arxiv.org/pdf/2306.02224.pdf

作者比较了多种流行的LLM(包括GPT-4,GPT-3.5,Claude和Vicuna)在Auto-GPT决策任务中的表现,并引入了一种名为「额外意见」的新算法,该算法可以将小的专家模型融入到Auto-GPT方案中,从而提高了任务性能。

作者观点

在这一研究中最有趣的发现是大语言模型,尤其是GPT4有了类似于人类的能力,可以从不同的意见中提取有用信息,进行思考和批判然后提高自己的结果。

那么问题来了,GPT是怎么受益于不同意见的呢?

人类的心理学研究过一些人类受益于不同意见的方式以及一些模式,比如人类会给有权威的意见更多的权重,会倾向于忽略极少数的个别意见,会给自己的意见过多的权重,通常三到六个意见就足够了等等。

这个方向还值得很多后续的研究,比如现在我们是用一个小的专家模型来提供不同意见,如果让大模型们互相争论呢?

主要贡献

1.首次展示Auto-GPT可以轻松适应与真实世界场景密切相似的在线决策任务。

2.提供了流行LLM(包括GPT-4, GPT-3.5,Claude和Vicuna)之间的全面基准比较。我们提出了关于这些模型适用于自主代理的发现。

3. 证明了从小的专家模型那里获得的第二意见可以显著提高任务性能。这可以成为为在不进行模型微调的情况下将监督信号引入Auto-GPT的一种新的方法。

实验设置

提示设计

在没有进行大规模调优的情况下,我们将任务需求或问题直接作为Auto-GPT的目标,适配了Auto-GPT进行各项任务。

比如输入像「I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm」的句子。

为了帮助Auto-GPT理解可用的行动,我们将每个行动表现为一个工具。

值得注意的是,在没有示例的情况下,仅使用工具指令的效果较差。然而,只要有少量的示例,性能就会显著提高。因此,我们在工具演示中包括一到三个few-shot示例,以利用LLM的上下文学习能力。

考虑额外意见

我们进一步改进了Auto-GPT的工作流,以便考虑来自外部专家模型的额外意见。

具体来说,在Auto-GPT的决策阶段,我们从专家模型中抽样出前k个意见,并将这些意见放入提示的上下文部分,以供大语言模型参考。

在这项工作中,我们简单地使用了对于每个任务都已经准备好的IL模型作为外部专家。

提供给LLM额外意见的提示遵循这样的模板:‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’

Webshop实验设置:

Webshop是一个模拟网购环境,从http://Amazon.com上抓取超过118万个产品。

该环境提供了如搜索、点击、导航、购买等真实的行动空间。

评估过程主要看是否成功购买了描述的产品,需要产品、属性、选项和价格全都匹配。

基线模型是采用模仿学习(IL)方法的模型,它的动作策略组件已经过微调。这个基线模型将与采用Auto-GPT方式运行的大语言模型进行比较。

ALFWorld实验设置

ALFWorld是一个研究环境,结合了复杂的任务导向和语言理解。该环境包含超过25000个独特的、程序生成的任务,涵盖厨房、客厅、卧室等真实环境。

这些任务需要复杂的解决问题的能力和对语言及环境的深入理解。初始评估使用模仿学习(IL)的DAgger代理进行,然后与采用Auto-GPT风格的生成语言模型进行比较。

实验结果

直接比较结果

本研究主要通过运行Webshop和ALFWorld两种实验,比较了不同的大型语言模型(Large Language Models,LLMs)和模仿学习(Imitation Learning,IL)模型在AutoGPT配置中的表现。

首先,Webshop试验中,GPT4表现出色,其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率,但是加入了图像输入的IL模型表现更好。

然而,只使用GPT3.5或Claude的Auto-GPT代理表现不如原始IL模型,但是,GPT4本身的性能优于所有IL模型。

其次,在ALFWorld实验中,IL模型与Beam Search的组合显著优于无Beam Search的版本。而在AutoGPT设置中运行的Claude和GPT3.5的性能均未超越IL模型,但GPT4明显超越了IL模型的性能,无论是否使用Beam Search。

此外,我们提出了一种新的研究模式,将大型语言模型(LLMs)与专家模型结合起来。

首先从专家模型中采样出前k个附加观点,然后将这些观点呈现给LLMs,让它们考虑这些观点并做出最后的决定。这种方法在GPT4上表现得特别好,这表明GPT4在考虑来自多个弱学习模型的观点时,可以提高其性能。

总的来说,GPT4在所有模型中表现出了最佳的性能,并且能够有效地利用专家模型的建议来提高其决策能力。

我们推荐使用GPT4,因为它在考虑了其他模型的观点后,其决策性能显著提高。最后Abaltion Study证明了这些额外意见必须是有一点价值的,随机的意见并没有任何帮助,见AutoGPT(GPT3.5) + Random

采用额外意见比例

在我们的实验中,我们发现GPT-4模型在处理额外意见时表现出极高的辨别能力。即使在信息噪声中,GPT-4也能区分出有益和无关的建议。

而GPT-3.5模型在面对可能导致混淆的输入时,表现出了明显的劣势。总的来说,LLM与额外意见的一致性或不一致性,很大程度上取决于LLM的理解能力和额外意见的质量。

上一篇:环球快资讯:教育部:涉校外培训投诉举报问题数量稳步下降 下一篇:最后一页
x
推荐阅读

环球资讯:小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了

2023-06-13

环球快资讯:教育部:涉校外培训投诉举报问题数量稳步下降

2023-06-13

海信家电(00921)认购16.83亿元的理财产品

2023-06-13

凡人微光|最精彩的赛场

2023-06-13

专家共话应急科普助力安全发展_全球今日讯

2023-06-13

天天快资讯:乘联会发布6月重点新车 6款新能源车型即将上市

2023-06-13

夏季易化水黑腐的多肉有哪些?|全球今热点

2023-06-13

因太平天国事件起家,官至直隶总督!合肥张家故事多 世界讯息

2023-06-13

成都土拍|8宗地块全部成交,金融城东一宗地吸引超70家企业抽签 天天播资讯

2023-06-13

华为携手软通动力等共同启动GaussDB数据库金融行业生态发展计划

2023-06-13

全球热点!湖北省强化“河湖长+河湖警长”联动机制,守牢流域安全底线

2023-06-13

天天热门:三网切换随身wifi用的什么卡

2023-06-13

每日快报!文化产业园 各有新看点

2023-06-13

塔瑞斯世界测试地址2023 塔瑞斯世界手游下载预约地址分享

2023-06-13

怀来:百日攻坚 人居环境整治无死角全覆盖_最新资讯

2023-06-13

首部《中国幽门螺杆菌感染防控》白皮书发布 前沿热点

2023-06-13

全省首个5G智能驾考系统在六安市建成 环球热资讯

2023-06-13

问路服务电话(问路网)

2023-06-13

京津冀等11省份将开启高温模式 局地挑战40℃

2023-06-13

开封进一步推动综合实践活动课程常态化

2023-06-13

环球热门:这周玩什么第131期:六月超多新手游即将上线,你可以尽情畅玩

2023-06-13

天天热议:本周深圳进入“龙舟水”降雨集中期!接下来的天气…...

2023-06-13

天天短讯!腾讯祭出的大招《无畏契约》,能不能成为下一个《英雄联盟》?

2023-06-13

【原油收市】高盛下调油价预期,国际油价狂泻近4% 布油接近70美元/桶-当前动态

2023-06-13

【天天播资讯】2023年以工代赈中央专项投资已下达73亿元

2023-06-13

新超越极限最牛英雄(新超越极限2 24) 环球即时看

2023-06-13

月宫春·和吴尉_对于月宫春·和吴尉简单介绍 焦点热讯

2023-06-13

主力合约资金流向金十期货6月12日讯,截至23:00,资金流入方面,玉米2309流入1.12亿元,玻璃3209流入1.03亿元,聚丙烯(PP)2309流入9433万元;资金流出方面,甲醇2309流出4.83亿元,焦煤2309流出2.43亿元,燃油2309流出1.56亿元

2023-06-13

快资讯:广西最好的专科大学有哪些校排名

2023-06-12

2年1.2亿镑!卫报:利雅得新月错过梅西后首选魔笛,球员正在考虑-世界看热讯

2023-06-12

o型圈 国家标准_o型圈国家标准 讯息

2023-06-12

全球热文:高蕊馨_高蕊馨怎么样

2023-06-12

经济学国际期刊院校排名 经济学期刊排名 全球微动态

2023-06-12

“高校工程教育课程思政联盟”在北航成立-天天关注

2023-06-12

微速讯:生物学性状_关于生物学性状介绍

2023-06-12

热资讯!想念逝去亲人简短字句 寄托哀思的诗句

2023-06-12

每日速递:买房子要注意什么问题_买房子要注意什么

2023-06-12

营业税差价的5.5%是什么意思 差价是什么意思 报道

2023-06-12

世界今头条!健盛集团:越南主要生产基地暂无限电停电影响

2023-06-12

连夜扛着火车跑是什么意思_扛着火车跑是什么意思连夜扛火车走是什么梗

2023-06-12

关于实地探访“鸭脖事件”涉事学校及实地探访“鸭脖事件”涉事学校详情

2023-06-12

一个能卖500块?AI绘画出现后,AI关键词也变成一门生意|天天微速讯

2023-06-12

天天速讯:卵泡多大成熟,内膜多少正常_卵泡多大成熟

2023-06-12

高考落幕,新汽车需要怎样的人才? 今亮点

2023-06-12

会员管理系统软件哪个好_会员管理系统哪个好-当前播报

2023-06-12

【天天时快讯】海淀教育布局密集调整!又有4所小学加入教育集团

2023-06-11

天天日报丨上合示范区标准化战略联盟成立

2023-06-11

3月长安销量情况如何? 众车网权威发布(2023年)

2023-06-11

机会仅一次!曝皇马对凯恩下最后通牒:施压热刺,降5000万来投 世界热文

2023-06-11

手机充电很慢是怎么回事呢_手机充电很慢

2023-06-11

5000辆FF91,换贾跃亭一次回国?

2023-06-11

快讯:山东省专科院校排名及分数线_山东比较好的专科院校

2023-06-11

空姐超重10%立即停飞引热议 是“新规”还是“业内规定”?违法吗?

2023-06-11

【全球热闻】买二手房后发现房屋漏水怎么办(房屋漏水怎么办)

2023-06-11

低价团乱象再起 何以无解?_看点

2023-06-11

观热点:义乌京东代运营服务_提供一站式电商代运营解决方案

2023-06-11

汝州张公巷窑出土青瓷首次面向公众展出_环球今日讯

2023-06-11

世界快资讯丨东昌府区又将新建一所职业学校 !总建面约计4.2万㎡

2023-06-11

O型血的人想减肥,多吃肉?减肥和血型有关?|世界报资讯

2023-06-11

汉阳陵博物院举办“文化和自然遗产日”活动|天天速讯

2023-06-11

每日热点:6月10日起12306可以在线选火车铺位

2023-06-11

科普图解 | 筑牢生态屏障!一图看懂我国防沙治沙新成就

2023-06-11

世界球精选!芯片的战争

2023-06-11

48个班!遂宁一公立学校今年9月投用|环球快消息

2023-06-11

高考成绩何时可查?实用信息了解一下|最新快讯

2023-06-11

天天微速讯:《暗黑破坏神4》差评如潮 跌到5.1分了

2023-06-11

夏侯渊兵败定军山后,为何连襟兄弟曹操都要批评他为白地将军

2023-06-11

【天天热闻】圈圈圈住大神(圈圈圈住大神txt)

2023-06-11

printscreen键位在哪(printscreen)-全球新消息

2023-06-11

当前热点-广州退休金最低标准多少钱?退休工资计算跟职位有关系吗?

2023-06-11

她被雪藏的原因,国剧今天终于敢播

2023-06-11

安装使用漏电保护器属于什么安全措施(安装使用漏电保护器 是属于哪种安全技术措施) 资讯推荐

2023-06-11

黑龙江12件涉黑涉恶案件集中公开宣判85人获刑

2023-06-11

一片冰心在玉壶用了什么样的修辞手法(一片冰心在玉壶修辞手法) 重点聚焦

2023-06-11

未来6天,四大生肖财运达到最高峰,财运水涨船高,富贵无双

2023-06-11

当前通讯!云南考古体验馆正式开馆

2023-06-11

提高科学素养 “深海发现之旅”在国家海博馆启动

2023-06-11

世界热点评!德云社违反卫生管理, 未取得卫生许可证被罚3万

2023-06-11

雷暴大风+冰雹 江苏海安一处电力线路遭雷击断线

2023-06-11

环球简讯:防晒喷雾哪个好用学生(防晒喷雾哪个好用)

2023-06-10

每日快讯!6月10日起,230趟列车卧铺票可在线选位

2023-06-10

75部影片已定档,暑期档票房有望冲击150亿

2023-06-10

全球最新:银尘麒零(银尘)

2023-06-10

今头条!千城胜景|石家庄市井陉矿区:夏日绿意浓 矿山披新装

2023-06-10

75部影片已定档,暑期档票房有望冲击150亿

2023-06-10

谷歌反垄断案将如何影响人工智能技术的未来市场格局? 环球热议

2023-06-10

动态:中国首座大型区域综合性非遗馆将在杭开馆

2023-06-10

微视频 | 溪下瓜田甜万家-全球热消息

2023-06-10

449999m 44999

2023-06-10

世界快播:湖北省地方金融监督管理局党组书记、局长段银弟接受审查调查

2023-06-10

老百姓的“柴米油盐”不易拍 当前快播

2023-06-10

【天天快播报】常用止血药物的使用方法,止血药应用

2023-06-10

公司卖车的分录_公司卖车如何进行账务处理

2023-06-10

深圳:“工业第一城”加快构建新格局

2023-06-10

中国足球超级联赛排名榜_中国足球超级联赛排名

2023-06-10

19亿股权被冻结、诸多传闻缠身,万达商管IPO面临重重考验

2023-06-09

中国军队第九批援老挝医疗专家组抵达万象 今日观点

2023-06-09

最新资讯:天青色等烟雨,我在海旅等你

2023-06-09

试车日志 | 凯迪拉克GT4:面子和里子我都要-天天速看

2023-06-09

大学生厌学家长怎么办 大学生严重厌学怎么办-焦点速递

2023-06-09