想象一下,只需告诉车辆“我很着急”,它就会自动以最高效的路线到达目的地。据外媒报道,普渡大学(Purdue University)的工程师发现,自动驾驶汽车(AV)可以在ChatGPT或其他聊天机器人的帮助下做到这一点,而这些聊天机器人是由称为大型语言模型的人工智能算法实现的。
图片来源:普渡大学
这项研究的负责人、普渡大学莱尔斯土木工程学院(Lyles School of Civil and Construction Engineering)助理教授Ziran Wang认为,如果有一天汽车能够完全自动驾驶,它们就需要理解乘客发出的所有指令,即使这些指令是隐含的。例如,当说赶时间时,出租车司机会知道乘客需要什么,无需指定司机应该走哪条路线来避开交通拥堵。
尽管如今的自动驾驶汽车具备与之交流的功能,但它们需要用户表达得更清楚(与和人类交谈相比)。相比之下,大型语言模型可以以更像人类的方式解释和给出响应,因为它们经过训练可以从大量文本数据中得出关系,并随着时间的推移不断学习。
“我们车辆中的传统系统采用用户界面设计,你必须按下按钮来传达你想要的内容,或者采用音频识别系统,要求你说话时非常明确,以便你的车辆能够理解你,”Wang表示。“但大型语言模型的强大之处在于它们可以更自然地理解你所说的各种事情。我认为任何其他现有系统都无法做到这一点。”
开展新型研究
在这项研究中,大型语言模型并没有驱动自动驾驶汽车。相反,它们利用自动驾驶汽车的现有功能来协助自动驾驶汽车的驾驶。Wang及其学生发现,通过整合这些模型,自动驾驶汽车不仅可以更好地理解乘客,还可以个性化驾驶,以满足乘客的满意度。
图片来源:普渡大学
在开始实验之前,研究人员用提示训练了ChatGPT,这些提示包括更直接的命令(例如“请开快点”)和更间接的命令(例如“我现在有点晕车”)。当ChatGPT学会如何响应这些命令时,研究人员为其大型语言模型提供了要遵循的参数,要求它考虑交通规则、道路状况、天气以及车辆传感器检测到的其他信息,例如摄像头和光线检测和测距。
研究人员随后将这些大型语言模型通过云端提供给一辆实验车辆,该车辆具有SAE International定义的L4级自动驾驶能力。L4级自动驾驶能力距离业界认为的完全自动驾驶汽车仅差一个级别。
当车辆的语音识别系统在实验过程中检测到乘客发出的命令时,云端的大型语言模型会根据研究人员定义的参数推理该命令。然后,这些模型为车辆的线控驾驶系统(与油门、刹车、齿轮和转向系统相连)生成指令,指导车辆如何根据该命令行驶。
对于一些实验,Wang的团队还测试了他们安装在系统中的内存模块,该模块允许大型语言模型存储有关乘客历史偏好的数据,并学习如何将这些数据纳入对命令的响应中。
研究人员在印第安纳州哥伦布市的一个试验场进行了大部分实验,该试验场曾是一条机场跑道。这种环境能够安全地测试车辆在跑道上以高速公路速度行驶和处理双向交叉路口时对乘客命令的响应。研究人员还在普渡大学罗斯-艾德体育场的停车场测试了车辆根据乘客命令停车的情况。
研究参与者既使用了大型语言模型已经学会的命令,也使用了在驾驶车辆时遇到的新命令。根据驾驶后的调查回复,与人们在没有大型语言模型帮助的情况下驾驶L4级自动驾驶汽车时的感觉数据相比,参与者对自动驾驶汽车做出的决定感到不适的比例较低。
该团队还将自动驾驶汽车的性能与根据人们平均认为安全舒适的驾驶数据创建的基线值进行了比较,例如车辆允许多长时间做出反应以避免追尾碰撞以及车辆加速和减速的速度。研究人员发现,本研究中的自动驾驶汽车在使用大型语言模型驾驶时的表现优于所有基线值,即使在响应模型尚未学会的命令时也是如此。
未来方向
Wang称这项研究中的大型语言模型平均需要1.6秒来处理乘客的命令,这在时间要求不高的情况下是可以接受的,但在自动驾驶汽车需要更快响应的情况下,应该加以改进。这是一个影响大型语言模型的问题,业界和大学研究人员都在努力解决这个问题。
图片来源:普渡大学
虽然这不是这项研究的重点,但众所周知,像ChatGPT这样的大型语言模型容易产生“幻觉”,这意味着它们可能会误解学到的东西,并做出错误的反应。Wang的研究是在一种带有故障安全机制的装置中进行的,当大型语言模型误解命令时,该机制允许参与者安全驾驶。在参与者的整个驾驶过程中,模型的理解能力不断提高,但幻觉仍然是一个问题,在汽车制造商考虑将大型语言模型应用于自动驾驶汽车之前,必须解决这一问题。
除了大学研究人员进行的研究之外,汽车制造商还需要对大型语言模型进行更多测试。Wang称将这些模型与AV的控制装置集成,以便它们能够真正驾驶车辆,还需要获得监管部门的批准。
与此同时,Wang和他的学生正在继续进行实验,这可能有助于行业探索在AV中添加大型语言模型。