尽管人工智能驱动的自动驾驶汽车拥有众多优势,但在危险情况下确保其做出安全决策依然是一个严峻的挑战。据外媒报道,新加坡南洋理工大学(NTU)的研究人员借鉴了人类大脑中负责情感处理的杏仁核的工作原理,研发了一款机器学习模型,能够让车辆“感受”恐惧,从而让自动驾驶汽车习得防御性驾驶行为,并采取更为安全的行动。
未来自动驾驶汽车(图片来源:NTU)
现代AI技术已经取得很多成就,为自动驾驶技术的进步提供了强大动力。值得注意的是,强化学习(RL)已经成为AI领域内的一个重要关注点,在自动驾驶赛车等各种具有挑战性的决策任务中,取得了显著的成就。因此,研究人员正致力于探索各种RL算法在自动驾驶领域的应用潜力。
尽管现有的方法取得了很多成果,但是缺乏安全性保障限制了RL在安全关键的自动驾驶领域内的应用。鉴于此,很多研究人员致力于研究确保自动驾驶车辆安全的的RL方法。一种常见的方法是将传统RL算法与安全检查人员或约束人员结合,以在保证或鼓励安全性的前提下优化驾驶策略。然而,即使结合了各种复杂技术以将失败的可能性降至最低,驾驶代理仍然不可避免地会遇到许多危险情况,直至其高效地学会了避免安全违规的技巧。
在该项研究中,研究人员希望构建AI、神经科学与心理学之间的关联,并通过模拟大脑杏仁核的功能探索一种新型RL框架,旨在进一步地推动自动驾驶汽车的安全决策能力。更确切地说,研究人员以现有的多巴胺-纹状体机制计算框架为基础,研发了一种受恐惧感神经元启发的RL(fear-neuro-inspired RL,FNI-RL)技术,通过考虑杏仁核功能来模拟大脑中的RL过程,从而让自动驾驶代理能够有效地学习防御性驾驶行为。研究人员鼓励该代理通过基于模型打造的环境,在自己想象的范围内,尽最大可能展开冒险探索,同时在和现实环境交互的过程中,最大程度地执行安全决策。
研究人员基于大脑中与RL相关的功能系统,首先提出一种对抗性想象机制,以可学习的对抗方和世界模型,模拟安全关键情形,以帮助代理应对未曾遭遇的危险场景,从而在面对不确定性和非平稳状态时,保证决策的稳健性。具体而言,研究人员利用由代理人和对抗方构成的混合策略,以与所学习的世界模型交互。在此过程中,该代理寻求将自身恐惧感控制在特定范围内,而对抗方则试图最大化代理的恐惧感。
因此,研究人员打造了一个恐惧模型,用于估测驾驶代理在识别危险或突发事件时的恐惧程度。根据神经科学的研究发现,该恐惧模型既涵盖了负面刺激(比如安全违规行为),也包含了环境的不确定性。此外,研究人员还研发了一种基于恐惧约束的actor-critic(FC-AC)算法,使得代理能够通过有效评估不安全的决策轨迹,并遵循所施加的恐惧约束,来学习防御性驾驶行为,并确保做出安全的决策。
与现有的研究相比,该研究的主要贡献如下:
1、受大脑恐惧神经元的启发,研究人员提出了一种计算型FNI-RL框架,旨在提升自动驾驶汽车的安全性。
2、通过改进对抗性想象技术,研究人员对安全关键情况进行模拟,帮助代理应对未曾见过的危险场景,并提升决策的稳健性,以应对不确定性和非平稳性。此外,研究人员还基于此打造了一个恐惧模型,以识别和估计危险及突发事件。
3、研究人员研发了FC-AC算法,以便代理能够习得防御性驾驶行为,做出更少的安全违规行为,以实现安全决策。
研究人员通过与当前最先进的AI代理以及30名经过认证的人类驾驶员进行比较,验证了其FNI-RL方法的可行性和有效性。基于城市移动出行(SUMO)软件包,研究人员进行了仿真测试,并在一个配备高保真驾驶仿真器Car Learning to Act(CARLA)的人在环测试平台上,针对三种关键情况进行了实验评估。结果显示,借助FNI-RL算法的增强效果,自动驾驶代理能够产生防御性决策行为,显著提高安全性,并在各种安全关键场景中达到与人类驾驶员相媲美的表现。