下棋是人类延续至今最古老的智力游戏,又称对弈。巧合的是,人类与AI的“对弈”正是从对弈开始。1997年IBM人工智能软件“深蓝”击败国际象棋大师卡斯帕罗夫。约20年后的2016年,围棋世界冠军李世石败于谷歌研发的AI软件AlphaGo。AlphaGo也被韩国棋院授予“名誉九段”,成为人类第一位AI棋手。颠覆由此开始。
“大模型”时代来临
2022年ChatGPT横空出世,AI离人类理想中的模样更近了。于是,所谓的“大模型”时代悄然开启。不到2年的时间,各种类型的AI大模型层出不穷。从谷歌、微软、英伟达到华为、阿里,科技互联网行业巨擘纷纷入局。一时间海内外财经、科技人士言必称“大模型”。谷歌、微软、英伟达、苹果等7家科技公司市值一度达到13万亿美元,超过A股总市值。于是一种“AI才是人类未来”的说法甚嚣尘上。从“名誉九段”到微软首个“AI码农”,从自动生成文字、图片、视频、代码,AI的颠覆山雨欲来。其实, AI的竞争逻辑已经从资本、技术的积累向应用和生态延伸。也就是说,AI在产业层面的应用更关键。那么作为一家矿山无人驾驶企业,路凯智行又是如何理解AI在产业内的应用的?
Rock AI
路凯智行联合创始人兼CTO那崇宁博士是AI大模型领域的专家,长期从事相关领域的研究和应用。早在2018年谷歌推出BERT的时候,那崇宁博士就断定未来5年在自然语言处理领域内会实现一个通用的人工智能,只会在自然语言处理这个领域里面实现通用的人工智能。站在2024回看过去,时间证明了那崇宁博士的预测。
那崇宁博士认为,目前较为成熟的AI大模型包括自然语言语言处理(NLP)类的AI大模型和计算机视觉类(CV)的AI大模型,随着近几个月SORA的横空出世,融合语言与视觉的多模态模型也已初露峥嵘,但目前市面上的通用大模型并非“万金油”,面向垂直领域内的各类生成式AI应用还需要结合场景需求积累数据和构建定制化的模型。
矿山无人驾驶已经迈过了“下安全员”的门槛,现阶段需要追平甚至超过有人驾驶的运输效率。这一阶段,AI对于提升无人驾驶的运营效率的意义不言而喻。那崇宁博士领导下的路凯智行研发团队,早已开始了相关布局。
视觉类的AI大模型目前已应用于路凯智行自动驾驶感知算法的研发,实际上,在AIGC概念提出之前,路凯智行的研发团队已广泛应用生成式神经网络(GAN)等技术手段增强图像、点云等感知数据集,用于对自动驾驶感知算法进行算法优化,提升算法在更加通用的矿山场景下的准确性、鲁棒性和稳定性,在路测的基础上提供了低成本的算法优化研发替代路径。
路凯智行的研发团队在布局基于多模态AI大模型的自动驾驶综合算法,将现有的面向感知任务的AI大模型理解和生成能力扩展到融定位、感知、规划、控制、决策的综合性模型,其中多模态体现在综合融合结构化信息(如地图、车辆状态等)、类图像信息(图像、点云、其他雷达数据)及文本信息(规范、标准等)构建以数据为驱动,以规范为约束的自动驾驶综合智能体。目前该工作还处于模块研发和原理验证阶段,面向实际应用还需在算法的复杂度、实时性、鲁棒性、稳定性及可解释性等方面开展大量的工作。
此外,类ChatGPT的语言类AI大模型在智慧矿山综合管控方面有广泛的应用场景,一方面可以运用AI大模型为智慧矿山的运营者和管理者构建一个一体化的人机交互系统,综合管理矿山内的各类知识资产(政策、规范、标准、设计图纸等)和数据资产(实际生产、运营数据等),另一方面可运用AI大模型的低代码能力(如NL2SQL类的数据分析能力)以较低的沟通和研发成本完成运营信息的整合、分析、挖掘与决策应用,从而提升矿山运行的综合效能。
语言类AI大模型的实际落地应用应关注以下问题:一是通用AI大模型与企业应用场景的适配,私有化部署能力及针对企业业务和数据的模型微调是关键因素;二是通用AI大模型的幻觉风险防控,利用CoT、提示工程等非显式干预方法,或运用API、RPA、NL2SQL等显式干预方法是关键。路凯智行已在相关领域布局基础模型和工具链的研发,并在矿山制度管理、低代码数据分析等领域形成落地能力。“现有的通用大模型无法直接赋能端到端矿山无人驾驶。但是,沿着这个思路,基于通用大模型的基本构建原理,去构建适用于矿山无人驾驶的模型的方向可以去尝试。当然,矿山场景的算力、数据能否支撑我们去从0开始构建基础的模型,仍需时间去验证工程的实用性。”亿欧汽车2023全球科技出行大会上,那崇宁博士回答了媒体关于矿山无人驾驶大模型的畅想。