2021年4月26日,首届中国(安徽)科技创新成果转化交易会在合肥隆重召开。本次大会由安徽省人民政府、科技部和中国科学院联合主办,主题聚焦于夯实创新基础,加速科技成果的转化,旨在通过整合科技成果资源,推动科技交易和签约落地。
在大会的新能源与智能网联汽车产业链创新主题论坛上,百度技术委员会理事长陈尚义作为演讲嘉宾,分享了百度在数据领域的探索和成就,特别是在自动驾驶应用中的数据采集、标注及训练技术。


众所周知,人工智能技术的发展依赖于大量高质量数据。随着产业的不断发展,尤其是自动驾驶技术的进步,市场对数据的需求正在急剧上升。陈尚义指出,百度在这一领域积累了丰富的技术、能力和资源。
在当前数据获取、加工和应用的过程中,仍面临诸多挑战:国家法规对道路数据采集设有严格的测绘资质要求,采集车辆及激光雷达等传感器的采购和管理成本较高;模型的准确性直接关系到安全,自动驾驶算法的研发对数据质量有着极高的要求,且专业性较强;数据量大、维度多使得数据管理变得复杂,训练流程也难以衔接,自动驾驶行业的数据问题亟待解决。
陈尚义介绍,百度的数据众包团队开发的数据服务与资产管理平台,提供从数据采集、标注到存储、管理、训练、清洗、评测等全流程的一体化解决方案,涵盖人工智能开发的整个生命周期,帮助企业迅速推动技术的落地。

在数据采集方面,百度具备强大的采集能力、丰富的经验和领先的技术。百度拥有自有的采集车队,具备甲级测绘资质,可以合规地进行道路数据采集;同时,通过合理的线路规划和数据筛选方法,已积累了上千种场景;业内领先的采集车方案可满足多种技术需求,并可根据不同需求进行定制改装。
在数据处理方面,百度具备多种数据标注能力,覆盖自动驾驶等多种数据类型。为保证数据标注的效率和准确性,百度的数据平台对数据需求进行科学分配,精准筛选人员,引入智能标注技术,并设立多重审核流程,确保数据质量。同时,百度与山西综改区合作,共同建立山西数据标注基地,日均提供3200余人的固定人力,及超过20万活跃的众包标注员,形成业内最强的标注资源与产能支持。
在数据应用方面,百度通过数据管理开发平台,提供数据管理、模型训练及评估等一体化服务。该平台对海量数据进行标签可视化管理,统一调度算力资源,支持多种业界主流AI框架;流水线式的作业建模和任务队列管理,极大提升了算法研发效率和机器资源利用率。
随着交通强国战略的实施,自动驾驶正逐渐走入人们的日常生活,行业迫切需要更多科技企业的参与,为智慧交通基础设施的快速建设注入更多的AI和数据科技动能。百度数据众包作为国内最大的AI数据服务提供商,将继续以专业的合规数据采集服务、高效优质的数据标注服务及便捷的数据管理训练平台,充分释放数据的价值,为各行各业提供强有力的支持。
