如今的世界,摄像头可以识别万物,智能驾驶可以避让人车物,拍照给AI就能做数学题……鲜为人知的是,AI之所以能够识别物体、避让车辆、解析图像解题,其背后离不开专业人员的精心数据训练。
如果说AI也要“上学”,那么,宁波博登智能科技有限公司(简称博登智能)就是“编教材的”。目前,博登智能已经成为宁波乃至浙江训练量最大、训练能力最强的“训练师”之一。
1
AI数据“特训师”
什么样的数据是高质量数据?
以智能驾驶领域的图像数据为例,首先要确保图像数据物象聚焦、表意明确,就像人眼观察事物一样,能够迅速抓住主题并捕捉到关键细节。然后将这些关键信息进行具体的标注。同时,路况信息多数情况下在二维的图片中难以说明,就需要点云图,即3D图像,图片本身带有三维坐标,可以让AI判断物体的长宽高,同时还可以叠加时间维度,形成4D数据。
“我们的一项主要工作是数据标注,就是从海量数据中,为人工智能‘划重点、做标注’,变成大模型可以理解的数据。随后,便能利用这些高质量数据对人工智能进行‘精准投喂’,从而实现对它们的高效训练。”博登智能高级解决方案工程师干逢雨表示。
随着AI大模型的快速发展,AI技术对数据的需求已经扩展到全方位、全场景的多模态数据,以实现对复杂信息的全面理解和高效处理。
所谓多模态数据,就是包含文本、图像、音频、视频的数据,比如,我想把“我有一个苹果”这个信息传递给你,可以用文字写出来、用语言说出来,也可以用图片画出来,还可以拍成视频告诉你。
目前,博登智能是省内数据训练量最大的公司之一,通过其训练的多模态数据已达到PB量级(1PB=1024TB=1024×1024GB),覆盖自动驾驶、医疗、教育、具身智能等行业。
2
用AI训练AI
长期以来,数据标注行业一直背负着“低收益、高人力消耗”的标签,被视为劳动密集型行业的代表,需要大量人工进行标注工作。
而随着智能驾驶技术向L3、L4级进阶,其产生的数据规模正呈现指数级膨胀。例如,据英特尔测算,单辆自动驾驶汽车每日生成的数据量可达4000GB之巨。
此外,自动驾驶车辆海量数据的获取方法与流程也变得日益重要,以确保数据的完整性和过程的可靠性。例如,通过专业设备拷贝数据并上传至数据中心,或采用众包模式采集传输数据。
随着L3、L4级别的量产能力的达成,预计未来几年内自动驾驶市场规模将进一步扩大。依赖人工标注的模式,其时间与资金的双重成本正持续走高。
博登智能提出的解决方案是,利用AI来训练AI,以此推动标注流程向自动化转型。
“我们自主研发的BASE平台已完成第六代技术迭代,内嵌超数百种预标注模型和智能化辅助标注工具,将传统劳动密集型的标注流程转化为技术密集型,显著减少了人工参与,从根本上降低了人力成本。”干逢雨表示,“平台还搭载了自主迭代机制,通过对比识别自动标注结果和最终验收数据中的差异,自动积累形成训练数据,实现模型的自主闭环训练和迭代,形成‘智能飞轮’。”
相较于传统标注方式,博登智能的数据处理方案能降低40%的成本,效率最高提升700%。目前,该公司已与吉利汽车、零跑汽车、赛力斯、中国联通、阿里、商汤等行业头部企业,以及多家大型医疗机构建立深度合作。
今年5月,博登智能已完成A轮亿元融资,由上海国际集团国和投资独家投资。
“高质量数据的训练和生产不仅是AI发展的基础,更将引领行业的进化。我们将立足研发通用和专用大模型的各类高质量数据集,力争在国际市场赢得更多合作机会。”该公司创始人赵捷表示。
记者 乐骁立