支持人工智能的三个主要因素分别是数据,算法和算力。三者既相互促进,又相互制约。数据是指为 AI算法培训和优化提供的相关产品和服务,主要包括数据集产品的定制服务和数据资源的定制服务,具体包括数据采集、数据清洗、数据标注等。
数据采集是指从目标域、场景中采集特定原始数据的过程,其数据采集主要集中在图像、文本、语音、视频等非结构化数据上。就业务过程而言,数据采集是人工智能数据服务业全过程服务的“第一步”,采集到的非结构化数据经过清洗和标注,可以用来进行机器学习训练。
在细分结构上,随着人工智能技术的不断成熟,越来越多的场景和行业开始采用人工智能技术, AI行业的应用场景逐渐趋于长尾和零碎化,产生了大量新兴垂直领域的数据需求,如疫情爆发期间的面罩识别应用等;同时,从 AI应用迭代、用户体验完善的角度来看, AI应用需要迭代更新与具体使用场景相匹配的数据。
这类数据采集需求相对复杂、集中、困难,对 AI数据服务提供商的场景采集能力提出了更高的要求。为满足人工智能落地过程中不同场景的需求,云测数据在行业内首创了“数据场景实验室”模式,通过还原图像、语音、文本、视频等不同类型的细分场景,来解决具体场景下数据缺失、质量差等行业难题。
并以多角度、多姿态的动作采集为例,专门在横店建立了数据采集基地,根据项目需要,对特定动作和表情进行采集。据悉,云测数据也是目前市面上唯一一家采用群演技术进行人工智能数据采集的数据服务提供商。现在的云测数据深度合作伙伴涵盖了汽车,手机,工业,住宅,金融,安全,教育,新零售,房地产,生态系统等多个领域。包括众多世界500强企业、高校科研机构、政府部门,以及超过90%的 AI头部企业和大型互联网企业,覆盖了计算机视觉、语音识别、自然语言处理、知识图谱等主流 AI技术领域。
作为一个例子,在语音识别领域,为了保证音频数据采集的质量,云测数据采集工具设置了“音频检测”功能,通过对音频的底噪声和能量值进行检测,可以将其控制在一定的范围内。其中,底噪检测在“静默时长区域”,能量检测在“说话区域”,当底噪小于规定数值,能量大于规定数值,则判定音频合格,否则判定为不合格。这样在数据采集过程中,通过对数据进行预处理,可以大大提高数据采集质量,切实提高数据采集效率。
例如,目前的智能驾驶领域,云测数据采集服务覆盖了智能驾驶的主流应用场景,具有 DMS和 ADAS场景采集的经验,如支持驾驶员信息备采,多模和车载语音采集,物体采集等多种类型。通过自定义场景采集、丰富的数据量和高质量的 AI数据传输,让云测数据与各大车企,如自主、合资企业、大型Tier1、以及从事无人计程车业务的自动驾驶公司,建立了持久而良好的合作关系。
目前,无论是人工智能技术的研发,还是应用领域的发展,“数据”都是其中不可缺少的重要因素。从 AI应用场景中获取还原的纯数据,可以说是人工智能长期发展的重要保证,也是 AI技术研发、培训的关键。如果 AI应用能够获得更准确、及时、符合使用场景的高质量数据,那么它将会提供更加高效、有用、精确的智能服务。