
1.4 我国发展工业大数据的潜在问题
我国发展工业大数据目前主要有以下潜在问题。
(1)缺乏标准造成工业大数据技术滞后
在我国,互联网企业引领大数据应用,商业数据凭借其易获取、易处理、易应用的优势率先得到发展。然而,对工业企业来讲,国内企业由于在工业领域缺乏应用标准与测试标准,在大数据的基础架构和分析技术上多处于跟随状态,企业缺乏自主创新,大多数大数据解决方案是将国际先进的开源大数据技术整合到自身系统中,且行业应用水平参差不齐。工业大数据尚处于以销售为主题的大数据应用阶段,没有真正的属于工业行业的可用于指导生产的大数据应用。因此企业亟须建立适合我国自身国情的工业大数据标准,辅助该领域突破云端的一体化工业大数据解决方案,包括研发工业数据终端的实时采集、高吞吐量存储、数据压缩、数据索引、查询优化、数据缓存和云端的海量工业数据采集、存储、查询、分析、挖掘与应用等,走一条适合自己的工业大数据之路。
(2)工业大数据实施整体门槛高
工业大数据整体解决方案投入成本高。目前大数据在工业制造业中的应用不够普及,数据的提取、存储、应用的费用过高,多数企业对成本的考虑多过效率提高。另外,近年来数据量的规模化增长和应用场景的越发丰富,使传统IT架构信息系统已无法满足企业发展的需要,企业级大数据管理不仅面临着有效存储、实时分析和再处理以及各种信息安全风险等诸多挑战,涉及大数据整合、管理、分析、呈现等各个环节,还需考虑所采用的不同工具设备之间的兼容、适配以及建设和维护对整套系统所带来的成本压力。
中小企业对工业大数据缺乏理解,盲目跟随概念。大数据的价值并不在数据本身,而是根据特定的需求和场景,对数据进行整合与分析,得出可用于指导生产的数据结果。工业企业想要推行一项大数据技术,首先需要考虑大数据对企业的主营业务和生产服务的必要性,进而研究如何实施,而不是盲目跟从大数据的潮流,做不必要的投入。而在具体实施过程中,数据收集方式的偏见,上下文的缺乏,数据聚集的缺口,数据的人工处理模式和整体认知偏差都可能使企业得到可能并不需要“大数据”的结果。因此,企业要在了解自我需求时再积极部署,因需而设,企业的大数据应用才有意义。
复合型人才缺口大。市场上对大数据人才有着旺盛的需求量,然而人才供给的缺乏正是大数据发展面临的一个瓶颈。大数据岗位需要对数理统计、计算机应用和自然语言处理等多方面知识综合掌握的复合型人才。而工业大数据技术不仅涉及IT技术,还涉及工业技术,能够运用大数据解决企业生产问题、提高综合收益的人才更是稀缺资源,对于人才的复合型要求也更为突出。
(3)数据处理的异构性和准确实时性挑战大
数据格式兼容与互联互通问题。工业物联网中存在多种传感器、通信协议和数据格式,传感器和数据格式的兼容性问题也是工业领域的难题。只有足够的兼容性才能让复杂的生产线结成整体。互联互通主要通过有线、无线等通信技术,实现机器之间、机器与控制系统之间、企业之间的互联互通。在工业领域,随着物联网技术的深入应用,将诞生越来越多的智能工厂,产品全生命周期中各个环节的互联互通过程中会产生大量的非结构化数据。对于这些数据,不仅给数据存储带来挑战,更给数据分析带来前所未有的难题。
数据采集的准确性与完整性问题。在工业生产中,传感器搜集的数据具有数据不完整的问题,很多数据值是缺失的。同时对于工业来说,大数据将关联着整个产品生产流程,更需要对数据进行筛选,保证其有效性和客观性,否则数据的分析和基于此作出的预测都是错误的,会对企业进行错误的生产指导。
数据分析建模问题。数据分析模型一般是基于某种应用场景产生的大数据,结合相应的数据挖掘算法来进行构建的。模型建立初期需要不断用数据来进行验证与改进优化,并且数据分析模型的有效性与应用时间有所关联,对同一个应用场景来说,不同的时间段,同一个数据分析模型的分析结果差异很大,并且可能出现错误结果。另外,工业企业的生产场景各异,不同的应用场景需要不同的数据分析模型来进行指导,不可一劳永逸,无区别对待。
流程性和实时性要求高。工业大数据有别于互联网大数据,尤其在流程制造行业,需要有更高的技术来支撑数据处理过程中的流程性特点和实时性要求。
(4)工业大数据实施存在数据质量、多源关联及系统集成等关键问题 [6]
数据质量控制问题。原始数据(生数据)质量决定分析结果的质量。工业企业信息系统数据质量仍然存在问题。例如,2014年某大型机车企业ERP系统中近20% 物料存在“一物多码”问题。装备物联网数据质量堪忧,某大型制造企业1个月的状态工况数据中,无效工况(如盾构机传回了工程车工况)、重名工况(同一状态工况使用不同名字)、时标混乱(当前时间错误或时标对不齐)等数据质量问题约30%。
多源数据关联问题。层次化的物料表(Bill Of Material,BOM)定义了工业企业信息系统数据的核心语义结构。针对跨生命周期的研制BOM和实例BOM间结构失配问题,可以以中性BOM模型为核心,向前关联设计制造BOM,向后关联服务保障BOM,形成星型结构,极大地降低了数据关联的复杂度。同时,针对装备物联网数据和外部互联网数据,可以根据其绑定的物理对象(零部件或产品)与相应的BOM节点相关联。从而以BOM为桥梁,关联各种不同来源的工业大数据。
大数据系统集成问题。由于工业大数据的来源更加广泛,并且诸如多种传感器产生的装备物联网数据(半结构化数据)、外部数据(非结构化数据)都要与企业信息系统(结构化数据)进行集成,因此要重构数据支撑平台,甚至替换“旧”系统。
(5)工业大数据共享以及安全问题
企业内外部数据共享不够。很多工业企业的数据分布于企业内不同部门中,各个部门对数据采集及应用的关注点不同,采集到的数据格式也各不相同,没有一个统一的数据采集标准,企业内部无法实现数据的无障碍共享,数据利用率很低,数据处理时长增加。另外,企业间、行业间数据共享难度更大,数据采集标准不一,数据格式各异,数据维度杂乱,使得企业间、行业间想要第一时间将共享数据用到实战中成为难题。企业之间的横向数据共享可以较为全面地掌握用户信息,实现数据价值的最大化,实现不了领域间的信息共享,信息不完全会导致企业在数据利用中出现“盲区”,最终影响依据数据判断和解读的精准性。
工业大数据进一步放大安全问题。随着工业企业越来越多地接入互联网,其各种通信协议都面临着黑客的侵害和威胁。工业生产过程中产生的数据安全性至关重要,涉及生产安全与企业内部核心技术。如果企业在网络安全、软件开发质量方面存在问题,则会在操作中对数据安全埋下隐患。另一方面,定制化的服务和产品,必然是建立在非常庞大的数据收集、处理和分析基础上的,考虑到尊重用户隐私的情况下,数据的收集过程更加需要加强隐私保护。当前工业大数据的收集和存储更加便利,但因为缺乏规范监管,工业企业很可能会利用现有数据与他人共享来牟取利益,侵犯消费者隐私,为今后消费者的行为和生活造成种种不便。