工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。其以产品数据为核心,极大延展了传统工业数据范围,同时还包括工业大数据相关技术和应用。其主要来源可分为以下三类:第一类是生产经营相关业务数据。第二类是设备物联数据。第三类是外部数据。
工业大数据技术是使工业大数据中所蕴含的价值得以挖掘和展现的一系列技术与方法,包括数据规划、采集、预处理、存储、分析挖掘、可视化和智能控制等。工业大数据应用,则是对特定的工业大数据集,集成应用工业大数据系列技术与方法,获得有价值信息的过程。工业大数据技术的研究与突破,其本质目标就是从复杂的数据集中发现新的模式与知识,挖掘得到有价值的新信息,从而促进制造型企业的产品创新、提升经营水平和生产运作效率以及拓展新型商业模式。
工业大数据除具有一般大数据的特征(数据量大、多样、快速和价值密度低)外,还具有时序性、强关联性、准确性、闭环性等特征。
(1)数据容量大 (Volume):数据的大小决定所考虑的数据的价值和潜在的信息;工业数据体量比较大,大量机器设备的高频数据和互联网数据持续涌入,大型工业企业的数据集将达到PB级甚至EB级别。
(2)多样 (Variety):指数据类型的多样性和来源广泛;工业数据分布广泛,分布于机器设备、工业产品、管理系统、互联网等各个环节;并且结构复杂,既有结构化和半结构化的传感数据,也有非结构化数据。
(3)快速 (Velocity):指获得和处理数据的速度。工业数据处理速度需求多样,生产现场级要求时限时间分析达到毫秒级,管理与决策应用需要支持交互式或批量数据分析。
(4)价值密度低 (Value):工业大数据更强调用户价值驱动和数据本身的可用性,包括:提升创新能力和生产经营效率,及促进个性化定制、服务化转型等智能制造新模式变革。
(5)时序性 (Sequence):工业大数据具有较强的时序性,如订单、设备状态数据等。
(6)强关联性 (Strong-Relevance):一方面,产品生命周期同一阶段的数据具有强关联性,如产品零部件组成、工况、设备状态、维修情况、零部件补充采购等;另一方面,产品生命周期的研发设计、生产、服务等不同环节的数据之间需要进行关联。
(7)准确性 (Accuracy):主要指数据的真实性、完整性和可靠性,更加关注数据质量,以及处理、分析技术和方法的可靠性。对数据分析的置信度要求较高,仅依靠统计相关性分析不足以支撑故障诊断、预测预警等工业应用,需要将物理模型与数据模型结合,挖掘因果关系。
(8)闭环性 (Closed-loop):包括产品全生命周期横向过程中数据链条的封闭和关联,以及智能制造纵向数据采集和处理过程中,需要支撑状态感知、分析、反馈、控制等闭环场景下的动态持续调整和优化。
由于以上特征,工业大数据作为大数据的一个应用行业,在具有广阔应用前景的同时,对于传统的数据管理技术与数据分析技术也提出了很大的挑战。