沈阳鸿宇科技有限公司

【行业资讯】数据采集入门:数据源、数据类型、数据格式、采集方法

发布时间:2023-11-08 文章来源:鸿宇科技 浏览次数:608

      收集关键数据是一项挑战,但制造企业可以通过一些有效的方法应对这些挑战并获得收益
      制造企业正在积极开展项目优化以实现流程自动化,高效地收集和记录数据,并以关键绩效指标(KPI)或衡量标准的形式报告结果,从而为其业务带来重要的价值提升。然而,在这一过程中,他们遇到了许多收集和存储数据的方法,并不得不从众多软件和硬件供应商中做出选择。
      每个第三方供应商都有各自专注的特定应用领域,使其提供的服务对需要的公司更具吸引力。毕竟,从锅炉中收集系统关键数据与从生产轮胎的过程中收集数据大不相同。
      从多个第三方供应商的数据收集系统中选择,也给制造商带来了挑战。工作人员必须处理多个历史数据库和多个程序,才能访问公司数据并进行分析和报告。
      要克服这些数据采集方面的挑战,必须对各种数据源、类型和格式进行审查。同样重要的是,研究最佳实践以采集系统的关键数据并将其存储到一个中心位置,以便于日后访问。

01
来自资产或元件的数据源

      数据是在过程的不同位置和来源生成的。这些数据表明设备和过程目前正在发生的事情。来自资产或原件的数据源,通常通过可编程逻辑控制器(PLC)、监控和数据采集(SCADA)系统、分布式控制系统(DCS)、关系数据库、实验室信息管理系统(LIMS)甚至手动记录器,以数字或模拟数据的形式呈现。然后将数据存储在数据库或历史数据库中。
      一个最佳实践是收集所需或期望的系统数据,并使用历史数据库将其存储在某个位置。为了完成这项具有挑战性的任务,需要安装并配置接口节点。接口节点通常设置在数据源所在的网络上,并利用接口或连接器获取数据并将其写入历史数据库。
      现在的大多数技术都允许实时处理和呈现来自数据源的数据。虽然并非在所有情况下都需要实时数据,但当事情开始朝着错误方向发展时,如果可以在资产或元件层以外的地方对数据做出响应,就可以减少响应时间。具有通知的实时数据有助于预防各种事件,例如:
      当储罐中没有足够的空间时,产品被泵送到储罐中;
      储罐中的产品未能冷却至所需的温度;
      热氧化器温度下降超出许可范围;
      催化转化器中的热点检测;
      过程空气压力损失。
      从一个数据库收集、存储和分析来自多个来源的数据,可以使关键数据的处理和通信更容易,也更一致。

02
常见的数据类型

      在决定采集和存储哪些数据时,重要的是要知道来自资产或元件的数据类型,采集数据并将其存储在数据库中需要什么,以及是否有任何限制。有许多数据类型需要考虑,包括:
      整型–无分数的数字数据类型;
      浮点–带分数的数字数据类型;
     字符–单个字母、数字、标点符号、符号或空格;
      字符串–字符、数字或符号的序列–始终作为文本处理;
     布尔值–真值或假值;
     枚举型–预定义的唯一值(元素或枚举器)的小集合,可以是基于文本的或数字的;
      数组–按特定顺序列出多个元素,通常为相同类型;
      日期–以YYYY-MM-DD格式显示的年月日(ISO 8601语法);
      时间–以hh:mm:ss格式表示一天中的时间、事件发生后的时间或事件之间的时间间隔;
     日期时间–日期和时间,格式为YYYY-MM-DD hh:MM:ss;
      时间戳–自1970年1月1日午夜(00:00:00 UTC)(Unix时间)以来经过的秒数。

03
不同的数据格式

      数据格式(或文件格式)通常作为数据文件存储在深度存储系统中,不同的文件格式采用不同的压缩算法,可为特定用例带来好处。例如,数据湖中的数据存储方式至关重要,而格式、分区和压缩则是成功的驱动力。

      以下是一些常见数据文件格式及其不同的特点:
      CSV:当需要兼容性、电子表格处理和可读数据时,这类数据文件是一个很好的选择。缺点是数据必须是扁平的。扁平数据库是一个基本的列/行数据库,历史记录是相关的,这意味着数据可以基于时间戳或其它“关键”标准来自数据库中的不同位置。
      JSON:当需要嵌套格式(即与父数据集的当前行保持同步的特殊数据集)时,JavaScript对象表示法(JSON)是一种很好的方法,可用于多个应用程序编程接口(API)。不过,在某些情况下JSON可能比较难读,尤其是不熟悉结构化查询语言(SQL)或其他编程语言的人。
      Avro:它用于以二进制格式存储行数据,使其结构紧凑且高效。它以JSON格式存储,使其更容易被任何程序读取和解释。
      Parquet:这是一种柱状存储文件格式,与Hive插件配合使用效果更好。它用于有效地存储大型数据集。
      文件格式在很大程度上取决于所使用的系统。选择文件格式时需要考虑一些重要的因素,例如:数据结构、性能、可读性、压缩、模式以及兼容性。

04
制定战略性数据采集方法

      为了克服数据获取方面的挑战,制造企业需要一个精心规划和易于执行的解决方案,将数据收集、分析和沟通提升到一个新的层次,同时获得更多的投资回报(ROI)。虽然有许多选项可用于收集、分析和交流关键数据,但从单个位置提取所需的数据往往是最容易实现的。
      如果数据无法存储在中央历史记录/数据库中,则可以使用报告工具从多个来源提取关键数据,并在单个报告中报告该数据。能根据事件或对数据工况做出反应,并生成通知/报告提交给合适的人员,可以帮助企业节省宝贵的时间和成本。
      大多数制造企业很难做到将所有数据带到同一个位置,尤其是在资源有限的情况下。处理如此规模的项目通常需要咨询具有专业知识和工具的第三方合作伙伴,以将此类项目整合在一起。专业的合作伙伴可以提供数据采集系统和软件的整体视图,同时帮助审查供应商的各种选项,包括历史记录和数据分析工具。
      了解各种数据源、类型和格式并使用最佳实践,可以帮助制造商更轻松地访问和分析中央数据存储库中的关键系统数据。这样做有助于企业更快地实现预期的商业收益,并在竞争中保持领先地位。

      关键概念: 
      了解如何在数据源所在的网络上设置接口节点,并使用接口或连接器获取数据并将其写入历史数据库。
     在决定采集和存储哪些数据时,了解来自资产或组件的数据类型非常重要。
      ■ 了解常见的数据存储格式,以及具有压缩算法的不同文件格式,这些算法使特定用例受益。

      思考一下: 
      如果更好的整合数据,您的设施可以获得哪些新的见解?