人工智能 (AI) 是未来十年最大的技术趋势之一。在日益数字化的世界中,传播和收集数据是现代商业和所有互联网活动的默认状态。企业面临的问题不再是缺乏数据,而是数据过剩。尽管工业公司可以获得大量数据,但对于大多数人来说,他们的人工智能系统并没有提供他们预期的洞察力。解决方案在于过滤数据,以便正确的数据进入人工智能系统。这种智能数据方法将使人工智能系统能够产生我们所期望的那种洞察力。
什么是智能数据?
人工智能是第四次数字革命的关键组成部分。人工智能从大数据中挖掘出洞见,人类不可能挖掘出洞见。AI拥有的数据越多,它拥有的变量就越多,它的时间尺度越长,它的粒度越大,那么它所拥有的潜在洞察力就越大。
人工智能可以利用多年的数据,使用控制变量发现工业过程的最佳参数。然后可以在这些工业系统中使用这些见解,使它们比以前更好地工作。
尽管人工智能前景广阔,但许多工业公司尚未看到传播和收集如此多信息的好处。据麦肯锡称,尽管 75% 的工业公司已经尝试过某种人工智能系统,但只有 15% 的公司享受到了人工智能带来的任何有意义的、可扩展的影响。麦肯锡发现他们对人工智能的使用缺乏洞察力。这种方法可能是成功的,但通常只在非常特定的参数范围内,并且经常需要频繁的培训、大量的输入,有时,它会导致物理或不切实际的结果。因此,这些 AI 模型无法真正用于现实世界,也无法获得用户期望的有意义的变化。你得到的是对系统感到沮丧并对人工智能失去信心的团队。
智能数据是解决方案。为了利用大数据来获得预期的洞察力,数据必须具有更少的变量,这些变量由基于第一原则的特征工程控制。这种重新设计数据以生成智能数据,加上更适当的培训可以带来 5% 到 15% 的卓越回报。
智能数据已以多种方式定义,但基本特征是它指的是已在收集位置准备和组织的数据,以便为更高质量、速度和洞察力的数据分析做好准备和优化.
在2018年前的一次会议上,时任美国国土安全部信息共享和服务办公室执行主任的唐娜·雷 (Donna Ray) 表示,她的团队大约 80% 这段时间都用于搜索、摄取和准备数据以供分析。智能数据方法已帮助联邦机构优化其流程并加快其运营并使它们更加智能。《连线》将智能数据描述为智能数据意味着真正有意义的信息。
如何生成智能数据?
让我们看一下创建智能数据的五个步骤。
定义数据
创建智能数据的第一步是定义流程。这意味着必须为公司的工厂工程师和专家将流程分解为清晰概述的步骤,并勾勒出物理和化学变化。必须确定关键业务仪器和传感器,例如无线安全、限制、维护时间范围、测量单位及其可控性。在物理系统中,存在由明确的方程支配的确定性元素。必须注意这些方程以及它们的变量。团队还必须了解围绕这些方程式的文献,以增加他们自己的理解。
丰富数据
我们都听说过“Bad data in, bad data out”这句话,但现实是,所有数据在某种意义上都是坏数据。原始过程数据总是存在一些缺陷。因此,我们的任务是提高数据集的质量,而不是增加可用数据量。必须积极清除非稳态信息。
降维
AI 通过将观察对象与特征进行匹配来构建模型。为了得到一个广义的模型,观察的数量必须远远超过特征的数量。输入通常被组合以生成新特征。考虑到典型工厂拥有的大量传感器,结果是大量的观察结果。然而,应该做的是使用描述所涉及的物理过程的输入,通过确定性方程汇集,以减少它们的维数,同时还创建具有智能组合传感器信息的特征。
应用机器学习
工业过程具有确定性和随机性成分。基于第一原理的特征提供确定性组件,机器学习随机性。因此评估特征以评估其重要性和解释力。理想情况下,最重要的应该是专家设计的功能。
工厂改进应该是模型的重点,而不是实现最大的预测准确性。高相关性是所有过程数据的一个特征。因此,相关性可能毫无意义。需要的是隔离因果要素和可控变量。
实施和验证模型
为了真正享受预期的有意义的影响,必须实施模型。需要通过检查关键特征来不断评估结果,以确保它们与物理过程相匹配。还必须审查部分依赖图,以便我们了解因果关系并且必须确认可控元素。
必须咨询运营团队并使其成为流程的关键成员,以更好地了解什么是可实施的以及什么绩效期望是有意义的。控制室中的操作员需要在生成模型结果时获得模型结果,或者团队必须进行开关测试,以便管理层可以确定是否值得将资金投入到全面的解决方案中。
结论
人工智能有着巨大的前景,当然,随着今天传播和收集的大量数据,建议围绕这些数据设置限制或护栏是违反直觉的。然而,大数据往往无法产生有意义的人工智能洞察力。智能数据可以确保人工智能能够产生我们期望的有意义的影响。