1.2 工业大数据的定义与来源_工业大数据测试与评价技术-QQ阅读女生青春网

上QQ阅读APP看书，第一时间看更新

1.2 工业大数据的定义与来源

1.2.1 工业大数据的定义

20世纪90年代，科学家们在进行气象地图分析、大物理仿真计算、基因图谱分析等基础科学研究时提出了“大数据”这个概念。进入21世纪，互联网、电子商务、移动互联网、社交网络、物联网等技术蓬勃发展，大数据成为这些新一代信息技术发展的必然产物。大数据具有数据量大、数据类型复杂、数据处理实时性要求高等特点，大数据分析在互联网和电子商务领域的广泛应用产生了巨大的商业价值，得到世界各国的高度重视。全球著名战略咨询公司麦肯锡认为，大数据是创新、竞争和生产力的下一个领域。

工业大数据也是一个全新的概念。2012年，GE公司率先明确提出了“工业大数据”的概念 [1]，主要关注工业装备在使用过程中产生的海量机器数据。仅从字面上理解，工业大数据是指在工业领域信息化应用（包括企业内和产业链，以及客户/用户和互联网上）中所产生的海量数据。工业大数据来源于产品生命周期的各个环节（包括市场、设计、制造、服务、再利用等），以及企业外、产业链外的“跨界”数据。随着信息化与工业化的深度融合，信息技术渗透到了工业企业产业链的各个环节，条形码、二维码、RFID、工业传感器、工业自动控制系统、工业物联网、ERP、CAD/CAM/CAE/CAI等技术在工业企业中得到广泛应用，尤其是互联网、移动互联网、物联网等新一代信息技术在工业领域的应用，工业企业也进入了互联网工业的新的发展阶段，工业企业所拥有的数据也日益丰富 [2]。工业企业中生产线处于高速运转，由工业设备所产生、采集和处理的数据量远大于企业中计算机和人工产生的数据，从数据类型看也多是非结构化数据，生产线的高速运转则对数据的实时性要求也更高。因此，工业大数据应用所面临的问题和挑战并不比互联网行业的大数据应用少，在某些情况下甚至更为复杂。

1.2.2 工业大数据的来源

近年来，随着互联网、物联网、云计算等信息技术与通信技术的迅猛发展，数据量的暴涨成了许多行业共同面对的严峻挑战和宝贵机遇。随着工业制造技术的进步和现代化管理理念的普及，工业制造业企业的运营越来越依赖信息技术。如今，工业制造业整个价值链、制造业产品的整个生命周期，都涉及诸多的数据。同时，工业制造业企业的数据也呈现出爆炸性增长趋势。工业制造业企业需要管理的数据种类繁多，涉及大量结构化和非结构化数据。

• 产品数据：设计、建模、工艺、加工、测试、维护数据、产品结构、零部件配置关系、变更记录等。

• 运营数据：组织结构、业务管理、生产设备、市场营销、质量控制、生产、采购、库存、目标计划、电子商务等。

• 价值链数据：客户、供应商、合作伙伴等。

• 外部数据：经济运行数据、行业数据、市场数据、竞争对手数据等。

随着大规模定制和网络协同的发展，工业制造业企业还需要实时从网上接受众多消费者的个性化定制数据，并通过网络协同配置各方资源，组织生产，管理更多的各类数据。下面分别介绍各种工业大数据类型的来源及特点 [3]。

1.2.2.1 产品数据

1.设计数据

（1）设计图纸变成数据

随着技术的发展，现代制造产品越来越复杂，很多制造产品是集软件、电子、机械、液压和控制等模块于一体的典型多技术系统。比如，一架美国波音747大型客机的零件数量多达600万件，其中连接件有300万个，风洞吹风测试达15 000h，电缆总长274km。这样的产品设计对制造企业而言是一个巨大的挑战。

1961年，我国开始仿制原苏联的米格—21飞机，同年8月，原苏联提供的飞机图纸和技术资料陆续运抵当时技术实力最强的沈阳飞机制造厂。这批技术资料重达13吨；仅翻译、复制、校对这批图纸和技术资料，国家就协同相关单位花了1年多时间才完成。2001年，我国在“枭龙”战斗机研发中首次全线采用三维数字化设计技术，结束了制图、晒图的历史，节省了大量繁琐的劳动与时间，大大缩短了设计和研究的时间。这架飞机的结构更复杂，承载设计的不再是成吨的图纸，而是多达9万多张的数字图纸。

事实上，复杂的产品还表现在客户需求复杂、产品组成复杂、产品技术复杂、制造过程复杂、项目管理复杂，其设计过程是机械、电子、控制、信息化等多领域一体化协同的过程。一种新的汽车车型，需要开发2万～2.5万个零件，想要更快地开发出更好的汽车，就需要更好的设计数据管理和处理技术。在企业数据基础上，设计工程师和制造工程师们可以使用产品全生命管理系统（PLM）等工具共享数据；通过快速、低成本的仿真来测试不同的设计选择、不同的零件和供应商的选择，并测算这些选择各自相关的制造成本。这种数据协同非常有价值，因为设计阶段的决策通常会决定制造成本的80%。业界领先的一些企业已经开始协同使用数据和协同控制试验，通过数据分析和模拟及早地获得一些设计决策。

现代新药研制也是一个常见的“计算对象”。以前，开发一种新药要经过原理研究、动物试验、志愿者试验等步骤，很多内容需要在现实中大量地、反复地试验，整个研制周期往往长达十余年，其耗费的时间与精力可能不亚于登月工程。如今，很多基础性的试验和计算工作可以通过在超级计算机上模拟完成，研制周期可以大大缩减，一种新药3～5年就能研制出来。对于今天的制药企业来说，采集和拥有一致、可靠、关联完整的数据反而成了新药研发面临的最大挑战之一。

（2）工程分析数据

汽车的安全碰撞分析是检验汽车安全性的重要手段，它是在专门建设的碰撞试验场中实现，丰田公司位于东富士研究所的碰撞试验场长280m、宽190m，占地面积约38 740m2，俯瞰整个试验场，是一个方形与扇形组合而成的巨型试验场地，可以进行障碍物碰撞试验、车与车对撞以及各种翻滚试验，以满足全世界最严格的各种碰撞法规。全年可进行大约1600次碰撞测试，也就是说平均每天这里会有至少4次的碰撞试验。除了碰撞设备和被检测的汽车，汽车公司还要研制作为碰撞试验中获取驾乘人员重要数据的假人，包括各种体型、年龄、性别的假人。假人要有极为精确的模拟生理结构，甚至还有孕妇模拟假人以准确还原碰撞中孕妇和腹中胎儿所受伤害的情况，以便更加有针对性地开发安全装备。这些假人价值不菲，且都是一次性的。在以往的汽车研发中，要研究一种新车的安全碰撞情况，可能需要制造近百台真车，再进行碰撞试验并收集数据。

噪声、振动与声振粗糙度NVH（Noise、VibrATion、Harshness）是一个衡量汽车制造质量的综合性问题，它给汽车用户的感受是最直接和最表面的，它也是国际汽车业各大整车制造企业和零部件企业关注的问题之一。有统计资料显示，整车约有1/3的故障问题和车辆的NVH问题有关系，而各大公司有近20%的研发费用消耗在解决车辆的NVH问题上，这也需要大量的分析工作。

现在，借助超级计算机和计算机辅助工程，企业可以进行模拟分析、验证和改善设计，节省成本。汽车研发人员可以通过数字样车实现汽车碰撞和数据收集，然后再通过真车碰撞对设计进行实践检验，因此实际用车可能几台就够了。通用汽车运用数字化试验后，汽车开发周期由48个月缩短到12个月以内；菲亚特、丰田和日产公司都将新型号的研发时间缩减了30%～50%；丰田宣称在构建产品的第一个原型系统之前，已经可以通过大数据应用消除80%的潜在缺陷。

（3）数据分析得到的设计数据

产品设计和工程分析中蕴藏着大量的数据。计算机辅助技术（CAD、CAE、CAM、CAPP等）的广泛普及使得这些数据更加规范、精确，便于分析处理。

在各种新兴信息技术日新月异发展的今天，为了满足虚拟展示、可视分析、协同设计的需要，以及新兴交互技术、显示技术、分析技术的引入，产品设计和工程分析数据的规模、类型和分布也开始迅速增长，需要借助大数据的分析和处理能力。基于大数据的关联分析能力，设计人员可以深入挖掘以前开发中没有注意的现象与规律，从中发现设计知识。

① 分析用户需求数据，找到用户对产品的真实需求，改进产品设计。通过广泛收集数据，特别是捕获用户与产品功能界面的交互数据，一定程度上可以还原用户在一段时间内的行为，它们是用户行为轨迹的真实反映，这样就有了用户的真实的主观需求，这种需求甚至用户自己都不清楚，只是单纯地觉得什么东西用起来不顺手，我想要什么功能，我想修改什么功能。通过分析，可以找到这些需求背后深层次的原因，而这也许正是解决问题的关键点。举个例子，用户在手机触屏虚拟键盘上输入拼音时总是感觉按钮有偏差，不是点不中就是老点错；研究者通过在线收集用户的触控交互数据，最终发现，用户的点击都有些向下偏移的倾向；进一步分析可以了解到，人的手指肚形状是一个中间凸起、前部微翘的形状，这就造成了用户点击的偏差，这个知识可以用来改进触屏界面交互设计。

② 利用加工过程中的数据反馈和产品使用中的行为数据，可以帮助制造商探索最佳的设计和工艺，改进设计，甚至帮助改变其业务模式。汽车上大量传感器的使用，使得采集汽车运行行为数据可以很方便地进行，而且不会对顾客造成干扰，汽车行业的巨头们已经纷纷开始利用汽车行为数据改进设计，这将从根本上改善汽车的设计。福特研究实验室的测试汽车每小时会从高分辨率照相机和传感器阵列中收集约250GB数据，他们正在试图找出其中哪些数据是最有用的，以及如何将这些数据回馈给公司的生产过程。鉴于福特公司年销售200万辆汽车的市场规模，从汽车运行中采集的数据量之大可想而知，这其中蕴含着巨大的设计价值。企业利用这些数据，可以为消费者打造出更简单、直接、便捷的汽车生活体验。数据甚至改变了汽车的销售方式，沃尔沃公司正在积极售卖其基于大数据推出的“公路列车”，在车流时速低于50km/h时，尤其是在堵车的情况下，汽车可以自动跟随前方车辆行进，车辆之间保持适当车距，同时保持对转向的控制，这时的驾驶员就可双手脱离方向盘干点别的事了。这是其基于庞大的道路数据库、汽车互联数据库打造的一套系统。

③ 社交媒体的数据同样可以用于改进设计。福特公司从分析许多社交媒体和外部订单数据中发现了一些有价值的线索。汽车顾客们在社交媒体上都说了什么，与其他厂家的车对比如何，以及他们遇到了什么问题，等等，这些都是福特关心的数据。福特公司使用社交媒体帮助弄清楚了为什么美国的Fiesta车主和欧洲的车主一样，都不喜欢three-blink转向信号（行车线变化时转向灯闪烁3次）。“一些有three-blink功能美国车的人，看来并不是我们预期的那样满意。”这让福特公司的市场营销团队很困惑，他们非常想了解关于这个设计，用户是怎么想的。通过对社交媒体进行一些深入的数据挖掘后，福特公司的分析团队发现，其实用户不满意的是方向盘的问题，而不是车辆的转向信号。这样，销售团队向顾客认真解释后，人们就不再抱怨转向信号的问题了。

（4）数据驱动的设计

新产品开发是一件高风险的事，每年进入市场的新产品中都有大批以惨败收场。在设计初期的创意阶段，要通过市场信息来制定产品的设计开发计划，了解市场流行趋势及科技发展趋势，消费者在乎的是什么。传统市场调查得到的讯息，不外乎价格、外观、性能等，却无法从这些信息看到全面性、情感性及前瞻性，容易使设计上的创新性和需求性受到局限，且增加了新产品进入市场惨遭挫败的风险。而从大数据的角度去驱动产品创新，就会在信息的广度（如搜索引擎、社交网站、行业信息）、深度（如情感分析）和前瞻性（如新能源、新技术、新材料）方面，达到传统市场调查无法达到的程度，这也会直接影响产品创新设计的水平及未来上市后的成败。

最易见效的方法是通过客户分析——公司密切关注社群网站的信息、讨论区消息及其他在线信息，了解人们的所思所想。用户对产品的情绪分析成为互联网世界产品概念设计和概念测试的依据，这种信息可以让产品设计者在各种问题和想法完全被意识到之前，及早发现它们。大数据是说公司可以挖掘分析大量各种信息，以改善下一代产品和服务。社会和经济活动的不断网络化，数据收集、传输、存储和分析成本的下降，共同导致了一个有助于培育新的产业、工业和产品的大数据时代的出现。

数据驱动的设计能够在制造任何实物产品之前预告设计过程，从而降低成本，并确保最终产品更加符合客户偏好。例如，欧特克（Autodesk）的计算机辅助设计软件AutoCAD已经流行了几十年，而现在该公司正在开发一种更加基于数据驱动的方式。这项研究是在其建立的算法生成设计（Algorithmically Generated Design）研究项目“追梦计划”中，最终目的是将其与公司的其他产品整合，使设计者能够根据一系列材料和性能要求生成设计，然后将这些设计用于进行高精度的增材制造。

数据驱动的设计在其他领域已经成为标准做法，制造商若将其更全面地应用于自己的产品，将会受益匪浅。汽车制造商，如沃尔沃（Volvo）公司和迈凯伦（McLaren）公司都采取了基于模拟的方式来驱动设计。迈凯伦公司在制造实体原型之前，先要对其设计进行性能分析；沃尔沃公司则通过整合客户数据来预测一个特定设计或功能是否能够吸引客户。

在电动汽车领域，电池系统、电动机系统是两个最核心的技术领域。美国Tesla（特斯拉）电动车公司的充电桩代表了世界上最发达的充电技术。为了让电动汽车更实用，特斯拉公司正在拼命缩短充电时间，使得充电速度越来越快，现在充满一半电量只需20min，是普通电动车充电速度的20倍；而一辆60kWh电池组版本的Tesla Model S充满电可以续航368km。特斯拉首席技术官施特劳贝尔（Straubel）甚至宣布可以将充满电池的时间缩短到5min——这已经跟加满一箱油的时间差不多了。这实际上是特斯拉公司取得市场竞争优势的法宝。而取得这样的设计结果，特斯拉公司依靠的是来自JMP的高级试验设计（Design of Experiments,DoE）平台及数据分析套件。JMP是全球最顶尖的统计学软件集团SAS公司的重要事业部，致力于帮助全球企业客户提升质量管理、优化业务流程和改进产品研发。通过JMP提供的高级试验设计、数据分析套件及数据挖掘方法，特斯拉公司找到了电动车充电技术的窍门，成功解决了电池温度与快速充电问题，并且实现了对单个电池的温度与工作环境的监控，成功解决了困扰电动车界的高效能充电和放电、电池可靠、安全工作以及电池容量等几大难题。

2.生产数据

（1）机器生成的数据

所谓机器生成数据，是指那些从计算机过程、应用软件或者机器上自动地、没有人为干预而创建的信息。莫纳什研究院的柯特·莫纳什是这样定义的：“机器生成数据是完全由机器产生的数据，或者观察人类行为而不是记录人类决策的数据。”耶鲁大学教授丹尼尔·阿巴迪给出了一个狭义的定义：“机器生成数据是一种独立计算代理决策的结果，或者是对一个非人类行为事件的测量。”这些定义尽管有些差异，但它们都排除了数据由人类手动输入的情况。

在“工业4.0”时代，机器所产生的工业物联网数据，将远远超过目前消费互联网所产生的数据量。Gartner在2009年发布报告称，数据在接下来的5年内将增长650%。大部分的增长源自机器生成的数据。IDC预计到2020年，联网的物体将是人的互联数量的26倍。Wikibon预测，到2020年，将会有5140亿美元投资于工业互联网。

数据的量变会产生质变，大量的机器数据将会催生新的商业模式，并在全社会范围内优化资源配置：更自动化的生产设备，更灵活的流程管理，让工厂能够基于市场预测快速地装配调度，智能地生产，从而以最快的速度匹配消费者需求。

鉴于机器生成的数据的巨量特性，数据所有者需要借助于高度可扩展的工具来处理和分析所得到的数据集。几乎所有机器产生的数据都是无结构的，但最终会导入一个共同的结构中。通常，这种导出的结构包含许多数据点或者列。对于这些数据点，挑战主要在于如何分析数据。由于高性能的处理要求，同时又是巨大的数据量，传统的数据库索引和分区限制了数据集进行处理的大小和效率。替代方法是采用列数据库，在做特定分析时，只访问特定的“列”。

在长期积蓄了实时收集的大量数据后，可按每台设备、每月、每班、每份订单等进行比较，找出其相互关系。通过分析其中复杂的数据关系，不仅能优化生产过程，而且有助于设备的预测性维护和提高质量等。例如，某塑料制品制造工厂通过分析生产过程的数据、产品质量和自然环境数据的相互作用，可以了解到因工厂内外的温度变化而带来的生产线异常以及对产品质量的影响。

（2）智能工厂

现代化工业制造生产线安装有数以千计的小型传感器，用于探测温度、压力、热能、振动和噪声。低成本传感器技术（即物联网）的扩张已经使得几乎所有制造工艺和零部件成为潜在的数据源。为了实时控制生产线的制造装置和设备，要求以间隔几十秒、几秒甚至接近实时的频率，收集和分析自动化生产线的运行记录数据、各种传感器数据和工厂内外环境数据等构成的大数据，如图1-1所示。

图1-1 在工厂内搜集大数据的概念图

数据产生的频率会很快，每隔几秒就收集一次数据，传感器数量的增加与数据产生速度相叠加，造成了传感数据的爆发性增长，使得这些数据的体量非常庞大。但是把每件物品都装上传感器并每秒搜集一次感知数据还是颇有挑战性的。数据的搜集、存储和处理的速度如果赶不上数据产生的速度，那就只能任这些数据被丢弃，因为不可能存储所有的数据，传统企业已经习惯于对数据进行摘要了。

监视控制与数据采集系统（SCADA）就是这样一种工业控制系统，它们从诸如能源、交通、石油和天然气、供水和废物控制等行业的设备中收集并分析实时数据。这些系统生成有关组件状态、运行、使用和通信等的大量数据。这些数据可以用来确定企业基础结构中的趋势、模式和异常情况，并用于产生客户价值。

现在，领先的制造企业已经可以利用大数据技术对庞大的感知数据进行各种形式的分析，包括设备诊断、用电量分析、能耗分析、质量事故分析，深入了解实体制造过程，以提高效率，增加产量，并降低产品缺陷。比如在能耗分析方面，在设备生产过程中利用传感器集中监控所有的生产流程，能够发现能耗的异常或峰值情形，由此便可在生产过程中优化能源的消耗，对所有流程进行分析将会大大降低能耗。

美国雷神（Raytheon）公司甚至能够追踪到工厂中—颗螺钉旋紧的次数。雷神公司位于美国阿拉巴马州亨茨维尔的新导弹工厂部署了复杂的自动化系统，用来收集和分析工厂底层生产数据。对于导弹这样的高精密产品，存在缺陷不是多或少的问题，而是有或没有的问题，哪怕极其细微的缺陷也不应出现。未能使用正确的紧固件或是安装方式不正确都可能导致产品的失败。过去，这些瑕疵只有在随后的安全检测中才能被发现，有些可能永远也无法发现；而且仅仅是因为螺钉、螺栓这些紧固件安装不正确，或是不符合要求，导致的返工、维修和更换的花费就高达数百万美元。

雷神公司的“大数据”发现能力意味着它能够捕捉到更多存在的瑕疵。比如说，如果一颗螺钉需要拧13次才能够上紧，但事实上只拧了12次，系统便会发出错误信息，导弹或配件的安装、制造就会被终止。雷神公司同时还自动保留了每颗导弹的制造数据，其中包括每个配件及其操作员的姓名，以及制造过程中每一步的湿度和温度。发生缺陷时，这些将有助于找出究竟是哪里存在问题。过去，这些数据必须由人工输入，不但繁琐，也增加了错误出现的可能。

摩托车生产厂商哈雷·戴维森公司位于美国宾尼法尼亚州约克市的摩托车制造厂中，软件不停地记录着微小的制造数据，如喷漆室风扇的速度等。当软件察觉风扇速度、温度、湿度或其他变量脱离规定数值时，就会自动调节机械装置。过去，喷漆工作总是存在一定的偏差，每个人做相同的工作总会有一些差别，这最终导致了产品质量的不稳定，而采用了感知数据的自动控制后，可以保证稳定的产品输出。哈雷·戴维森公司同时还使用大数据寻找制约公司摩托车制造效率的瓶颈。公司的管理者通过研究数据发现，安装后挡泥板的时间过长，通过调整工厂配置，提高了安装该配件的速度，最终实现了每86秒生产一台摩托车。

实际上，它们有一个共同的指向，那就是智能工厂。把机器作为底层，并在安装传感器和执行器后搭建一套应用系统以实现信息处理，从而形成一套网络世界与物理世界的交互系统（Cyber Physical System），最终实现机器与机器之间、机器与人之间的对话，这就构成了智能工厂的基础。

在“工业4.0”时代，每个工厂都应有一套智能系统。首先，它能够通过传感器对机器运作数据进行采集，并加以分析，从而实时地了解工厂的运作情况；其次，它能够通过控制器对机器运作进行控制；再次，它还能对消费者行为数据进行分析，对产品从设计到销售的全生命周期进行最优化的管理。在组装线上，每个工人头顶有一块屏幕，上面显示着用户的定制需求，工人根据用户需求来组装洗衣机成品。而显示屏上的用户需求，并非是由人输入的，而是通过无线射频识别器，由生产线上的产品来“告诉”设备的，设备将数据翻译成文字传达给工人。

每天，这家工厂的机器产生超过2000万条数据。处理数据的地方就在不远处的大数据中心，它的房间门牌号为“101”，地位相当于工厂的“大脑”。其中，流畅运行的关键是形成一套标准化的数据，由上一台机器告诉下一台机器如何生产。而人在这间机器主导的工厂内，地位不降反升。互联工厂相比传统工厂，工人数下降了70%，操作工进化为知识员工，是智能设备的管理者。

（3）数据驱动的制造

自动化设备的普及，推动了传统制造业管理流程不断向数字化转型。通快（Trumpf）公司是一家做激光加工设备的老牌德国企业。其出售的不仅是激光加工设备，更包括使用激光设备所必需的工业软件。它的客户买来设备后，必须对相关工业软件进行编程，才能在自己的制造环节中使用这些设备。抽象来看，制造一辆汽车，已超越了对材料本身的物理加工，同时它包括不同加工设备之间几亿条工业软件中的代码。无论是通快公司还是西门子公司，这些装备制造商早已大举跨入软件行业，实现了数据驱动的制造。

雄克（SCHUNK）公司是德国著名的精密夹具和自动化抓取系统制造商，也是静压膨胀式夹具系统生产厂和标准及特种卡爪生产厂，其总部位于工业名城斯图加特市附近。大数据和云计算为雄克公司实现智能制造提供了支持。比如，可以通过数据控制的道具、夹具替换实现批量定制，在同一生产线同一批次生产不同的产品；能够用订单驱动生产线运转，实时监控生产线的状态，还可以在线监测产品质量。

当供应链上更多的环节加入数字化管理的洪流时，机器所产生的工业数据量将远远超过目前消费互联网所产生的数据量。海量的数据不仅能够造就新的算法，帮助人类更加深刻地理解工业本身，还让资源进一步打破智能工厂的边界，在全社会范围进行最优配置。

从传统意义上来说，经销商在市场预测和实际需求之间有一定的滞后；而在经销商订单和制造商实际供货之间，又有一定的滞后。两者一叠加，随着时间的推移，库存量会产生剧烈波动。糟糕的是，越是试图积极调整，这个波动就越剧烈。长此以往，制造企业的生产周期管理就变得十分困难。因此，除了通过电子商务等互联网手段缩短市场信息的传导机制外，制造企业的一个核心目标是通过生产车间的智能化，进一步压缩生产周期，从而灵活地应对订单的变化。

（4）设备运维数据

在资产密集型企业中，设备是否能够正常、高效地运转，直接关系到企业盈利。一台机器出现故障就可以导致整个生产线中止运行。传统设备维修通常分成两种：故障维修和预防性维修。故障维修常会带来生产中断，给企业运转带来困扰，其中的安全隐患有时甚至引发灾难，危及员工及客户生命安全。但过早地维护是有成本的。最好有一个保养和维修的最佳时间表：不要太早，也别太晚。

企业不得不采取预防性维修来减少故障的发生，而预防性维修是根据经验决定维修周期和维修项目的，这或多或少都有一些不准确。一方面，不能完全杜绝事故的发生；另一方面，频繁的维修又会造成不同程度的浪费。互联网和大数据技术的应用，将使得预测性维修变成现实，从而大大提高设备的可监控性，提高设备故障预测的准确性。

机器学习算法可以为每台设备比对它的维护事件、基础数据和历史故障数据。这些算法可以基于实时信息和历史数据推导出最佳的维护计划，帮助企业最大限度地提高设备的利用率，最大限度地减少维修费用，并避免意外停工。

对于机器生产者来说，其消费者是各个工厂。在新工业革命的语境下，这些装备制造企业琢磨的是，如何能够把自己卖出去的设备所产生的数据给收集回来，并基于这些数据开发新的商业模式。因此，他们需要采集机器的使用数据，从而更好地了解机器被使用的情况，以便安排自己的机器维护服务，并对机器的设计进行改善。

以依巴米亚（Ibarmia）公司为例，它是一家西班牙机床公司，自1949年起就致力于精密机床制造，以高性能的动柱式加工中心及环形工件加工中心驰名全球机床行业。然而目前由于全球经济危机，机床行业正处于艰难的环境，销往国外的处于保修期内的机器的维护成本非常高，而东方国家制造成本相对较低，更具竞争力。这种困难的情况驱动公司考虑提高机器的平均可用性和可靠性，降低机器的制造成本，并为客户提供新的增值服务等。

尽管全世界的依巴米亚客户通常可以自行处理如更换机油、过滤器清洗等简单的维护问题，但由于依巴米亚机器自身精度、技术特性的要求，有时候需要复杂的维护任务，必须由公司的技术员或由依巴米亚培训认证的专业人员来执行。这意味着依巴米亚公司的技术人员需要经常飞到设备现场，即使客户在数千千米之外。此外，除了计划或日常维护操作，机器还可能遇到一些意想不到的故障，特别是发生在保修期内的，要求技术人员紧急出动，这使得相关的维护成本变高，给企业带来了极大的困扰。

依巴米亚公司希望他们的机器更聪明、更自主，使得一旦在客户设施上部署和设置以后，不会因为意外故障导致生产停止。此外，还需要使他们的机器能够预测异常，以在真实问题发生之前提前做出反应；万一发生故障，能够停止机器或采取适当的措施，避免造成意外的损失。此外，问题的解决也应以更透明的方式提供给客户，换句话说，在不停机的前提下采取快速可靠的行动。从依巴米亚公司的角度来看，透明的方式意味着投入更少的资源、人力和资金。

在这样的背景下，依巴米亚公司开发了一种新的智能维护服务的模式。首先，公司设计了一种基于BeltzBox装置的新的服务解决方案。BeltzBox实际上是一种嵌入式设备，未来将被连接到公司的所有机器。这个硬件设备中运行着特定的软件，能够读取机器PLC（可编程逻辑控制器）中的关键数值，并将其存储在本地数据库。该解决方案还执行一些预定义的规则来过滤信息，在检测到任何故障时生成相应的警报和/或相应的警告，并能够存储机器操作的相应日志。在此基础之上，公司构建了一个机器维护生态系统，通过整合合作伙伴，培育机床行业的创新服务商和增值服务商。这种“智能产品+服务模式”的整合将使机器保修期间的维护成本显著降低，使依巴米亚公司在机床行业的激烈竞争中取得了明显的差异化竞争优势。

（5）数据支持的能源管理

第二次工业革命使人类进入了电气化时代，在给生产生活带来极大便利的同时，也向能源管理提出挑战。在现代化办公和生产环境中，低压电器已非常普遍，企业的低压用电设备、线路数量众多，使得能源管理已成为企业设备管理中的一项重要工作。企业传统的能源管理主要依赖人工方式，通过人工对每台用电设备进行统计和监管实现管理，这个过程中一直存在两大问题，即能源浪费和设备用电安全。

能源浪费源于企业设备、工艺、管理等方面的低效率，从管理的视角看，设备能源浪费主要来自于粗放式的管理方式，一方面，只从保障设备能正常运行角度对电能进行管理，而没有从使用效率、生产成本等角度对设备用电进行精益管理；另一方面，节能制度与执行之间存在着严重的信息不对称，实施效果远远低于制度设计时的预期。

用电安全方面，当设备处在过载、失压、相间不平衡、功率因数过低等非正常工作状态时，人工管理方式无法及时告警和进行故障分析，导致设备跳闸和强行断电，对设备性能、人员安全、企业正常的生产过程造成巨大损失。

用电设备的监测、预警、控制是实现能源管理的必要条件，对所有用电设备的全面感知成为实现的基础。当前，智能插座、智能配电盘和电能分配器等设备已成功应用于企业低压用电设备管理中，这些设备将成为对所有用电设备管理的智能化节点。对设备的监测、告警、控制是实现能源管理的直接手段，制造物联和传感技术以其全面感知、可靠传输、智能处理等技术优势，可被广泛应用于企业能源管理过程中，解决企业面临的痛点。

基于广泛的传感器网络和大数据分析，企业可以建立智能的能源管理，并辅助设备生命周期管理。例如，捕获智能电网电表数据可以使客户能够通过工具、程序和服务更好地了解其用电情况，有针对性地帮助他们节能、省钱和减少对环境的影响。比如，各个智能配电设备可以实时测量与其连接的设备电力参数和设备用电状态，颗粒度可以细到每台用电设备。电力参数包括电压、电流、功率、功耗等，设备用电状态包括开机时间、关机时间、运行时长等。这些数据通过有线或无线方式传输至云端，管理人员通过手机或计算机终端实时查询。通过量化数据，一方面，管理人员可以远程关闭闲置设备；另一方面，可以用精细的量化数据实现节能审计。

另外，生产中的一些特殊设备要求实时在线，突发跳闸或人为断电都将造成不可挽回的损失，传统管理方式缺乏提前预警和故障分析，成为设备管理的一大瓶颈。智能插座、智能配电盘等采集大量设备的用电和状态数据，一方面依赖这些量化数据设置监测和报警策略，如高负荷、过电流、失压等，建立起及时告警机制；另一方面根据这些数据分析设备处于临界状态的原因，依据分析结果做出处理决策，而不是在每次临界状态下都采取强行断电的方式，尽量保障设备持续在线。

智能化能源管理设备不仅为企业带来量化的能源节约、用电安全等功能，也为企业设备生命周期管理提供增值服务。各类电力参数和用电状态数据是设备生命周期的重要参考数据，通过智能插座、智能配电盘等产品采集的数据成为设备生命周期管理的定量支撑，如以用电状态数据测量设备利用率，准确反映了设备的工作状态和生产效率，成为生命周期管理的依据。

例如，图1-2所示的是普赛通信公司的焊机无线群控系统，它通过采集每台焊机的工作电压、电流、气流量、送丝速度、焊接时间等数据，可以统计出耗电量、保护气体和焊丝使用量、焊工工作时间，能够实现精确统计生产成本。同时，利用这些数据还可以控制焊机的工作和焊接规范，利于焊机使用的管理和焊接工艺的严格控制。

图1-2 多台焊机组网监控 [4]

1.2.2.2 运营大数据

企业信息系统存储了高价值密度的核心业务数据。20世纪60年代以来，信息技术加速应用于工业领域，形成了产品生命周期管理（PLM）、企业资源规划（ERP）、供应链管理（SCM）和客户关系管理（CRM）等企业信息系统。这些系统中积累的产品研发数据、生产制造数据、物流供应数据以及客户服务数据，存在于企业或产业链内部，是工业领域的传统数据资产。

传统的管理数据通常存储于关系型数据库中。然而，据估计现在超过80%的企业的数据是非结构化的，即是无法用关系型数据库管理系统（RDBMS），如DB2和Oracle处理的数据。一般而言，非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息。并且由于非结构化数据存储总量较结构化数据的年增长率高出10～50倍，从业务角度看，处理好这些数据也变得更为重要。

1.ERP数据

企业资源计划（Enterprise Resource Planning,ERP），最早由美国Gartner Group咨询公司在1993年提出，它是由20世纪70年代的物料需求计划（MRP）、80年代的制造资源规划（MRPⅡ）逐渐演进而成的。由于其能够将企业的物流、人流、资金流、信息流统一起来进行管理，实现资源利用的最大化，因此自诞生以来，很多企业纷纷上线实施，形成了一股狂热的ERP热潮。

ERP是一个大型模块化、集成性的流程导向系统，集成了企业内部财务会计、制造、进销存等信息流，快速提供决策信息，提升企业的营运绩效与快速反应能力。ERP的主要模块包括生产管理、进销存货管理、财务管理及会计项目、成本管理、人力资源管理、供应链管理等，可以称为企业管理的中枢与企业数据的集大成者。

运转多年的EPR系统积累了大量的企业数据和行业数据，这些数据对于企业的经营决策和预测来说意义重大。如何确保这些数据的安全存储和及时运用，将影响到企业能否最大化地发挥ERP的价值。

随着云计算、SOA、物联网、移动互联网、BI等新技术的发展，企业的管理需求不断深化，不再局限于传统的优化内部业务流程、提升运营效率的层面上。CIO们的眼光更加长远，他们着眼于企业管理系统能否提供有价值的商业信息，供管理层进行科学决策。

因此，在大数据时代，数据的深度应用和分析将是企业管理的焦点，ERP系统中所蕴藏的数据价值亟需挖掘，而且，作为企业大数据的富矿，应该首先得到企业的重视。未来，实时商业分析、实时大数据处理会有巨大的市场机会。

ERP+BI是后ERP时代所向。然而，传统ERP是面向操作型的，从计划到执行到反馈到战略调整，缺少决策分析及在历史数据上的洞察能力，无法将数据转换成对决策有参考意义的信息。存储大量数据的ERP就好比古时候怀才不遇的英雄豪杰们，空有一身本领，却无法施展抱负。后ERP时代，ERP终于找到了“伯乐”——商务智能（BI），它主要通过对ERP中留存的数据进行抽取、挖掘、管理、分析等，将数据转化成为对决策过程有重大意义的信息，帮助企业实现从数据到信息、从信息到知识、从知识到利润的转化。通过ERP和BI的完美组合，ERP系统中的海量数据可以被充分挖掘，并进行多维度的分析、横纵向的剖析和筛选，将大量原始的数据转化成有价值的商业信息，不断地为企业策略的调整提供数据支撑，让ERP系统更好地服务于企业。

2.CRM数据

CRM系统，即客户关系管理（Customer Relationship Management）。企业活动面向长期的客户关系，以求提升企业成功的管理方式，其目的之一是要协助企业管理销售循环：新客户的招徕、保留旧客户、提供客户服务及进一步提升企业和客户的关系，并运用市场营销工具，提供创新式、个性化的客户商谈和服务，辅以相应的信息系统或信息技术，如数据挖掘和数据库营销，来协调所有公司与客户在销售、营销以及服务上的交互。

CRM可以实现对客户的量化管理，与客户有关的数据都将被记录，并可以被多次挖掘利用，挖掘数据中存在的潜在商业价值：什么产品最好卖，哪位员工最给力，哪个客户创造的利润最多，什么样的价格顾客最愿意接受，哪个供货商来得产品更物美价廉……而这些方面的信息都对企业发展有着至关重要的意义。通过对人们的活动和行为进行跟踪而获得的海量数据中，快速获得有价值信息的能力，就是大数据技术。各种同比和环比分析、TOP统计、图表和图形的统计分析以及销售机会预测，都将大大提升企业对数据的分析能力。

“客户管理，最关键的是要识别出最有价值的客户，让企业用80%的精力服务于给企业贡献最多利润的20%客户，这是CRM的核心思想。”那么如何整合企业的数据，让企业真正地了解客户？这是CRM大数据管理的第一步。企业可以将各部门的客户信息汇总，实现客户资料的集中、统一管理，提高数据查询效率，帮助员工查看客户信息的360°全局视图；实现客户评级和风险评估，帮助企业识别出最有价值的客户，为企业创造更大的利润提供坚实的基础；增加客户对企业的黏性，提高客户忠诚度，降低业务运营的金钱和时间成本，实现优质客户的利润最大化。

3.SRM数据

由于产业分工越来越精细，现代制造已经由企业间竞争提升为供应链间竞争，企业已无法“独善其身而不兼善天下”，加上企业国际化的趋势，企业除需落实内部健全的流程管控外，还需积极寻求与供应链上下游厂商的紧密整合。企业终端产品的大部分价值都来自于供应商，因此，制造型企业在寻求成本控制以及竞争优势时就需要更好地管理供应商，维护好与供应商的关系。有效的供应商管理系统将能够帮助企业增进与供应商的交流并与其建立更有效的合作，同时也能够帮助企业改进生产流程控制，做出更完善的供应商分析，选择并优化企业的供应商选择决策。

与CRM用来改善与客户的关系一样，供应商关系管理（SRM）是用来改善与供应链上游供应商的关系的，它是一种致力于实现与供应商建立和维持长久、紧密伙伴关系的管理思想和软件技术的解决方案，是旨在改善企业与供应商之间关系的新型管理机制，实施于围绕企业采购业务相关的领域目标是通过与供应商建立长期、紧密的业务关系，及对双方资源和竞争优势的整合来共同开拓市场，扩大市场需求和份额，降低产品前期的高额成本，实现双赢的企业管理模式。

随着供应商队伍专业化的发展，准确及时的采购可以节省开支，取得市场上的采购优势。采购既要面对生产，同时又要满足市场和客户的要求。SRM能够整合内部和外部数据资源，建立起高效能的组织采购，对自身业务关键性材料或者服务的需求进行战略部署，以减少日常生产运作中意想不到的问题。

SRM系统运行中会整合、产生大量的数据，包括供应商关系数据和供应业务数据，其中的供应商关系数据反映了供应商自身属性、资质、供应品种、合同、价格等重要的信息，供应业务数据则与采购订单、库存、物流、质检、财务结算等有关，这些信息都是企业进行分析决策的重要依据。SRM中的订单执行、技术、质量、响应、交货、成本和合同条款履行等关键数据，以及业务执行中的日志数据，可以帮助企业实现对供应商的量化绩效评估；供应商也可以向企业做出反馈，站在客户的角度给出他们对企业的看法。这些评估信息有助于改善彼此的业务关系，从而改善企业自身的业务运作。

例如，2012年SAP公司以45亿美元收购了Ariba采购软件公司。在收购Ariba公司之前，SAP公司和Ariba公司在很多领域是竞争对手的关系。在这一收购案背后，是两家软件公司对SRM数据充分整合的考虑。

收购之后，SAP公司自己首先成为一个混合运行SAP和Ariba SRM（供应关系管理）软件的公司。SAP公司还拥有Ariba Network，这是一个线上企业商务市场，购买者和销售者可以在这里交流，形成一个巨大的业务数据宝藏库。随着SAP公司逐渐深化Ariba与其他软件的融合，用户可以更容易地链接、共享和查询自己的以及合作伙伴的ERP、CRM、SCM和电子商务软件。最终的目的是无论在内部还是外部，都能做出更快、更灵活、更精准的反应。从Ariba公司这边来看，它也可以从加入SAP公司获益。对Ariba公司来说，SAP公司还是一个分析类软件公司，Ariba公司计划将大多数软件都移植到SAP HANA分析平台，使其用户能够利用SAP的内存技术快速分析大规模数据集；同样，Ariba公司的数据可以应用于SAP Lumira商务智能平台，SAP公司还把警报和预测分析软件供应商InfoNet公司集成到了Ariba公司，这样公司就可以更深入地洞察供应商，基于HANA的软件通过查询供应商信息和其他来自第三方的数据做出预测分析。

4.质量管理数据

产品质量只是企业生产的最终体现，而它的保证却是通过对市场调研、开发设计、生产制造到销售服务全过程实施有效控制而实现的。这就是全面质量管理的概念。全面质量管理（Total Quality Management,TQM）是对一个组织以产品质量为核心，以全员参与为基础，目的在于通过让用户满意和本组织所有者及社会等相关方受益而建立起一套科学、严密、高效的质量体系，从而提供满足用户需要的产品的全部活动，达到长期成功的管理途径。TQM是改善企业运营效率的一种重要方法。

显然，TQM要求完整的质量控制。质量管理的职能是分布在各个管理阶层、各个职能部门的，因此TQM要求企业各个管理阶层、各个职能部门担负起本阶层、本部门的质量管理责任。因为产品质量是企业各个部门、各个环节和各类职工的全部工作质量的综合反映，所以TQM要求上自企业最高领导、下至各阶层管理人员，以至一线操作员工个个都应关心产品质量，参加各种质量管理活动。

以前的质量控制实际上是孤立的环节，而TQM强调的是全过程的质量控制。那么问题来了，如果公司能够全面地收集与质量相关的过程、产品、设备和服务数据，那么能否在充分掌握事实的基础上，形成一个战略性、预测性和最优化的质量管理策略？这显然需要依托一个衡量功能与质量标准之间相互依存关系的信息框架。比如，默克制药（Merck）公司为了提高其一种疫苗的质量，通过150亿次的计算来确定那些影响最终产品质量的环境和流程因素。英特尔（Intel）公司利用数据的预测模型来预测故障，优先检查，并削减了其芯片制造工厂的监控成本。像这样的成功案例，说明了TQM中数据的重要性。反过来说，在大数据环境下，既然能够追踪到如此多潜在的质量属性信息并加以分析，“信息太少”这样的托词就不会再被当作质量管理不足的借口了。

麦肯锡的研究报告指出，通过大数据及其分析手段，可以针对那些与产品质量管理和合规性最相关的参数进行分析，以便帮助管理人员获得更加深刻的理解，在TQM的要求下，其中大部分的参数是企业层面的，而不仅仅存在于产品质量管理或控制部门。

不过，仔细审视制造环境下的信息系统全景不难发现，质量数据实际来源于很多不同的系统，存在提取和集成的困难。

（1）企业资源计划（ERP）和物料需求计划（MRP）：通常，由一个供货商提供的解决方案也存在多种安装版本，所有这些版本的发布时间都不尽相同，定制化水平也参差不齐。因企业并购导致存在多个供应商，这加剧了数据的可获得性难度。

（2）制造执行系统：拥有不同制造设备的公司极有可能要从多个不同的制造执行系统来源获取数据。按照企业标准来统一制造执行系统通常是一件消耗巨大的工作，甚至可能造成损失无法弥补的生产中断。此外，即使应用了标准化平台，制造执行系统在实施层面同样存在着企业资源计划和物料需求计划在实施过程中面临的定制化问题。也就是说，即使针对不同设备应用同一平台，数据提取也绝非易事。

（3）测试：测试系统通常具有专用数据格式，并和存储应用程序相匹配。为了有效性而从多个供应商那里引进检测设备将使问题变得更为复杂。测试数据一般会被收集到质量管理系统（Quality Management Systems,QMS）和实验室信息管理系统（Laboratory Information Management Systems,LIMS）中，但其只针对特定设备，因此很难实现整个系统范围内的数据共享。

（4）设备：随着越来越多的传感器和微处理器被纳入生产性资产，流程设备和机器所收集的数据日益增多，以求改善设备性能、过程和提高收益。然而，这部分数据并未得到充分利用。尽管该数据可以应用于预测分析，但设备工程师通常只在进行历史评估时才用到它们。另外，未来要实现对产品质量进行监测并且追溯到具体生产设备成为可能。通过在生产中心的所有设备上配备传感器，运营经理能够立即了解每台设备的状况。通过高级分析，每台设备及其操作者的工况、绩效以及技能差异能够得以体现。对于改进生产中心的工作流程来说，这些数据非常重要。

（5）缺陷：制造商对进料、半成品和成品实施检验，并对质量的异常征兆、缺陷和改进行动进行某种跟踪和分类，如设备检修、流程调整或产品重新设计等。这部分质量数据至关重要，获取它们和类似数据，并结合其他生产线和工厂的情况加以分析，对企业的质量管理大有裨益。

（6）过程：生产运营数据收集的原始来源是生产车间，如可编程序逻辑控制器（Programmable Logic Controller,PLC）、射频识别标签、条形码扫描器和人工数据输入站（即人机界面），但其聚集和整合的方式并未对质量勘察和分析过程产生任何促进作用。

（7）供应商：当制造商从供应商那里购入原料、零件和组装配件时，一般也会获得产品附带的质量数据。这些对分析颇具价值的信息将被保留存档，但质量分析师和工程师通常很难获得这些信息。

因此，可以利用大数据存储和处理技术建立全局的企业质量控制平台，全面收集和掌控质量数据，并能够对大量数据进行深入分析，如数据挖掘、文本挖掘和精确预测。与此同时，该平台还需要向每位工程师和分析师提供分析工具的桌面应用端以及可视化功能。借助于这个平台，他们可以完成试验设计，实现数据、情境和结果的可视化，然后与企业中的其他员工分享他们的成果和模型。工程师们彼此分享最佳实践、成功模型和技术以及相关的控制数据，可以显著提升公司整体的质量工艺，为企业创造价值。总之，面对质量管理需求，企业可以在数据整合、分析和利用方面做得更出色，将大量的质量数据从复杂的流程和纷杂的系统中提取出来，尤其是能提供战略层面观点的质量数据。

1.2.2.3 价值链大数据

1.供应链数据

（1）供应业务数据

数据与分析能够在生产流程中的几乎每一个环节帮助制造商——从它们的全球供应足迹到工厂中一颗螺钉的转动。而正由于一个健全的制造业是一个健全的经济体系的重要组成部分，数据驱动的制造业的优势也将遍及全国。

美国国家标准与技术研究院（NIST）正在进行一个名为“制造数据分析”的项目，内容主要是制定标准、方法和协议，其中一个主要动机是企业日益增长的更加全面的供应链智能化的需求：即便是有数据驱动的制造工厂和设计工作室，制造商也只有当其供应链与监控水平相同时才能高枕无忧。

产业供应链的相互关联性使其成为风险的温床，如果能够掌握更多的信息，企业就可以成功地完成出货，而不承担返工和退货的风险。比如，通用电气公司的石油和天然气业务板块，现在正使用一个基于云的供应链数据平台来管理其材料、设备和服务，用于抗衡可能的油田停工所带来的高成本。这是一个部署在五大洲的实时系统，随时掌握各种重要的信息，一有风吹草动，企业就可以迅速做出响应。惠普（HP）公司也将网络分析和数据可视化整合进供应链监控，通过这个系统，公司已经将供应链优化项目所需的时间缩短了50%。

作为世界最大的白色家电生产厂商之一，海尔公司的供应链体系很完善，它以市场链为纽带，以订单信息流为中心，带动物流和资金流的运动，整合全球供应链资源和全球用户资源。在海尔公司供应链的各个环节，客户数据、企业内部数据、供应商数据被汇总到供应链体系中，通过供应链上的大数据采集和分析，公司能够持续进行供应链改进和优化，保证了对客户的敏捷响应。

与以往的企业相比，今天的制造商们能够更加细致地从供应商质量层面进行审视，同时能够更加精确地预测供应商的绩效。通过对大数据和高级分析的应用，制造商能够实时查看不同供应商的产品质量和配送准确度差异性，可以依据时间紧迫性在不同供应商之间对订单分配进行权衡。

（2）物流数据

面对激烈的市场竞争，企业只有争分夺秒，与时间赛跑，以更快速的市场响应，做出更快速准确的决策，才能更好地促进销售、市场、生产和物流环节的相互配合。从顺丰公司的“即日达”到京东公司的“211限时达”，从日日顺的“超时免单”到双十一物流第一单仅耗时15分钟，物流领域的这些数字，让我们看到当今物流企业对时效性的高度重视。时间数据的准确性对于物流企业格外重要，而这需要依靠卫星定位数据、电子围栏数据、地图数据的准确性，同时需要依靠强大的后台数据处理能力和清晰的数据处理逻辑，进而迅速、准确地做出决策。

大数据应用使物流企业之间、电商与物流行业之间形成了联动机制。大数据预测可以指导商家进行库存前置，包括品类、规模、地域，以成本最低的方式提前运输到消费地，待消费者下单后，再从最近的电商仓储机构完成“最后1千米”配送，做到“订单未下，物流先行”。而物流的功能也早已经从货物位移升级成货物准确、高效地位移。

例如，在亚马逊运营中心，货品摆放看似杂乱无章，实则高效且“乱”中有序，其整个库房从到货到发货以及退货全部依靠大数据系统智能管理，在优化效率的同时，还能达成接近100%的准时发货率和99.9%的库存准确率。亚马逊运营中心这种“乱”中有序的随机上架原则，能够充分利用仓储空间和节约人力成本。一方面，亚马逊运营系统通过大数据分析消费者的购买习惯，总结出消费者最经常购买的产品种类，按照这样的方式将产品进行摆放，从而有效提高每轮取货的效率。举例来说，亚马逊通过大数据分析得出买书的人往往会买笔，所以仓库摆放时经常会将书和笔摆放在一起。另一方面，在亚马逊的每个运营中心里都有一个用来测量物品大小的工具——Cubi（立体测量仪），大多数货品上架之前都需要通过Cubi进行测量，以便系统根据产品的长、宽、高来计算和划分产品最适合的存储位置，通过强大的IT智能系统进行存储、统计、计算、分析等实现海量数据运算，然后系统根据后台数据对所有运营中心的货物统一调配，自动推荐最佳拣货路径和包装方式后，进入相应的物流系统。

基于强大的数据分析能力和物流供应链管理能力，亚马逊能够整合消费者需求和企业库存、运输等内部管理，确保消费者能够快速、便捷地享受众多个性化的网络购物体验。

2.营销数据

（1）客户需求数据

一直以来，企业都强调“以客户为中心”，即以客户需求为中心。传统的市场营销方式是通过前期市场调研、与客户交流沟通、发调查问卷来洞察客户需求的。这种情况下，企业只能获取1%的客户被动提供的样本数据，而今天，越来越多的企业在使用大数据洞察并分析客户的实际需求。研究发现，这种方式的准确性、针对性更高。

全球第二大食品公司——卡夫公司澳洲分公司，透过大数据分析工具对10亿条社交网站帖子、50万条论坛讨论内容进行抓取分析，发现大家对于维吉酱讨论的焦点不是口味和包装，而是除涂抹在烤面包上以外的各种吃法。调查人员最终分析出消费者购买的三个关注点：健康、素食主义和食品安全，并发现叶酸对孕妇尤其重要。于是，卡夫公司针对这些信息进行营销，打开了孕妇消费者市场，维吉酱销售额大幅增加，创造了该产品的历史最高纪录。

银泰百货公司在百货门店和购物中心铺设免费Wi-Fi，顺便抓取用户数据，包括进店用户数据和VIP用户数据；利用银泰网（www.yintai.com）打通了线下实体店和线上的VIP账号。当一位已注册账号的顾客进入实体店时，他的手机连接上WiFi，后台就能识别出来，他以往与银泰公司的所有互动记录、喜好便会一一在后台呈现。通过对实体店顾客的电子小票、行走路线、停留区域的分析，可以判别他的购物喜好，分析购物行为、购物频率和品类搭配的一些习惯。另外，银泰网甚至可以累积不同用户对品牌和折扣喜爱程度的数据，依托成熟门店的相关数据，再根据新开门店所在城市的用户分析，推导出新开门店组货和招商的指导意见。

另一个典型例子是，根据全球管理咨询公司嘉思明（KurtSalmon）公司的研究结果，处理一次退货的成本可能是同一商品发货所耗成本的2～3倍。同时，美国零售联合会（National Retail Federation）发现，40%的买家在下单时就打算退货，40%的买家会订购同一款产品的不同规格，而40%的退货是由于产品信息不全所致。而如果企业支持网购、电话购物或邮购，则处理退货的成本和运费更高。HSE24公司是一家位于德国的家庭购物网络公司，在德国、奥地利和瑞士等地拥有多达4100万家庭客户，它就遇到了这样的问题，公司通过对有相似退货行为的用户群进行大数据分析研究，洞察了用户的真实需求，从而降低了退货率。

HSE24公司发现了几个退货率较高的用户群。公司基于两个条件分析了其中一个用户群。这两个条件分别是订购的产品数量和付款速度。很快发现，这些用户在购买产品时，喜欢订购多个尺寸或颜色的产品，然后再确定自己要留下和退掉的产品。在发现这一模式后，公司就能采取相应的措施。例如，公司提供更详细的产品描述信息，帮助用户在第一次订购时更准确地选择最合适的产品。此外，公司还可以推出促销活动，如果退货率较高的用户在某段时间内减少了退货次数，公司将对其予以奖励。

（2）利用数据改善用户体验

福特公司研究与创新研究院系统分析部经理John Ginder曾说过，公司已经做了大约20年的先进业务建模工作，但有了大数据，那就是另外一回事了。今天的技术使福特公司能够处理更大的、比以前更加多样化的数据集，通过研究院的努力，福特公司的业务已经开始在包括汽车本身的许多领域开花结果。

数据影响驾驶体验最明显的例子可能是汽车能够反馈给公司的丰富的数据类型。在最新款的福特Energi混合动力汽车上，安装了多达74个传感器，包括声呐、照相机、雷达、加速传感器、温度传感器和雨量传感器。这些传感器每小时产生25GB数据，这些数据被传送回工厂进行实时分析，并通过一个移动应用程序反馈给驾驶员。这个应用可以告诉驾驶员电池的寿命、最近的充电站以及其他与车辆性能有关的数据。

为了可以从更多的车辆收集更多的数据，福特公司推出了MyFord Touch全新车载系统，在驾驶员四周安插了前所未有的各种互动工具。比如，车内系统自动采集驾驶员的驾驶习惯信息，为不同的驾驶员匹配不同的汽车设置；夜晚疲劳驾车时，驾驶员坐姿发生改变，车内会自动发出警告；通过指纹识别车主、启动车辆等。这都是大数据的应用案例，有些已经应用于现在的汽车中。但值得注意的是对隐私的保护问题，比如有人会知道你在哪儿和如何驾驶，这是一个尚未引起主流关注的潜在问题。因此，目前的数据只展现了那些能够帮助提升客户体验的部分。

通过更多的数据，企业可以满足用户更多的“需求”，为用户提供更多的“机会”。福特公司的最终目的是更好地了解驾驶员如何使用车辆，并使用这些信息来不断改进车辆和提升整体体验。例如，福特Super Duty卡车系列提供了一个“队长”包，让老板可以监控整个车队的燃油消耗、引擎性能和其他数据。

近年来，随着机器视觉技术的高速发展，一家以色列的智能驾驶辅助系统公司Mobileye设计和生产汽车用的智能行车预警系统能预防和缓解各种车辆在道路行驶中因驾驶者疲劳驾驶、分神、开小差或新手上路等各种突发状况引发的车道偏离、追尾、碰撞等交通事故，缓解驾驶者高度紧张的情绪，创造轻松惬意的驾驶环境。研究表明，驾驶员在碰撞前0.5秒得到预警，就可以避免至少60%的追尾碰撞事故，30%的迎面碰撞事故，50%的路面相关事故；如果有1.5秒的预警时间，则可避免90%事故的发生。

与大多数商家企图通过提高摄像头的视力或者增加雷达来增强设备检测物体的能力不同，Mobileye公司另辟蹊径，运用单摄像头附带传感器和特有算法，将物体探测任务在单一硬件平台上执行，这使得设备安装程序大为简化，成本也大大降低。而Mobileye公司的制胜法宝还是数据，通过过去十年和全世界大部分汽车厂商的合作，公司积累了数以百万英里不同环境、不同气候、不同道路状况，横跨43个国家的驾驶场景。正是基于这些数据，Mobileye公司才能开发出它领先的核心算法。目前，Mobileye公司独步全球的技术迅速占领了汽车安全驾驶系统全球70%以上的市场份额，已经有超过330万辆汽车安装了EyeQ芯片。而在这数百万辆汽车的使用过程中，Mobileye公司又会迅速地积累更多的数据，再基于更大的数据量开发下一步的创新应用。

汽车大数据的应用改变的不仅仅是自动驾驶、智能车载系统等技术层面的思维模式。无论是目前正在尝试的汽车电商和精准营销，还是未来可能实现的精确定制化服务，都离不开大数据技术的应用。

1.2.2.4 外部大数据

当前互联网与工业深度融合，企业外部互联网已成为工业大数据不可忽视的来源。本世纪初，日本企业就开始利用互联网数据分析获取用户的产品评价，时至今日，小米手机利用社交媒体数据成功实现了产品的创新研发。此外，外部互联网还存在着海量的“跨界”数据，比如影响产品销量的用户行为数据、影响装备作业的气象数据、影响产品市场预测的宏观经济数据、影响企业生产成本的环境法规数据等。其主要来源有6个方面，即电子商务数据、社交网络数据、宏观经济数据、上下游供应链数据、以招聘网站等为代表的云中数据，以及以可穿戴设备、传感器为代表的物联网数据，如图1-3所示。

图1-3 外部大数据来源

这些数据源都是典型的大数据。每个数据源有着不一样的类型，对于企业而言，每个数据源都有不一样的价值，见表1-1。

表1-1 不同的大数据源具有不同的价值表

1.电子商务数据

与传统商务相比，电子商务的网络特性决定了企业通过电子商务平台可以容易地获得各项关键数据统计指标，并利用这些数据指标提升企业的经营效率。

电子商务数据包括了各种第三方电子商务平台及自身电商平台所产生的数据，可分为前端行为数据和后端商业数据两类。前端行为数据指访问量、浏览量、点击流及站内搜索等反映用户行为的数据；而后端商业数据主要包括交易量、投资回报率，以及全生命周期管理等。目前，国内主要的电子商务平台有淘宝网、天猫网、京东商城、亚马逊、一号店、当当网等。B2C型电子商务在本质上是一种零售模式，与线下相比，它具有更容易获取消费者数据、商品数据的特点。国内几家大型的电商网站都有着超过千万级别的活跃用户，京东每天的平均交易额超过1亿元，订单量超过50万。企业内部有着复杂的运营流程，这些都应该是数据可以发挥重大作用的环节，对数据的充分利用可以在效率、成本节约上发挥重要作用。

根据在线营销的业务流程、内容和主要特征，可以将电子商务的数据指标分为流量指标、转化指标、推广指标、服务指标和用户指标五类一级指标。每类一级指标又分别由若干个二级指标组成 [5]，如图1-4所示。

图1-4 电子商务的数据指标

通过对电子商务大数据进行分析，可以预测企业的未来市场，了解客户行为，指导企业产品设计及市场布局。

（1）预测企业的未来市场

春秋时期，范蠡在辅佐勾践灭吴复国以后，即弃官经商，19年中三致千金，成为天下富翁。他的经营之道说起来很简单，就是能够根据市场上商品的供求情况来预测商品的价格变化。“论其存余不足，则知贵贱，贵上极则反贱，贱下极则反贵。”

准确地预测和反映市场供求变化非常关键，电子商务能够方便而及时地收集数据，有时几乎可以做到实时收集，从而能够给企业提供第一手的市场供需反馈。同时，通过细分电子商务数据指标，可以得到市场需求的趋势、用户的分类需求、用户对产品的及时反馈等更加有针对性的信息，这些都可以帮助企业对未来的生产和营销做出前瞻性的预测。

（2）了解客户行为

做电商最根本的就是做用户体验，尤其是B2C型电商，对客户行为的研究观点众多，经济学界有很多种理论，如跨期消费理论、行为理论、随机理论等，但这些基本是宏观层面的。电商手里有着大量的客户购买行为的数据，微观领域的深入研究将是主要方向，甚至可以具体到某个用户，包含区域购买力、商品区域化、客户分层、购物周期、购物偏向性、投诉原因等诸多数据指标的结合，这将为企业实行差异化战略和精准式营销提供重要依据。

（3）指导企业产品设计及市场布局

通过大数据的统计知道客户需要什么，按照能偏好生产，与市场需求灵活匹配。对现代制造商说，基于对消费市场大数据的精准把握，通过大数据的获取、分析、供需匹配、提升销售，就能知道要生产什么，而且能做到精准、灵活的生产调度。

但是，目前电子商务数据的主要问题是电商平台数据不对外开放的问题。不过，数据开放是大势所趋。2013年年底，淘宝天猫启动了数据共享计划，将它们沉淀的行业数据分享给厂商，从价格分布、关键属性、流量、成交量、客户评价等维度建模，挖掘出功能卖点、主流价格段分布、客户需求、增值卖点来指导厂家的研发、设计、生产。淘宝数据魔方就是淘宝平台上的大数据应用方案。通过这一服务，商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、客户行为情况等，并可以据此进行生产、库存决策，而与此同时，更多的客户也能以更优惠的价格买到更心仪的宝贝。

2.社交网络数据

社交网络数据是指各种社交媒体所产生的数据，主要数据类型包括“粉丝”数量、品牌关注度、客户行为等。目前，国内的主要社交媒体有微信、微博，还有优酷等视频网站；国外则以Facebook、Twitter等为代表。通过大数据技术分析，可以将社交网络数据用于企业的营销推广、客户互动、客户服务等。

在社交媒体上，人们往往可以真实地表达意见。对产品问题的社交网络数据流分析可以增强原先传统支持渠道的产品反馈。通常，经过全面测试的产品仍然会有质量问题，客户或许不会给制造商报告问题，但却会在社交媒体上向他们的朋友和家人抱怨。从这些海量的社交媒体情绪数据中，制造商可以挖掘出宝贵的一手客户体验数据作为早期质量信号，让企业及早地了解问题，尽早采取行动，以保护产品的良好声誉，赢得和保持客户的忠诚度。

社交网络数据也可以帮助企业开发新产品。2013款福特翼虎汽车拥有的感应式后备箱门受到了广大车主的欢迎，但是如果没有数据分析的支持，可能就会是另外一种情形了。为了明确究竟用户需要实现哪些功能，福特公司设立了专门的数据团队，而令人意想不到的是，福特公司数据团队依靠的却是一个看上去有些不太可能的数据源——社交媒体。

为了能让翼虎车型与车主进行更多的互动，福特公司的设计师们考虑了许多概念，还利用了运动传感器，比如在车的后视镜上加入了“翻转玻璃”的功能；另外，应该设计一个什么样式的尾门？是那种标准的掀背式尾门（可以手动打开，后窗也可以打开），还是电动提升尾门（后窗玻璃和门是一个整体）。后者通过用脚轻点后保险杠下方，门可以自动打开，但窗户打不开。常规的市场调查解决不了这个问题，福特公司的大数据团队转向社交媒体求助答案。从社交媒体上，数据团队找到了车主经常遇到的一个困扰：每当车主从商场拎着一堆购物袋回到车上或是要把家具搬到车上时，往往空不出手来打开后备箱的车门。当把所有的数据汇聚到一起时，福特公司得到了一个4∶1的结果，也就是说，希望拥有感应式电动提升尾门的人，是想拥有其他车辆功能的人数的4倍。与此同时，公司也发现，其实人们根本不关心后视镜上是否安装了翻转玻璃。现在，这已经成为福特公司Escape产品的一个特征了。

在沃尔玛公司全力掘金大数据之前，曾进行了一系列的收购，包括3亿美元收购的Kosmix（沃尔玛实验室前身）、OneRiot、Small Socicty、socialCalenda、Set Direction、Grabble等多家中小型创业公司。这些创业公司无一例外地要么精于数据挖掘和各种算法，要么在移动社交领域有其专长，这些都是沃尔玛公司全面开展社交媒体和移动应用大数据分析的铺垫。

作为一家传统的零售业企业，沃尔玛公司在社交媒体分析和大数据工具上投入如此多的财力、物力，说明大数据已经不再是IT厂商虚张声势的营销概念，而是传统企业争相追逐的下一个商战“神器”。

Kosmix公司的团队被沃尔玛收购后编入新成立的公司——沃尔玛实验室。沃尔玛公司看重的是Kosmix公司极为准确的文本语义分析技术，例如，如果用户发了一条推文“I enjoyed Salt”,Kosmix公司就能够判断出这条推文与安吉丽娜·朱莉主演的一部影片有关，而与“食盐”无关。通过对社交媒体进行语义分析，Kosmix公司能够分析出用户、话题、位置和产品之间的关系。

Kosmix公司的一个独特优势是能够对实时数据流中的关系进行搜索并分析，让企业对用户个体的了解前所未有地深入。Kosmix平台有一个针对事件的实时社交媒体过滤器——TweetBeat。对于通过过滤器产生的情报，Kosmix公司正在建设一个巨型知识库——社交基因库（Social Genome）。这个巨大的知识库能捕获关于用户、事件、话题、产品、位置和组织等实体的各种关系和信息。

通过分析用户的社交媒体活动，社交基因库能向用户推荐他们感兴趣的产品和活动。例如，通过公开的社交数据，包括Twitter和Facebook留言墙上的话题、热点，沃尔玛公司的分店能有针对性地进行线上和线下的产品推荐活动。

沃尔玛公司高级副总裁Anand Rajaraman表示，今天关于用户、产品、企业、品牌的数据规模空前庞大，能够挖掘这些数据矿藏并能进行深入精细分析的企业将获得巨大的竞争优势。沃尔玛公司已经领先一步，目前能够对这些数据进行过滤，从中了解与位置有关的用户消费趋向，同时在相应地区增加相关产品的库存。通过对社交媒体的监控，沃尔玛公司将能够针对用户需求进行提前备货。

3.宏观经济数据

宏观经济数据主要是指以政府、行业协会、第三方研究机构为代表的各种宏观经济数据，主要包括经济行业数据、汇率与利率、原材料价格等。目前产生宏观经济数据的平台主要是统计局、行业协会等。通过大数据技术分析宏观经济数据，可以用于企业战略制定、趋势预测等。目前，这类数据越来越多，越来越容易获取。为加快建设现代化服务型统计，更好地服务社会，国家统计局在2008年创建的“中国统计数据库”基础上，于2013年建立了新版统计数据库——国家数据（data.stats.gov.cn），如图1-5所示。

图1-5 国家数据（data.stats.gov.cn）

国家数据主要提供国家统计局调查统计的各专业领域的主要指标时间序列数据，包含月度、季度、年度数据，以及地区数据、普查数据、国际数据六类统计数据，近800万条数据面向公众开放。公众完成网上注册后就可以在“国家数据”方便地查询全国及31个省（区、直辖市）的数据。

（1）月度数据主要有居民消费价格指数（CPI）、工业生产价格指数（PPI）、商品零售价格指数、规模以上工业生产、固定资产投资、房地产开发投资、社会消费品零售总额、对外经济贸易、交通运输、邮电通信、采购经理指数（PMI）、财政、金融。

（2）季度数据主要有国内生产总值、农业、工业、建筑业、城镇居民收入与支出、农村居民收入与支出、固定资产价格指数、农产品生产价格指数。

（3）年度数据包括综合、国内生产总值、人口、就业人员和工资等几个领域的数据。

（4）地区数据涵盖了全国31个省（区、直辖市）以及部分城市的主要经济指标。

（5）普查数据包括2000年、2010年全国人口普查，2004年、2008年全国经济普查数据。

（6）国际数据提供了世界众多国家的国内生产总值等主要指标的月度及年度数据。

这些宏观经济数据，对于了解宏观经济形势、及时调整企业经营都有重要的参考价值，值得企业管理者把握。不过，由于数据开放意识的滞后，我国的宏观数据目前还存在实时性不够、质量不高等问题。

4.上下游数据

上下游数据是指产业链的上下游企业之间的协作所产生的相关数据。上下游产业链数据类型主要有订单、库存、采购、设计等数据，主要包括配件商的数据、销售商的数据以及客户的数据等。

通过大数据技术分析上下游数据，可用于设计协同、订单协同、生产协同、采购协同、供应链协同等企业决策过程。

5.云中业务数据

云中业务数据是指以第三方招聘网站、物流商、SaaS和IaaS运营商等为代表的云数据，主要包括人力资源、第三方物流、云应用日志数据等各类与企业管理与运营相关的数据。典型的云数据平台主要有第三方招聘网站、物流公司、云服务商等。

通过大数据技术分析云中业务数据，主要用于企业运营与管理服务、绩效考核和企业对标等。

目前，云中业务数据主要面临的问题是云服务上数据的开放性和涉及的隐私问题。

6.物联网数据

物联网数据是指以可穿戴式设备、智能传感为代表的物联网技术所产生的数据，主要包括机器运行数据、生产工艺数据和体感数据。产生物联网数据的典型平台主要有M2M（Machine-to-Machine）通信、可穿戴设备、自动化设备等。物联网数据通过大数据技术分析，可以用于设备跟踪管理、产品追溯管理、健康医疗管理以及增值服务等。同时，目前最主要的问题是数据传输和设备维护。

本周热推：

阿里巴巴基本动作：管理者必须修炼的24个基本动作算法霸权社会与经济：信任、权力与制度生活中的行为经济学（修订本）买房的革命