阅读笔记：《大数据时代》

作者: 剑飞分类: 知识管理发布时间: 2013-11-18 05:23 ė14,396 views 6没有评论

　　郑毅的《证析》对于数据通过交叉复用体现的新价值、大数据战略在企业与政府执行层面的流程和大数据科学家这一新职位，以及围绕这个职位的能力和责任给出了最深刻、最具体的描述；子沛的《大数据》对于数据的公正性、公平性以及信息和数据管理等方面理念、政策和执行的变化，特别是美国在这方面的进展，给出了完整的介绍；苏萌、林森和我合著的《个性化：商业的未来》则对大数据时代最重要的技术——个性化技术，以及与之相关的新商业模式给出了从理念到技术细节的全景工笔。总的来说，这三本书都针对本书的某一局部给出了更深刻的介绍和洞见，也各有明显超出本书的优点，但三本之和也无法囊括本书的菁华，亦缺乏本书的宏大视野。

　　人类学家克利福德•吉尔兹（Clifford Geertz）在其著作《文化的解释》中曾给出了一个朴素而冷静的劝说：“努力在可以应用、可以拓展的地方，应用它、拓展它；在不能应用、不能拓展的地方，就停下来。”我想，这应该是所有人面对一个新领域或新概念时应有的态度。

　　大数据，变革公共卫生

　　在甲型H1N1流感爆发的几周前，互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播：不仅是全美范围的传播，而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测。谷歌保存了多年来所有的搜索记录，而且每天都会收到来自全球超过30亿条的搜索指令，如此庞大的数据资源足以支撑和帮助它完成这项工作。谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。当今社会所独有的一种新型能力：以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见。

　　大数据，变革商业

　　1994年，埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler，该引擎后来被InfoSpace公司收购。他联合创立了第一个大型比价网站Netbot，后来把它卖给了Excite公司。他创立的从文本中挖掘信息的公司ClearForest则被路透社收购了。在他眼中，世界就是一系列的大数据问题，而且他认为自己有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生，自1986年毕业以来，他也一直致力于解决这些问题。

　　埃齐奥尼创立了一个预测系统，它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天之内的12000个价格样本基础之上，而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因，只能推测会发生什么。也就是说，它不知道是哪些因素导致了机票价格的波动。机票降价是因为有很多没卖掉的座位、季节性原因，还是所谓的“周六晚上不出门”，它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。

　　为了提高预测的准确性，埃齐奥尼找到了一个行业机票预订数据库。而系统的预测结果是根据美国商业航空产业中，每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。

　　大数据，变革思维

　　如今，数据已经成为了一种商业资本，一项重要的经济投入，可以创造新的经济利益。事实上，一旦思维转变过来，数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。

　　信息社会所带来的好处是显而易见的：每个人口袋里都揣有一部手机，每台办公桌上都放有一台电脑，每间办公室内都拥有一个大型局域网。

　　半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科，如天文学和基因学，创造出了“大数据”这个概念[2]。如今，这个概念几乎应用到了所有人类致力于发展的领域中。

　　谷歌的MapReduce和开源Hadoop平台（最初源于雅虎）。这些技术使得人们可以处理的数据量大大增加。更重要的是，这些数据不再需要用传统的数据库表格来整齐地排列——一些可以消除僵化的层次结构和一致性[3]的技术也出现了。同时，因为互联网公司可以收集大量有价值的数据，而且有利用这些数据的强烈的利益驱动力，所以互联网公司顺理成章地成为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司，成为新技术的领衔使用者。

　　大数据是人们获得新的认知、创造新的价值的源泉；大数据还是改变市场、组织机构，以及政府与公民关系的方法。

　　这仅仅只是一个开始，大数据时代对我们的生活，以及与世界交流的方式都提出了挑战。最惊人的是，社会需要放弃它对因果关系的渴求，而仅需关注相关关系。也就是说只需要知道是什么，而不需要知道为什么。这就推翻了自古以来的惯例，而我们做决定和理解现实的最基本方式也将受到挑战。

　　大数据，开启重大的时代转型

　　就像望远镜能够让我们感受宇宙，显微镜能够让我们观测微生物，这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界。真正的革命并不在于分析数据的机器，而在于数据本身和我们如何运用数据。

　　从科学研究到医疗保险，从银行业到互联网，各个不同的领域都在讲述着一个类似的故事，那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度，甚至超过了我们的想象。

　　我们周围到底有多少数据？增长的速度有多快？

　　物理学和生物学都告诉我们，当我们改变规模时，事物的状态有时也会发生改变。

　　技术成熟度曲线又叫技术循环曲线，或者直接叫做炒作周期，是指新技术、新概念在媒体上曝光度随时间的变化曲线。

　　预测，大数据的核心

　　大数据不是要教机器像人一样思考。相反，它是把数学算法运用到海量的数据上来预测事情发生的可能性。

　　一封邮件被作为垃圾邮件过滤掉的可能性，输入的“teh”应该是“the”的可能性，从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性，都是大数据可以预测的范围。

　　当然，如果一个人能及时穿过马路，那么他乱穿马路时，车子就只需要稍稍减速就好。这些预测系统之所以能够成功，关键在于它们是建立在海量数据的基础之上的。此外，随着系统接收到的数据越来越多，它们可以聪明到自动搜索最好的信号和模式，并自己改善自己。

　　在不久的将来，世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友，还有更多更复杂的任务。别忘了，亚马逊可以帮我们推荐想要的书，谷歌可以为关联网站排序，Facebook知道我们的喜好，而LinkedIn可以猜出我们认识谁。[2]当然，同样的技术也可以运用到疾病诊断、推荐治疗措施，甚至是识别潜在犯罪分子上。

　　大数据，大挑战

　　大数据的精髓在于我们分析信息时的三个转变，这些转变将改变我们理解和组建社会的方法。

　　第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。

　　19世纪以来，当面临大量数据时，社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前我们通常把这看成是理所当然的限制，但高性能数字技术的流行让我们意识到，这其实是一种人为的限制。与局限在小数据范围相比，使用一切数据为我们带来了更高的精确性，也让我们看到了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。

　　第二个改变就是，研究数据如此之多，以至于我们不再热衷于追求精确度。

　　拥有了大数据，我们不再需要对一个现象刨根究底，只要掌握大体的发展方向即可。当然，我们也不是完全放弃了精确度，只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

　　第三个转变因前两个转变而促成，即我们不再热衷于寻找因果关系。

　　在大数据时代，我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系，这会给我们提供非常新颖且有价值的观点。

　　相关关系也许不能准确地告知我们某件事情为何会发生，但是它会提醒我们这件事情正在发生。

　　数据化意味着我们要从一切太阳底下的事物中汲取信息，甚至包括很多我们以前认为和“信息”根本搭不上边的事情。

　　比方说，一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据。

　　大数据时代开启了一场寻宝游戏，而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度，正是主宰这场游戏的关键。新兴技术工具的使用使这一切成为可能。宝贝不止一件，每个数据集内部都隐藏着某些未被发掘的价值。这场发掘和利用数据价值的竞赛正开始在全球上演。

　　全数据模式，样本=总体

　　大数据与三个重大的思维转变

　　有关，这三个转变是相互联系和相互作用的。

　　●首先，要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。

　　●其次，我们乐于接受数据的纷繁复杂，而不再追求精确性。

　　●最后，我们的思想发生了转变，不再探求难以捉摸的因果关系，转而关注事物的相关关系。

　　新的数据库设计的诞生

　　彼得•诺维格（Peter Norvig），谷歌公司人工智能方面的专家，和他的同事在一篇题为《数据的非理性效果》（The Unreasonable Effectiveness of Data）的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出，混杂是关键。

　　纷繁的数据越多越好

　　大数据时代要求我们重新审视精确性的优劣。

　　通过一个软件在互联网上收集信息，他们每天可以收集到50万种商品的价格。收集到的数据很混乱，也不是所有数据都能轻易进行比较。但是把大数据和好的分析法相结合。当然，收集到的数据需要仔细的分析，而且这些数据更善于表明价格的发展趋势而不是精确的价格。

　　标签内容事实上就成为了网络资源的分类标准。

　　因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

　　我们拥有了更加丰富的标签内容，同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片，

　　只是当数量规模变大的时候，确切的数量已经不那么重要了。

　　数据不是单纯地被存储，它往往被划分为包含“域”的记录，每个域都包含了特定种类和特定长度的信息。

　　Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构，它非常善于处理超大量的数据。通过把大数据变成小模块然后分配给其他机器进行分析，它实现了对超大量数据的处理。它预设硬件可能会瘫痪，所以在内部建立了数据的副本，它还假定数据量之大导致数据在处理之前不可能整齐排列。

　　信用卡公司VISA使用Hadoop，能够将处理两年内730亿单交易所需的时间，从一个月缩减至仅仅13分钟。这样大规模处理时间上的缩减足以变革商业了。也许Hadoop不适合正规记账，但是当可以允许少量错误的时候它就非常实用。

　　ZestFinance，一个由谷歌前任首席信息官道格拉斯•梅里尔创立的公司

　　我们怎么看待使用所有数据和使用部分数据的差别，以及我们怎样选择放松要求并取代严格的精确性，将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分，我们应该开始从一个比以前更大更全面的角度来理解事物，也就是说应该将“样本=总体”植入我们的思维中。

　　只要我们能够得到一个事物更完整的概念，我们就能接受模糊和不确定的存在。

　　大数据，改变人类探索世界的方法

　　知道“是什么”就够了，没必要知道“为什么”。在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己“发声”。

　　1997年，24岁的格雷格•林登（Greg Linden）在华盛顿大学就读博士，研究人工智能，闲暇之余，他会在网上卖书。他的网店运营才两年就已经生意兴隆。他回忆说：“我爱卖书和知识，帮助人们找到下一个他们可能会感兴趣的知识点。”他注册的这家网店就是日后大获成功的亚马逊。后来林登被亚马逊聘为软件工程师，以确保网站的正常运行。

　　亚马逊的技术含量不仅体现在其工作人员上。虽然亚马逊的故事大多数人都耳熟能详，但只有少数人知道它的内容最初是由人工亲自完成的。当时，它聘请了一个由20多名书评家和编辑组成的团队，他们写书评、推荐新书，挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”这个版块，成为当时公司这顶皇冠上的一颗宝石，是

　　其竞争优势的重要来源。

　　从一开始，亚马逊已从每一个客户身上捕获了大量的数据。比如说，他们购买了什么书籍？哪些书他们只浏览却没有购买？他们浏览了多久？哪些书是他们一起购买的？

　　1998年，林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利。方法的转变使技术发生了翻天覆地的变化。

　　相关关系是无法预知未来的，他们只能预测可能发生的事情。但是，这已经极其珍贵了。

　　在20世纪90年代，零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。

　　倘若得到正确分析，历史数据能够解释什么呢？零售商与天睿资讯（Teradata）[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年，沃尔玛对历史交易记录这个庞大的数据库进行了观察，这个数据库记录的不仅包括每一个顾客的购物清单以及消费额，还包括购物篮中的物品、具体购买时间，甚至购买当日的天气。

　　建立在相关关系分析法基础上的预测是大数据的核心。

　　证明一个人的收入状况要花费10美元左右，但是益百利的预测结果售价不足1美元。所以有时候，通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”，这些指数是用来预测一个人的支付能力的。

　　大数据相关关系分析的极致，非美国折扣零售商塔吉特（Target）莫属了。该公司使用大数据的相关关系分析已经有多年。

　　对于零售商来说，知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始，也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商店，渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助，看是否有什么办法能够通过一个人的购物方式发现她是否怀孕。

　　公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。

　　塔吉特公司注意到，登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后，她们会买一些营养品，比如镁、钙、锌。公司最终找出了大概20多种关联物，这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券，这才是塔吉特公司的目的。

　　杜西格在《习惯的力量》（The Power of Habit）。

　　一个东西要出故障，不会是瞬间的，而是慢慢地出问题的。通过收集所有的数据，我们可以预先捕捉到事物要出故障的信号，比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比，就会知道什么地方出了毛病。通过尽早地发现异常，系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它，我们就能预测未来。

　　虽然统计工具呈现的是一种线性关系，但事实上，它们之间存在一种更复杂的动态关系.

　　令人欣喜的是，为了更好地了解世界，我们会因此更加努力地思考。

　　安德森的核心思想是，直到目前为止，我们一直都是把理论应用到实践中来分析和理解世界，而如今处在大数据时代，我们不再需要理论了，只要关注数据就足够了。这就意味着所有的普遍规则都不重要了，比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今，重要的就是数据分析，它可以揭示一切问题。

　　“理论的终结”似乎暗示着，尽管理论仍存在于像物理、化学这样的学科里，但大数据分析不需要成形的概念。这实在荒谬。大数据是在理论的基础上形成的。比方说，大数据分析就用到了统计和数学理论，有时候也会用到计算机科学理论。

　　大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡，而是通往未来的必然改变。但是在我们到达目的地之前，我们有必要了解怎样才能到达。

　　世间万物的数据化

　　大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见，但是如今的信息技术变革的重点在“T”（技术）上，而不是在“I”（信息）上。现在，我们是时候把聚关灯打向“I”，开始关注信息本身了。

　　当莫里还是一个海军军官学校的学生时，他每次到达一个新的港口，总会向老船长学习经验知识，这些经验知识是代代相传下来的。

　　大数据的核心就是挖掘出庞大的数据库独有的价值。

　　日本先进工业技术研究所（Japan’s Advanced Institute of Industrial Technology）的教授越水重臣（Shigeomi Koshimizu）所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐姿能表现什么信息，但是它真的可以。当一个人坐着的时候，他的身形、姿势和重量分布都可以量化和数据化。

　　越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据，并且用从0~256这个数值范围对其进行量化，这样就会产生独属于每个乘坐者的精确数据资料。

　　在这个实验中，这个系统能根据人体对座位的压力差异识别出乘坐者的身份，准确率高达98%。

　　这个研究并不愚蠢。这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后，汽车就能识别出驾驶者是不是车主；如果不是，系统就会要求司机输入密码；如果司机无法准确输入密码，汽车就会自动熄火。把一个人的坐姿转化成数据后，这些数据就孕育出了一些切实可行的服务和一个前景光明的产业。比方说，通过汇集这些数据，我们可以利用事故发生之前的姿势变化情况，分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的时候发出警示或者自动刹车。同时，这个系统不但可以发现车辆被盗，而且可以通过收集到的数据识别出盗贼的身份。

　　越水重臣教授把一个从不被认为是数据、甚至不被认为和数据沾边的事物转化成了可以用数值来量化的数据模式。

　　“数据”（data）这个词在拉丁文里是“已知”的意思，也可以理解为“事实”。

　　如今，数据代表着对某件事物的描述，数据可以记录、分析和重组它。

　　把现象转变为可制表分析的量化形式的过程。

　　为了得到可量化的信息，我们要知道如何计量；为了数据化量化了的信息，我们要知道怎么记录计量的结果。这需要我们拥有正确的工具。

　　你可以自己试一试。输入网址http：//books.google.com/ngrams，打开Google Ngram Viewer，它利用谷歌所拥有的所有图书作为数据资源，为你提供单词和短语历年使用次数的展示图表。

　　“文化组学”是一个计算机专业词汇，指的就是通过文本的定量分析来揭示人类行为和文化发展的趋势。

　　当文字变成数据，它就大显神通了——人可以用之阅读，机器也可用之分析。

　　谷歌的街景车（Street View Cars）边拍照边收集无线路由器信息；iPhone本身就是一个“移动间谍”，一直在用户不知情的情况下收集位置和无线数据然后传回苹果公司；当然，谷歌的安卓手机和微软的手机操作系统也在收集这一类数据。

　　UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障，它的货车上装有传感器、无线适配器和GPS。同时，这些设备也方便了公司监督管理员工并优化行车线路。

　　“预测给我们知识，而知识赋予我们智慧和洞见。”

　　麻省理工学院媒体实验室人类动力学实验室主任亚历山大•彭特兰（Alexander “Sandy”Pentland）和他的学生南森•伊格尔（Nathan Eagle）是所谓的“现实挖掘”研究的先驱。“现实挖掘”这里指的是通过处理大量来自手机的数据，发现和预测人类行为。在一项研究中，他们通过分析每个人去了哪里、见了谁，成功地区分出了感染了流感的人群，而且在感染者还完全不知道自己已经患病之前就做出了区分。

　　伊格尔是无线数据科技公司Jana的创始人，他使用了来自100多个国家的超过200个无线运营商的手机数据——覆盖了拉丁美洲、非洲、欧洲的大约35亿人口。

　　社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所，也将我们日常生活的无形元素提取出来，再转化为可作新用途的数据。

　　两家对冲基金，伦敦的英国对冲基金（Derwent Capital）和加利福尼亚的MarketPsych开始分析微博的数据文本，以作为股市投资的信号（他们从未公开自己的商业秘决，也不知道是倾向于投资势头良好的公司还是做空）。两家公司现在都在向经商者出售信息。就MarketPsych而言，它与Thomson Reuters合作提供了分布在119个国家不低于18864项的独立指数，比如每分钟更新的心情状态，如乐观、忧郁、快乐、害怕、生气，甚至还包括创新、诉讼及冲突情况等。

　　数据化不仅能将态度和情绪转变为一种可分析的形式，也可能转化人类的行为。

　　和谷歌一样，一些社交网络（如Facebook，Twitter，LinkedIn，Foursquare）坐拥了大型数据的宝藏，一旦这些数据信息得到了深入分析，它们就能轻易获得社会各行各业以及三教九流的几乎所有的动态信息。

　　只要一点想象，万千事物就能转化为数据形式，并一直带给我们惊喜。

　　GreenGoose是一家创业公司，他们销售能放置在物品上的微型运动感应器，用它监测物品的使用次数。比如把它放置在一捆牙线、一个洒水壶或者一盒猫食上，就能数据化牙齿清洁、植物护理以及宠物喂养的信息。很多人对“物联网”有着宗教般的狂热，试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹，其实不过是一种典型的数据化手段罢了。

　　一旦世界被数据化，就只有你想不到，而没有信息做不到的事情了。在大数据时代，惊喜无处不在！

　　有了大数据的帮助，我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件，我们会意识到本质上世界是由信息构成的。

　　将世界看作信息，看作可以理解的数据的海洋，为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。

　　今天，我们生活在一个计算型的社会，因为我们相信世界可以通过数字和数学而获得解释。我们也相信知识可以跨越时空。

　　人类动力学是一门典型的大数据驱动的定量化学科，它关注人类行为在时间和空间上表现出来的统计规律，以及对这些统计规律的理论解释和在行为预测与控制上的应用。科学出版社2012年出版的《社会动力学》一书有连续6篇论文综述该领域的主要代表方向，可供参考。

　　给数据估值

　　信息对于市场交易而言是必不可少的。数据使价格发现成为可能，

　　美国的专业数据经纪人，如安客诚（Acxiom）、益百利和艾可飞（Equifax）等，专门负责从数亿名消费者中收集个人信息加入综合档案。随着Facebook、Twitter、LinkedIn、Foursquare等社交平台的出现，我们的人脉关系、想法、喜好和日常生活模式也逐渐被加入到巨大的个人信息库中。

　　鱼不知道自己是湿的。

　　大部分数据的直接价值对收集者而言是显而易见的。事实上，数据通常都是为了某个特定的目的而被收集——商店为了会计核算而收集销售数据，工厂为了确保产品符合质量标准而监控输出，网站记录每一个用户点击（即使是鼠标光标的移动）来分析和优化其呈现给访客的内容。数据的基本用途为信息的收集和处理提供了依据。亚马逊同时记录下了客户购买的书籍和他们浏览过的页面，便可以利用这些数据来为客户提供个性化的建议。同样，Facebook跟踪用户的“状态更新”和“喜好”，以确定最佳的广告位从而赚取收入。

　　不同于物质性的东西，数据的价值不会随着它的使用而减少，而是可以不断地被处理。

　　这就是经济学家所谓的“非竞争性”的好处：个人的使用不会妨碍其他人的使用，而且信息不会像其他物质产品一样随着使用而有所耗损。因此，亚马逊在向其用户，不论是生成这些数据的客户或是其他客户做出建议时，都可以不断地使用过去的交易数据。

　　基于大量的信息输入，如汽车的电池电量、汽车的位置、一天中的时间以及附近充电站的可用插槽等，IBM开发了一套复杂的预测模型。它将这些数据与电网的电流消耗以及历史功率使用模式相结合。通过分析来自多个数据源的巨大实时数据流和历史数据，能够确定司机为汽车电池充电的最佳时间和地点，并揭示充电站的最佳设置点。

　　最后，系统需要考虑附近充电站的价格差异,即使是天气预报，也要考虑到。例如，如果是晴天，附近的太阳能供电站会充满电，但如果预报未来一周都会下雨，那么太阳能电池板将会被闲置。

　　要解锁这些数据价值，就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。

　　用物理学家解释能量的方法或许可以帮助我们理解数据。他们认为物体拥有“储存着的”或“潜在的”能量，只是处于休眠状态，比如压缩了的弹簧或放置在小山顶的小球。这些物体中的能量是隐藏着的、潜在的，直到它们被释放出来。当弹簧被释放或者小球被轻碰而滚下山坡时，这些物体的能量就变成了“动能”，因为它们在移动并对其他物体施力。同理，在

　　基本用途完成后，数据的价值仍然存在，只是处于休眠状态，就像弹簧或小球一样，直到它被二次利用并重新释放它的能量。在大数据时代，我们终于有了这种思维、创造力和工具，来释放数据的隐藏价值。

　　数据的潜在价值有三种最为常见的释放方式：基本再利用、数据集整合和寻找“一份钱两份货”。

　　而数据的折旧值、数据废气和开放数据则是更为独特的方式。

　　数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表，实现了那一刻的特定功能。

　　数据再利用的价值对于那些收集或控制着大型数据集但目前却很少使用的机构来说是个好消息，比如在那些线下运作的传统企业。

　　麦肯锡的咨询顾问们列举了一家物流公司（名称保密）。这家公司在交付货物的过程中积累了大量产品的全球出货信息。嗅到了这个机会之后，该公司成立了专门的部门，以商业和经济预测的形式出售汇总数据。换言之，它创造了谷歌过去搜索查询业务的一个线下版本。

　　由于在信息价值链中的特殊位置，有些公司可能会收集到大量的数据，但是他们并不急需使用也并不擅长再次利用这些数据。

　　有时候，数据的价值并非来自于单个的数据值，而是从数据汇总中体现出来的。

　　因此，AirSage和Sense Networks这些企业会出售诸如人们周五晚上聚集在哪里或者汽车在哪个地段行驶多慢等信息，这种信息集合可以用来确定房地产价值或广告牌的价格。

　　如果得到使用正确，即使是最平凡的信息也可以具有特殊的价值。看看移动运营商吧：他们记录了人们的手机在何时何地连接基站的信息，包括信号的强度。运营商们长期使用这些数据来微调其网络的性能，决定哪里需要添加或者升级基础设施。但这些数据还有很多其他潜在的用途，比如手机制造商可以用它来了解影响信号强度的因素，以改善手机的接收质量。

　　有时，处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据，我们可以做出很有创意的东西来。

　　随着大数据的出现，数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时，重组总和本身的价值也比单个总和更大。

　　如今，互联网用户都熟悉基本的混搭式应用，即将两个或多个数据源以一种新颖的方法结合起来。例如，房地产网站Zillow.com将房地产信息和价格添加在美国的社区地图上，同时还聚合了大量的信息，如社区近期的交易和物业规格，以此来预测区域内具体每套住宅的价值。

　　促成数据再利用的方法之一是从一开始就设计好它的可扩展性。

　　在收集数据时强调扩展性方面，谷歌毫无疑问是做得最好的公司之一。

　　即使数据用于基本用途的价值会减少，但潜在价值却依然强大。

　　潜在价值的概念表明，组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据，前提是要保留所谓的“延展性”权利（专利许可术语）。

　　这样一来，由数据再利用而产生的任何商业价值，原始数据拥有者都能从中分到一杯羹。数据收集者和拥有者无法想象数据再利用的所有可能方式，这一点几乎是不言自明的。

　　现在再来看看谷歌是怎么做的吧。可以说，谷歌拥有世界上最完整的拼写检查器，基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善和增加新的词汇，这是人们每天使用搜索引擎的附加结果。

　　一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了，这就是“数据废气”。它是用户在线交互的副产品，包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。

　　电子书阅读器捕捉了大量关于文学喜好和阅读人群的数据：读者阅读一页或一节需要多长时间，读者是略读还是直接放弃阅读，读者是否画线强调或者在空白处做了笔记，这些他们都会记录下来。这就将阅读这种长期被视为个人行为的动作转换成了一种共同经验。一旦聚集起来，数据废气可以用量化的方式向出版商和作者展示一些他们可能永远都不会知道的信息，如读者的好恶和阅读模式。这是十分具有商业价值的。

　　Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万，产生的数据也十分惊人。

　　我们很可能认为谷歌和亚马逊等网站是大数据的先驱者，但事实上，政府才是大规模信息的原始采集者，并且还在与私营企业竞争他们所控制的大量数据。

　　政府与私营企业数据持有人之间的主要区别就是，政府可以强迫人们为他们提供信息，而不必加以说服或支付报酬。因此，政府将继续收集和积累大量的数据。

　　开放数据的倡导者主张，政府只是他们所收集信息的托管人，私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据；而且数据必须以标准的可机读形式展现，以方便人们处理。否则，信息的公开只会是徒有虚名。

　　世界银行就公开了数百个之前被限制的关于经济和社会指标方面的数据集。

　　同时，各种Web开发人员和富有远见的思想家组成了数据团队来最大化开放数据价值，如美国的阳光基金会和英国的开放知识基金会。

　　开放数据早期的一个例子，来自美国一个叫FlyOnTime.us的网站。人们可以交互地（从许多其他相互关系中）判断恶劣天气使某一特定机场的航班延迟的可能性有多大。

　　该网站结合了航班信息和互联网免费提供的官方天气预报。它是由开放数据的倡导者开发的，由此来说明美国联邦政府所积累信息的实际使用价值。不仅数据是免费提供的，而且软件代码也是开放源代码，可供人们学习和再次利用。

　　公司账面价值和市场价值之间的差额被记为“无形资产”。20世纪80年代中期，无形资产在美国上市公司市值中约占40%，而在2002年，这一数字已经增长为75%。

　　无形资产早期仅包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地，公司所持有和使用的数据也渐渐纳入了无形资产的范畴。

　　如何给数据估值呢？诚然，计算价值不再是将其基本用途简单地加总。但是如果数据的大部分价值都是潜在的，需要从未知的二次利用提取，那么人们目前尚不清楚应该如何估算它。这个难度类似于在20世纪70年代布莱克-舒尔斯期权定价理论出现前金融衍生品的定价。它也类似于为专利估值，因为随着各种拍卖、交流、私人销售、许可和大量诉讼的出现，一个知识市场正在逐渐兴起。

　　如果不出意外，给数据的潜在价值贴上价格标签会给金融部门带来无限商机。

　　一个办法是从数据持有人在价值提取上所采取的不同策略入手，最常见的一种可能性就是将数据授权给第三方。

　　在大数据时代，数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付，而不是敲定一个固定的数额。这有点类似于出版商从书籍、音乐或电影的获利中抽取一定比例，作为支付给作者和表演者的特许权使用费；也类似于生物技术行业的知识产权交易，许可人要求从基于他们技术成果的所有后续发明中抽取一定比例的技术使用费。这样一来，各方都会努力使数据再利用的价值达到最大。然而，由于被许可人可能无法提取数据全部的潜在价值，因此数据持有人可能还会同时向其他方授权使用其数据，两边下注以避免损失。因而，“数据滥交”可能会成为一种常态。

　　谷歌的前员工吉尔•埃尔巴兹（Gil Elbaz）创办的Factual收集数据，然后制成数据库供需要者使用。

　　“数据是一个平台”，因为数据是新产品和新商业模式的基石。

　　数据价值的关键是看似无限的再利用，即它的潜在价值。收集信息固然至关重要，但还远远不够，因为大部分的数据价值在于它的使用，而不是占有本身。

　　大数据，决定企业竞争力

　　如今，我们正处在大数据时代的早期，思维和技术是最有价值的，但是最终大部分的价值还是必须从数据本身中挖掘。

　　表面上，Decide.com就像众多前途光明的科技公司一样，在创新地使用数据、赚取利润。但是事实上，让Decide.com异军突起的不是数据，不是技术，而是思维观念。Decide..com使用的数据都来自电子商务网站和互联网，这是公开的数据，每个人都可以利用。技术上，公司也并没有无可替代的技术人才。

　　所以，虽然数据和技术也是不可或缺的，但是真正使得该公司取得成功的是他们拥有大数据的思维观念。它先人一步地挖掘出了数据的潜在价值。

　　Decide.com和Farecast之间似乎有着相通性，如果你知道它们都是华盛顿大学奥伦•埃齐奥尼先生的杰作，你就知道原因了。

　　根据所提供价值的不同来源，分别出现了三种大数据公司。这三种来源是指：数据本身、技能与思维。

　　第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据，却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter，它拥有海量数据这一点是毫无疑问的，但是它的数据都通过两个独立的公司授权给别人使用。

　　第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说，沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司（Teradata）的分析来获得营销点子，天睿就是一家大数据分析公司。

　　第三种是基于思维的公司。皮特•华登（Pete Warden），Jetpac的联合创始人，就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说，数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维，他们有怎样挖掘数据的新价值的独特想法。

　　数据科学家是统计学家、软件程序员、图形设计师与作家的结合体。与通过显微镜发现事物不同，数据科学家通过探寻数据库来得到新的发现。全球知名咨询管理公司麦肯锡，就曾极端地预测数据科学家是当今和未来稀缺的资源。如今的数据科学家们也喜欢用这个预测来提升自己的地位和工资水平。

　　谷歌的首席经济学家哈尔•范里安（Hal Varian）认为统计学家是世界上最棒的职业，他的这种说法非常著名。“如果你想成功，你不应该成为一个普通的、可被随意替代的人，你应该成为稀缺的、不可替代的那类人，”他还说，“数据非常之多而且具有战略重要性，但是真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。”

　　大数据最值钱的部分就是它自身，所以最先考虑数据拥有者才是明智的。他们可能不是第一手收集数据的人，但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。

　　四大机票预订系统之一的ITA Software[1]就为Farecast提供预测机票价格所需要的数据，而它自身并不进行这种数据分析。

　　有的公司精明地把自己放在了这个信息链的核心，这样它们就能扩大规模、挖掘数据的价值。

　　2013-11-16 13:41:45

　　如何使用收集到的数据。

　　一个称为MasterCard Advisors的部门收集和分析了来自210个国家

　　的15亿信用卡用户的650亿条交易记录，用来预测商业发展和客户的消费趋势。然后，它把这些分析结果卖给其他公司。它发现，如果一个人在下午四点左右给汽车加油的话，他很可能在接下来的一个小时内要去购物或者去餐馆吃饭，而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息，因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。

　　处于这个数据链的中心，MasterCard占据了收集数据和挖掘数据价值的黄金位置。我们可以想象，未来的信用卡公司不会再对交易收取佣金，而是免费提供支付服务。作为回报，它们会获得更多的数据，而对这些数据进行复杂的分析之后，它们又可以卖掉分析结果以取得利润。

　　2005年，在埃森哲与密苏里州圣路易斯市共同合作的一个实验项目中，它给20辆公交车安装了无线传感器来监测车辆引擎的工作情况。这些数据被用来预测公交车什么时候会抛锚以及维修的最佳时机。

　　微软只是提供了分析工具，也就是Amalga系统来帮助发现有价值的信息。

　　大数据拥有者依靠技术专家来挖掘数据的价值。但是，虽然受到了高度的赞扬，而且同时拥有“数据武士”这样时髦的名字，但技术专家并没有想象中那么耀眼。他们在大数据中淘金，发现了金银珠宝，可是最后却要把这些财富拱手让给大数据拥有者。

　　第三种类型是有着大数据思维的公司和个人。他们的优势在于，他们能先人一步发现机遇，尽管本身并不拥有数据也不具备专业技能。事实上，很可能正因为他们是外行人，不具备

　　这些特点，他们的思维才能不受限制。他们思考的只有可能，而不考虑所谓的可行。

　　所谓大数据思维，是指一种意识，认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

　　埃齐奥尼和克罗斯不仅比别人早一步有了这些决胜的思想，他们也有技术优势。Teradata和埃森哲的员工不仅规规矩矩地打卡上班，还时不时会有些机灵的点子。这些原型都有助于我们认识不同公司所承担的角色。

　　如今的大数据先驱者们通常都有着交叉学科背景，他们会将这些知识与自己所掌握的数据技术相结合，应用于广泛的领域之中。

　　有些比较幸运的公司就有计划地同时涉足了这三个方面。一个很典型的例子就是谷歌，

　　它收集搜索时拼写错误的数据，它也有利用这些数据创建一个世界上最好的拼写检查程序的好点子，同时它自身也具备挖掘数据价值的技术。谷歌在大数据价值链中同时充当的这三个不同的角色，与谷歌其他项目整合后为谷歌带来了巨大的利润。除此之外，谷歌还通过应用程序接口（APIs）把它掌握的部分数据授权别人使用，这样数据就能重复使用还可以产生附加价值。谷歌地图就是这样，它免费给互联网上的任何人提供服务（尽管访问量很大的网站是需要付费的）。

　　同样，亚马逊也是数据、技能、思维三者兼备。事实上，该公司的商业模式就是按这个顺序确定的，虽然这与常规不符。刚开始的时候，关于它备受赞誉的推荐系统，亚马逊只有一个初步的想法。它在其1997年的股票市场简介中首先描述了“协同过滤”，这发生在它找到实施这个想法的方法和配备足够的数据资源之前。

　　虽然谷歌和亚马逊都是三者兼具，但是它们的商业策略并不相同。谷歌在刚开始收集数据的时候，就已经带有多次使用数据的想法。比方说，它的街景采集车收集全球定位系统数据不光是为了创建谷歌地图，也是为了制成全自动汽车。相对地，亚马逊更关注的是数据的基本用途而且也只把数据的二级用途作为额外收益。比方说，它的推荐系统把用户浏览过的网页数据作为线索，但是它并没有利用它预测经济状况和流感爆发。

　　亚马逊的Kindle电子书阅读器记录了一些读者反复标注和强调过的内容，但是亚马逊并没有把这些数据信息卖给作者或是出版社。书商肯定很乐意知道哪些段落是受读者喜欢的，因为这样他们就能提高销量；作者应该也想知道书籍的哪些地方不受读者欢迎，这样他们就能根据读者的喜好提高作品质量；出版社则可以通过这些数据知道哪些主题的书籍更有可能成为畅销书。但是，亚马逊把这些数据都雪藏了。

　　一旦得以有效利用，大数据就可以变革公司的赢利模式和传统交流方式。

　　谁在这个大数据价值链中获益最大呢？现在看来，应该是那些拥有大数据思维或者说创新性思维的人。就像我们所见的一样，自从信息时代以来，这些第一个吃螃蟹的人都发了大财。但是，这种先决优势并不能维持很长的时间。随着大数据时代的推进，别人也会吸收这种思维，然后那些先驱者的优势就会逐渐减弱。

　　随着大数据成为人们生活的一部分，而大数据工具变得更容易和更方便使用，越来越多的人会掌握这些技能，所以这些技能的价值就会相对减少，就像20世纪60~80年代之间计算机编程技术变得越来越普遍一样。

　　现今，我们正处在大数据时代的早期，思维和技能是最有价值的，但是最终，大部分的价值还是必须从数据本身中挖掘。因为在未来，我们可以利用数据做更多的事情，而数据拥有者们也会真正意识到他们所拥有的财富。因此，他们可能会把他们手中所拥有的数据抓得更紧，也会以更高的价格将其出售。继续用金矿来打比方：只有金子才是真正值钱的。

　　如果数据拥有者做长远打算的话，有一个小问题十分值得关注：那就是在有些情况下会出现“数据中间人”，它们会从各种地方搜集数据进行整合，然后再提取有用的信息进行利用。数据拥有者可以让中间人充当这样的角色，因为有些数据的价值只能通过中间人来挖掘。

　　总部位于西雅图的交通数据处理公司Inrix就是一个很好的例子。它汇集了来自美洲和欧洲近1亿辆汽车的实时交通数据。这些数据来自宝马、福特、丰田等私家车，还有一些商用车，比如出租车和货车。私家车主的移动电话也是数据的来源。这也解释了为什么它要建立一个免费的智能手机应用程序，因为一方面它可以为用户提供免费的交通信息，另一方面它自己就得到了同步的数据。Inrix通过把这些数据与历史交通数据进行比对，再考虑进天气和其他诸如当地时事等信息来预测交通状况。数据软件分析出的结果会被同步到汽车卫星导航系统中，政府部门和商用车队都会使用它。

　　Inrix是典型的独立运作的大数据中间商。它汇聚了来自很多汽车制造商的数据，这些数据能产生的价值要远远超过它们被单独利用时的价值。

　　当然，很多行业已经有过信息共享了，比较著名的有保险商实验室，还有一些已经联网了的行业，比如银行业、能源和通信行业。在这些行业里，信息交流是避免问题最重要的一环，监管部门也要求它们信息互通。市场研究公司把几十年来的数据都汇集在一起，就像一些专门负责审计报刊发行量的公司一样。这是一些行业联盟组织的主要职责。

　　现在，广告业是一个高利润行业，因为大部分的数据都藏身于此，而社会各行各业都急切地需要通过挖掘这些数据进行定向广告。随着越来越多的事情被数据化，越来越多的行业意识到它们与数据有交流，这些独立的数据中间人也会在别处出现。

　　有时，这些中间人不一定是商业性质的组织，也可能是非营利性的

　　大数据公司的多样性表明了数据价值的转移。

　　随着数据价值转移到数据拥有者手上，传统的商业模式也被颠覆了。

　　2010年UPS就把它的UPS Logistics Technologies部门卖给了一家叫Thoma Bravo的私人股本公司。如今，它已经变成了Roadnet Technologies，可以为多家公司进行线路分析。

　　Roadnet从客户手中收集大量数据，同时为UPS和它的竞争者提供行业内广受认可的标杆性服务。

　　《点球成金》这部关于奥克兰运动家棒球队如何通过利用统计学和数学建模的方式分析数字，从而取得最终胜利的电影中

　　影片《点球成金》改编自迈克尔•刘易斯的《魔球——逆境中制胜的智慧》。

　　行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗，因为后者不受旧观念的影响，能够聆听数据发出的声音。他们的判断建立在相关关系的基础上，没有受到偏见和成见的影响

　　在传媒界，如“赫芬顿邮报”（Huffington Post）和高客网（Gawker）这些网站上传播的新闻通常取决于数据，而不再取决于编辑的新闻敏感度。

　　数据比有经验的记者更能揭示出哪些是符合大众口味的新闻。Coursera，一家网上教育公司，深度地研究它收集的所有数据，比如学生重放过讲座视频的哪个片段，从而找出不明确或者很吸引人的地方，然后反馈给设计课程的团队。

　　与时俱进才是在职业领域取得成功的必备技能；这样的员工能随时满足公司对他们的期望。

　　大数据的先锋们通常并不来自于他们做出了极大贡献的领域。他们是数据分析家、人工智能专家、数学家或者统计学家，但是他们把他们所掌握的技能运用到了各个领域。

　　当然，行业专家是不会真正消亡的，只是他们的主导地位会发生改变。未来，大数据人才会与他们一样身居高位

　　数学和统计学知识，甚至是有少许编程和网络科学的知识将会成为现代工厂的基础，一如百年前的计算能力或者更早之前的文学。人类的价值将不再体现在与思维类似的同行的交际上，而体现在与各行各业的人的交际上，因为这样知识就能广泛而深刻地进行传播。

　　如今，不只是专业技能的深度很重要，大数据的广度也变得很重要。要想解决一个生物难题，或许与天体物理学家或者数据视图设计师联系就可以实现。

　　“我们打着游戏公司的幌子，实际上在做的是分析公司的事。我们的运作都是以数据为基础的。”

　　最好的大数据服务都是以创新思维为基础的，所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有，数据分析能在云处理平台上快速而且低成本地进行，而授权费用则应从数据带来的利益中抽取一小部分。

　　大大小小的公司都能从大数据中获利，这个情况很有可能并不只是适用于使用数据的公司，也适用于掌握数据的公司。

　　大数据拥有者想尽办法想增加它们的数据存储量，因为这样能以极小的成本带来更大的利润。

　　首先，它们已经具备了存储和处理数据的基础。其次，数据库的融合能带来特有的价值。最后，数据使用者如果只需要从一人手中购得数据，那将更加省时省力。不过实际情况要远远复杂得多，可能还会有一群处在另一方的数据拥有者（个人）诞生。因为随着数据价值的显现，很多人会想以数据拥有者的身份大展身手，他们收集

　　的数据往往是和自身相关的，比如他们的购物习惯、观影习惯，也许还有医疗数据等。

　　这使得消费者拥有了比以前更大的权利。消费者可以自行决定把这些数据中的多少授权给哪些公司。当然，不是每个人都只在乎把他的数据卖个高价，很多人愿意免费提供这些数据来换取更好的服务，比如想得到亚马逊更准确的图书推荐。但是对于很大一部分对数据敏感的消费者来说，营销和出售他们的个人信息就像写博客、发Twitter信息和在维基百科检索一样自然。

　　现在，无论是消费者授权他们的信息还是公司从个人手中购得信息都还过于昂贵和复杂。这很可能会催生出一些中间商，它们从众多消费者手中购得信息，然后卖给公司。如果成本够低，而消费者又足够信任这样的中间商，那么个人数据市场就很有可能诞生，这样个人就成功地成为了数据拥有者。

　　只有当这些数据中间商诞生并开始运营，而数据使用者也开始使用这些数据的时候，消费者才能真正变成数据掌握者。如今，消费者在等待足够的设备和适当的数据中间商的出现，在这之前，他们希望自己披露的信息越少越好。总之，一旦条件成熟，消费者就能从真正意义上成为数据掌握者了。

　　数据独裁

　　互联网出现之前，如艾可飞和益百利这样的专业数据收集公司就采集、记录了全球范围内大约几百万人口的数据，而它们提供的每个人的个人数据就多达好几百份。而互联网的出现使得监视变得更容易、成本更低廉也更有用处。

　　大数据的价值不再单纯来源于它的基本用途，而更多源于它的二次利用。

　　大数据时代，很多数据在收集的时候并无意用作其他用途，而最终却产生了很多创新性的用途。

　　出现这种无效性则是由两个因素引起的，一是我们收集到的数据越来越多，二是我们会结合越来越多不同来源的数据。

　　采集个人数据的工具就隐藏在我们日常生活所必备的工具当中，比如网页和智能手机应用程序。

　　预测与惩罚，不是因为“所做”，而是因为“将做”。

　　电影《少数派报告》（Minority Report）开始时的场景，这部电影描述的是一个未来可以准确预知的世界，而罪犯在实施犯罪前就已受到了惩罚。

　　麦克纳马拉对数字的执迷从年轻的时候就开始了，当时他还是哈佛商学院的学生，后来，他以24岁的年纪成为了最年轻的副教授。

　　在由“小数据”时代向大数据时代转变的过程中，我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很差；可能是不客观的；可能存在分析错误或者具有误导性；更糟糕的是，数据可能根本达不到量化它的目的。

　　考试结果可能一生都不会改变，但是它并不能测试出

　　一个人的知识深度，也展示不出一个人的人文素养，学习技能之外，科学和工程知识才是更适合考量的。

　　“事实上，真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图表上的百分点或者资产负债表上的数字。但是如果不对可量化的事物进行量化，我们就会失去全面了解该事物的机会。”

　　管理变革4：反数据垄断大亨

　　我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时，这些变革也会带动社会需要维护的核心价值观的转变。

　　随着世界开始迈向大数据时代，社会也将经历类似的地壳运动。在改变我们许多基本的生活和思考方式的同时，大数据早已在推动我们去重新考虑最基本的准则，包括怎样鼓励其增长以及怎样遏制其潜在威胁。然而，不同于印刷革命，我们没有几个世纪的时间去慢慢适应，我们也许只有几年时间。

　　在大数据时代，我们需要设立一个不一样的隐私保护模式，这个模式应该更着重于数据使用者为其行为承担责任，而不是将重心放在收集数据之初取得个人同意上。这样一来，使用数据的公司就需要基于其将对个人所造成的影响，对涉及个人数据再利用的行为进行正规评测。

　　未来的隐私保护法应当区分用途，包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目，管理者必须设立规章，规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。这将激发数据的创新性再利用，同时也确保个人免受无妄之灾。

　　将责任从民众转移到数据使用者很有意义，也存在充分的理由，因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估（或者由他们所雇用的专家制定的评估）避免了商业机密的泄露。也许更为重要的是，数据使用者是数据二级应用的最大受益者，所以理所当然应该让他们对自己的行为负责。

　　社会必须平衡二次运用的优势与过度披露所带来的风险。

　　大数据时代的平衡：公司可以利用数据的时间更长，但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。

　　社会发展出现过很多这种情况，当一个特定领域变得特别复杂和专门化之后，就会催生出对运用新技术的专门人才的迫切需求。

　　在一个多世纪以前，法律、医学、会计以及工程学领域都经历过这种转型。

　　大数据将要求一个新的人群来扮演这种角色，也许他们会被称作“算法师”。他们有两种形式：在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。

　　这些新的专业人员会是计算机科学、数学和统计学领域的专家，他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密，就像现在的审计员和其他专业人员所做的一样。他们可以评估数据源的挑选，分析和预测工具的选取，甚至包括运算法则和模型，以及计算结果的解读是否正确合理。一旦出现争议，他们有权考察与分析结果相关的运算法则、统计方法以及数据集。

　　数据之于信息社会就如燃料之于工业革命，是人们进行创新的力量源泉。

　　结语正在发生的未来

　　弗劳尔为了找到合适的人而广泛撒网。“

　　我想要可执行的洞察力，这是我所关注的。”他说。最后，弗劳尔一共挑选了5个人组成团队，他称他们为“小伙子”。除一名成员外，其他都是刚毕业一两年的经济学专业学生，而且从未在大城市生活过，但他们都很有创造力。

　　他们并不满足于仅仅对数据进行运算，而是会到现场观看检查员的工作。他们不断做着大量笔记，并询问一切流程的开展效果。

　　结语正在发生的未来

　　很多情况下，弄清楚“是什么”比找寻“为什么”更加重要，因为前者表明事实才是我们生活和思维的基础。

　　我们认为应当更多地考虑当数据说话时会发生什么。

　　对于大多数数据来说，尽可能多地收集、等待信息增值并且让其他更适合挖掘其价值的人来分析它才是明智之举（前提是此人能够分享开发出的利润）。

　　能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力，即一个能容纳大数据的心态，但价值的核心归功于数据本身。

　　人类的未来必须保留部分空间，允许我们按照自己的愿望进行塑造。

　　应对大数据的汹涌来袭，我们没有万无一失的方法，必须建立规范自身的新准则。随着社会越来越熟悉大数据的特征和缺陷，我们可以改变一系列的惯例来帮助社会应对这种冲击。我们需要把进行隐私保护的责任从个人转移到数据使用者身上，也就是说，数据使用者应该以负责任的态度使用数据。

　　当大数据成为日常生活的一部分后，它将会极大地改变我们对未来的看法。

　　如果说这以前的历史中，过去、当下、未来的概念是完全交织在一起的，那么通过塑造当下，人类现在便有了过去可以回顾，有了未来可以展望。

　　虽然我们可以塑造当下，但未来却从过去的“完全可预测”转变为一块开放又原始、广阔而空白的帆布，所有人都可以在上面依据自己的价值，努力裁剪塑形。“现代”的一个定义性特征便是人类感到自己是命运的主人，这使我们与生活在宿命论桎梏中的先辈们截然不同。但是大数据预测却又使我们的生命帆布不再那么开放、原始和纯净。对于善于运用科技解读未来的人来说，我们的未来不再是只字未书的画布，而是似乎已经着上了淡淡的墨痕。未来的可预知性似乎缩小了塑造命运的空间。潜在的可能性在概率的圣坛上被解剖。

　　与此同时，大数据又意味着我们将永远受困于过去的行为，这些行为在预知我们下一步动作的预测过程中与我们作对，即我们永远无法逃避已发生的事。

　　其实，事实很有可能是相反的。知道行为在未来如何谢幕，我们便可以采取补救措施，避免问题发生并改善结局。

　　没有什么是上天注定的，因为我们总能就手中的信息制定出相应的对策。

　　大数据预测结果也并非铁定，而只是提供了一种可能性，也就是说，只要我们愿意，结局可以改写。我们可以判断出迎接未来的最佳方式，摇身变作未来的主人

　　更大的数据源于人本身

　　大数据改造了我们的生活，它能优化、提高、高效化并最终捕捉住利益，那直觉、信仰、不确定性和创意还能扮演什么角色呢？

　　大数据不会即刻提高效率，但经受住时间的考验后，它将生出智慧的结晶。

　　大数据并不是一个充斥着运算法则和机器的冰冷世界，其中仍需要人类扮演重要角色。

　　人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。

　　混乱构成了世界的本质，也构成了人脑的本质，而无论是世界的混乱还是人脑的混乱，学会接受和应用它们才能得益。

　　人类最伟大之处正是运算法和硅片没有揭示也无法揭示的东西，因为数据也无法捕捉到这些。并不是“人类最伟大的东西是什么”，而是“什么不是人类最伟大的产物”——真空、人行道上的裂缝、未说出口的话还是未想到的事？

　　大数据是一种资源，也是一种工具。它告知信息但不解释信息。它指导人们去理解，但有时也会引起误解，这取决于是否被正确使用。

　　大数据的力量是那么耀眼，我们必须避免被它的光芒诱惑，并善于发现它固有的瑕疵。

　　大数据提供的不是最终答案，只是参考答案，为我们提供暂时的帮助，以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候，应当怀有谦恭之心，铭记人性之本。

　　西方谚语有云：“预测未来最好的办法就是创造未来。”这句话在大数据时代亦应当铭记。

来自为知笔记(Wiz)

本文出自个人生活数据分享，转载时请注明出处及相应链接。

本文永久链接: http://sikaoa.com/2013/11/18/4169

« 时间记录，2013-11-17

时间记录，2013-11-18 »

阅读笔记：《大数据时代》

分类目录

知识管理下的最新文章

随机文章

标签云

阅读笔记：《大数据时代 》

分类目录

知识管理 下的最新文章

随机文章

标签云

阅读笔记：《大数据时代》

知识管理下的最新文章