《大数据》第一章读书笔记——《Big Data》 Chapter 1 NOW

《Big Data》 Chapter 1: NOW

开篇介绍几个大数据的例子。
第一个例子,Google could “predict” the spread of the winter flu. Google依靠大数据实现对流感疫情的实时监控,相比与美国政府部门的传统方法,时效性更强。
第二个例子,计算机专家Oren Etzioni创建Farecast,通过采集网上的飞机票价格信息,获得数据并搭建数据库,创建数学模型,预测飞机票的价格走势,进而帮助顾客决定何时购票最划算,从而降低成本,随着数据的增多,系统的准确性越越来越高。这一名“开窍”的计算机学家,创建了多个基于大数据的企业,例如Netbot,第一个比价网站,MetCrawler,第一个互联网搜索系统,ClearForest,自动提取文档信息(服务于大数据的一个环节),并被各大公司收购。
大数据正在重塑整个商业,而不仅仅是上面所提的公共健康行业、航空业、网购等。Entire business sectors are being reshaped by big data as well.
从第二个案例可以看出大数据模型的一个特点:The model had no understanding of why, only what.
同时,大数据产业的爆发,依赖于科技行业的进步导致的相关成本降低,尤其是计算机运算能力和存储能力。
大数据面前,我们的思维方式需要随之改变,改变思维才能发现到信息和数据具有的巨大价值。数据不再是静态的无用负担,,而变成了一种稀缺的商业资源,一种重要的企业竞争力,能够为企业带来新的附加值。
There was a shift in mindset about how data could be used. Data was no longer regarded as static or stale. Rather, data became a raw material of business, a vital economic input, used to create a new form of economic value.Data can be cleverly reused to become a fountain of innovation and new services.
大数据席卷各行各样,新商机和新模式必定还有很多,需要像不断提高服务水平那样,八仙过海各显其能。机会属于那些谦卑和积极主动的人。
The data can reveal secrets to those with the humility, the willingness, and the tools to listen.

Letting data speak

少量的、孤立的信息没有太大价值,量变引起质变(The quantitative change has led to a qualitative one),数据的量变就带来了大数据及其背后的商机,在2000年左右,天文学和基因组学是最早遭遇这一转变的领域。
big data refers to things one can do at a large scale that cannot be done at a smaller one
在大数据时代,我们的生活方式、理解世界的方式和决策方法都将受到挑战。我们一直依赖于因果关系(Causality),而大数据只告诉我们对应关系(Correlation):不知道为什么,只知道是什么。
But this is just the start. The era of big data challenges the way we live and interact with the world. It challenges our most basic understanding of how to make decisions and comprehend reality. Because causality will be exchanged by simple correlations: not knowing why but only what.
新的变革已经到来,核心是如何发挥数据的作用,创造新的价值。
the real revolution is not in the machines that calculate data but in data itself and how we use it.

数据的爆炸性增长,预示了大数据时代的到来。
天文学是最早经历数据爆炸的领域,2000年启动的斯隆数字巡天(Sloan Digital Sky Survey,SDSS)项目,几周的数据采集量就已经超过了天文学历史上的总信息量,截至到2010年,该项目已经采集了140TB数据。但是将于2016年启动的Large Synoptic Survey Telescope (LSST) Project,每隔五天就会收集140TB的数据。
如今,每天都在产生大量的数据。2003年启动的基因测序项目,花费了十年时间才完成了3千万碱基对的测序,现在一台家用仪器一天时间就可以收集相同的数据量。在经济上,美国每天进行七千万笔股票交易,其中有2/3交易由计算机依据模型自动完成。
互联网行业正在被数据覆盖,google每天收集24Petabytes数据,数千倍于美国国会图书馆的信息量。
在2000年,全球有75%的数据是非数字化的,到了2013年,只有不到2%的数据是非数字化的(non-digital)。
数据爆炸正在加速,目前的数据增长速度比全球经济增长速度快4倍,而计算机的处理能力的增长速度比全球经济增长率快9倍。
从科学到医疗健康,从银行到互联网,各行各业的数据都在爆炸性增长,想象力是大数据领域最大的障碍:我们如何利用这些数据?

信息量的爆炸性增长意味着什么,意味着“可能性无处不在”,大数据赋予我们力量,创造我们过去不能创造的新经济价值。「想到了奇点」
Conversely, when we increase the scale of the data that we work with, we can do new things that weren’t possible when we just worked with smaller amounts.
虽然大数据已经融入了我们的日常生活,但我们目前只是处于大数据时代的黎明时刻。
We are only at the dawn of big data.

大数据的核心是预测。所以大数据也被称为人工智能或机器学习。
At its core, big data is about predictions. Though it is described as part of the branch of computer science called artificial intelligence, and more specifically, an area called machine learning, this characterization is misleading. Big data is not about trying to “teach” a computer to “think” like humans.

More, messy, good enough

Big data will be an source of new economic value and innovation. But even more is at stake.
大数据从以下三个方面影响了我们。
Big data’s ascendancy represents three shifts in the way we analyze information that transform how we understand and organize society.
(1) 我们拥有了处理大量甚至全部数据的能力,从而获得更多过去无法获得的信息和价值。过去,我们使用样本(sample)进行数据处理,因为缺乏数据和和高性能计算设备。「对于本书第二章」
Using all the data lets us see details we never could when we were limited to smaller quantities. Big data gives us an especially clear view of the granular: subcategories and submarkets that samples can’t assess.
(2)大数据时代,我们降低了对数据的准确性(exactitude)的追求以换取更多价值,但我们依旧获得了整体的精确性。「对应本书第三章」在处理少量数据(即样本数据)时,我们传统思维方式是:保证每个数据的准确性,以提高结果的准确性。但是在大数据时代,数据数量越多,不准确数据的数量也越多,数据看起来也越乱(messy),但是我们可以容忍更多的不准确数据,作为交换,我们获得了更整体的视野和更多的其他可能性。与此同时,大数据模型具有更好地扩展性,随着数据的补充,最后的精确性也越高。传统的样本数据处理时代则没有扩展性。「降低对单个数据的精确性的要求,但是我们依旧获得了整体的精确性,这就是《思考,快与慢》下的大数法则,其实就是概率论。」
what we lose in accuracy at the micro level we gain in insight at the macro level.
(3)大数据让我们放弃追求因果关系(causality),而是追求对应关系(correlation)。「对应本书第四章」对应关系就是告诉我们什么事情会发生,但是不会告诉我们为什么会如此。如果大量的医学数据告诉我们 同时服用阿司匹林和橙汁能够治疗癌症,那活下来就比原因更重要「至少优先级是改变了」。以前的研究方法是先设定几个假设,然后再搜集数据去验证假设是否成立,现在我们直接让数据告诉我们可能想不到的对应关系。因此我们可以通过研究twitter来预测股市「虽然这样做看起来毫无道理,但是却有用」。
Big data is about what, not why!
The correlations may not tell us precisely why something is happening, but they alert us that it is happening.

数字化技术的出现,使计算机可以读取,保存和处理信息,比之前的人工操作更快速,更准确,更廉价,从而让信息收集和分析更有效率。
但我们看待数据的模范式paradigm却没有改变。

在本书第五章,作者提出了一个词语,datafication,用来描述大数据时代的信息分析方法,尽可能的收集全部的信息,包括看似无意义的信息,然后从中发现潜在的价值。
We can unlock the implicit and latent value of the information.
大数据带给我们一个巨大的宝藏,从因果关系到对应关系,大数据可以帮助我们发现数据的价值,而不用纠结为何如此,看起来“一切皆有可能”。

第六章和第七章讲述大数据如何改变商业,市场和社会。21世纪,价值从有形资产(土地、自然资源、实体产业)向无形资产(例如商标、智力等)转移,而数据正在成为一种重要的无形资产,新经济生态的核心财富。「数据就是一种信息,共享经济就是最典型的数据利用的成功案例」
In the twentieth century, value shifted from physical infrastructure like land and factories to intangibles such as brands and intellectual property. That now is expanding to data, which is becoming a significant corporate asset, a vital economic input, and the foundation of new business models. It is the oil of the information economy. Though data is rarely recorded on corporate balance sheets, this is probably just a question of time.
大数据会冲击个人生活,我们如何调整自己在大数据时代的角色,如何做决策,如何成为一个有用的人,等等。
大数据正在重塑社会机构和商业团体,改变传统组织的思维方式。

第八章讲述大数据时代的黑暗面。个人隐私何去何从?个人价值如何体现?
我们进入了一个数据驱动的预测状态,大数据只告诉我们怎么做,我们却不知道为什么,这会将我们推向“低智商”的深渊,我们是否会退化,人类的存在意义是多少?
We’re entering a world of constant data-driven predictions where we may not be able to explain the reasons behind our decisions. What does it mean if a doctor cannot justify a medical intervention without asking the patient to defer to a black box, as the physician must do when relying on a big-data-driven diagnosis? Will the judicial system’s standard of “probable cause” need to change to “probabilistic cause”— and if so, what are the implications of this for human freedom and dignity?
It leads society to abandon its time-honored preference for causality, and in many instances tap the benefits of correlation.

第九章讲述大数据时代需要的新法则。

我们再次处于重要的历史拐点,一如上次面临的“上帝已死”的冲击。
Yet again we are at a historical impasse where “god is dead.” That is to say, the certainties that we believed in are once again changing. But this time they are being replaced, ironically, by better evidence. What role is left for intuition, faith, uncertainty, acting in contradiction of the evidence, and learning by experience? As the world shifts from causation to correlation, how can we pragmatically move forward without undermining the very foundations of society humanity, and progress based on reason? This book intends to explain where we are, trace how we got here, and offer an urgently needed guide to the benefits and dangers that lie ahead.