导读
“数据!数据!!数据!!!”他不耐烦地咆哮着,“巧妇难为无米之炊!”
——阿瑟柯南道尔
智造扫地僧发布
转载请注明来源和出处
1.1数据的崛起
生活中,数据无处不在。网站会记录每个用户的每次点击。智能手机会记录你每时每刻的位置和速度。“量化自我的人”戴着智能计步器记录自己的心率、运动习惯、饮食习惯和睡眠模式。智能汽车记录驾驶习惯,智能家居记录生活习惯,智能购物设备记录购买习惯。互联网本就是一幅巨大的知识图谱,其中包括(除此之外)有无数交叉引用的百科全书,如电影、音乐、体育赛事、弹球机、表情包、鸡尾酒等特定领域的数据库,以及很多政府部门发布的不计其数的统计数据(其中一些还挺真实的)充斥在你的头脑中。
在这些数据中隐藏着无数问题的答案,有些问题甚至无人提及。我们将在本书中学习如何找到这些答案。
1.2 什么是数据科学
有一个笑话说,数据科学家是计算机科学家中的统计学家,也是统计学家中的计算机科学家。(哈哈,好像并不好笑。)事实上,一些数据科学家从实际的角度看就是统计学家,而其他数据科学家则与软件工程师没什么区别。有些数据科学家是机器学习专家,有些数据科学家则在机器学习方面知之甚少。有些数据科学家是博士,出版过令人印象深刻的学术作品,而有些数据科学家却从未阅读过学术论文(这有点尴尬)。所以说,无论如何定义数据科学,你都会发现有些数据科学从业者与那些定义完全不相称。
尽管如此,这并不能阻止我们尝试定义数据科学家。我们会说数据科学家是从凌乱的数据中提取有用信息的人。今天,世界各地有无数人在此领域耕耘。
例如,交友网站OkCupid要求其会员回答成百上千个问题,以便为他们找到最合适的交友对象。但它也会分析这些听起来无害的问题,比如你可以从某人回答的问题中得出他/她有多可能在第一次约会时和你上床。
Facebook要求你填写家乡位置和居住位置的信息,表面上是为了让你的朋友更容易找到你并与你联系,但它也会分析这些位置,以研究全球移民模式以及各个橄榄球队的粉丝群的分布情况。
大型零售商Target会跟踪你线上和线下的购买习惯和互动习惯。它使用这些数据预测哪些顾客怀孕了,以便更好地向她们推销母婴商品。
年,奥巴马的竞选团队雇用了数十名数据科学家,他们通过数据挖掘和实验的方式来识别需要额外
转载请注明:http://www.0431gb208.com/sjszlff/3776.html