大数据时代：数据就是新石油

计算机前世今生 - 这篇文章属于一个选集。

§ : 本文

§ : 安卓崛起：开源系统的逆袭

§ : 移动互联网：iPhone重新定义手机

§ : 云计算时代：AWS改变一切

§ : 开源的力量：Linux与开源运动

§ : Python的哲学：为什么Python叫Python

§ : 编程语言进化论：从机器码到高级语言

§ : 浏览器战争：网景与IE的世纪对决

§ : 万维网诞生：蒂姆·伯纳斯-李的礼物

§ : 比尔·盖茨与微软：软件帝国的崛起

§ : 乔布斯与苹果：改变世界的发布会

§ : 个人电脑革命：车库里的苹果

§ : 互联网的雏形：ARPANET与冷战争霸

§ : 第一台电子计算机：ENIAC的诞生

§ : 冯·诺依曼的蓝图：存储程序计算机

§ : 图灵的大脑：计算机的理论祖先

§ : 差分机的传奇：巴贝奇与未完成的梦想

§ : 机械计算的曙光：帕斯卡与莱布尼茨

§ : 人类的计算梦：从结绳记事到算盘

2017年，《经济学人》杂志的封面标题是：

“世界上最有价值的资源不再是石油，而是数据。”

这句话道出了我们时代的真相。

石油需要钻探、提炼、加工。数据也需要收集、清洗、分析。

但数据与石油不同：

数据可以无限复制，不会枯竭
数据越用越有价值，不是越用越少
数据可以合并，产生新的价值

移动互联网、社交媒体、物联网……每时每刻都在产生数据。

每分钟，互联网上发生什么？

Google处理380万次搜索
YouTube上传500小时视频
Facebook用户发布50万条评论
Instagram用户上传5万张照片
微信发送超过1亿条消息

这些数据，就是新时代的石油。

数据的爆炸
#

人类历史上，数据一直在增长。但增长速度在加快：

1980年代：全球数据量约几GB

1990年代：互联网出现，数据量增长到TB级

2000年代：社交媒体兴起，数据量增长到PB级

2010年代：移动互联网普及，数据量增长到EB级

2020年代：物联网、AI兴起，数据量增长到ZB级

1 ZB = 10亿 TB。今天，全球每年产生的数据超过100 ZB。

大数据的特点
#

大数据有四个V：

Volume（大量）：数据量巨大，传统工具无法处理

Velocity（高速）：数据产生速度快，需要实时处理

Variety（多样）：数据类型多样：文本、图片、视频、传感器数据……

Veracity（真实）：数据质量参差不齐，需要清洗验证

后来又加了第五个V：

Value（价值）：数据本身没有价值，只有分析才能产生价值

Hadoop：处理大数据的工具
#

面对海量数据，传统数据库无法应对。

2004年，Google发表了两篇论文，描述了他们的分布式系统：MapReduce和GFS（Google File System）。

Doug Cutting受此启发，开发了Hadoop——一个开源的分布式计算框架。

Hadoop包括：

HDFS：分布式文件系统，把数据分散存储在多台机器上

MapReduce：分布式计算框架，把计算任务分散到多台机器上

Hadoop让普通公司也能处理海量数据，不需要像Google那样建设昂贵的数据中心。

后来，Spark取代了MapReduce，速度更快。Flink支持流处理，可以实时分析数据。

数据的价值
#

数据有什么用？

商业决策

亚马逊分析用户购买记录，推荐相关商品。推荐系统贡献了35%的销售额。

Netflix分析用户观看记录，推荐内容，甚至决定制作什么剧集。

精准广告

Google和Facebook分析用户行为，投放精准广告。这是他们主要的收入来源。

风险控制

银行分析交易数据，检测欺诈行为。保险公司分析客户数据，定制保费。

医疗健康

分析医疗数据，预测疾病爆发。分析基因数据，个性化治疗。

城市管理

分析交通数据，优化信号灯。分析能源数据，智能调度。

科学研究

分析天文数据，发现新天体。分析物理实验数据，验证理论。

数据的收集
#

数据从哪里来？

用户行为：点击、浏览、购买、搜索……

传感器：温度、位置、速度、图像……

社交媒体：帖子、评论、点赞、分享……

交易记录：购买、支付、转账……

设备日志：服务器日志、应用日志……

每时每刻，数据都在产生。收集数据已经不是问题，问题是如何利用数据。

数据的隐私
#

但数据的收集带来了问题：隐私。

科技公司收集了我们的：

位置信息
搜索记录
购买历史
社交关系
甚至对话内容

这些数据可以用来：

投放精准广告
影响我们的决策
甚至操纵选举（剑桥分析事件）

2018年，欧盟实施了GDPR（通用数据保护条例），规定了企业如何收集和处理个人数据。违反者面临巨额罚款。

中国也实施了《个人信息保护法》，保护公民的数据权益。

数据的垄断
#

数据也有垄断问题。

大公司拥有更多数据，可以训练更好的AI模型，提供更好的服务，吸引更多用户，产生更多数据——正反馈循环。

小公司无法竞争。

这导致了数据的"赢家通吃"：Google垄断搜索数据，Facebook垄断社交数据，亚马逊垄断购物数据。

监管机构开始关注数据垄断问题，但解决方案仍在探索中。

数据的未来
#

数据的未来是什么？

更多数据：物联网将连接数百亿设备，产生更多数据。

实时处理：5G和边缘计算让数据可以实时处理。

AI分析：机器学习可以从数据中发现人类无法发现的模式。

隐私保护：差分隐私、联邦学习等技术可以在保护隐私的同时利用数据。

数据交易：数据市场让企业可以买卖数据，释放数据价值。

下一步：机器学习
#

数据本身没有价值，只有分析才能产生价值。

传统的数据分析依赖人工。但数据量太大，人工无法处理。

机器学习让计算机可以从数据中学习，自动发现模式。

明天，我们来讲机器学习。

今日知识点
#

大数据（Big Data） 海量、高速、多样的数据集合，传统工具无法处理。大数据的特点是4V：Volume（大量）、Velocity（高速）、Variety（多样）、Veracity（真实）。

分布式计算（Distributed Computing） 把计算任务分散到多台机器上并行执行。Hadoop、Spark是分布式计算框架，可以处理海量数据。

数据隐私（Data Privacy） 个人数据的保护问题。科技公司收集大量个人数据，引发隐私担忧。GDPR等法规保护个人数据权益。

思考题
#

“数据就是新石油”，你同意吗？数据和石油有什么相同和不同？
科技公司收集了我们的很多数据。你觉得应该如何平衡数据利用和隐私保护？

明天预告：机器学习入门——如何教计算机自己学习？

计算机前世今生 - 这篇文章属于一个选集。

§ : 未来已来：计算机的下一个50年

§ : AI编程助手：Copilot改变程序员

§ : ChatGPT时刻：AI进入大众视野

§ : 大语言模型：GPT背后的原理

§ : AI浪潮来袭：2016年后的科技巨变

§ : 深度学习爆发：AlphaGo击败李世石

§ : 机器学习入门：教计算机自己学习