2017年,《经济学人》杂志的封面标题是:
“世界上最有价值的资源不再是石油,而是数据。”
这句话道出了我们时代的真相。
石油需要钻探、提炼、加工。数据也需要收集、清洗、分析。
但数据与石油不同:
- 数据可以无限复制,不会枯竭
- 数据越用越有价值,不是越用越少
- 数据可以合并,产生新的价值
移动互联网、社交媒体、物联网……每时每刻都在产生数据。
每分钟,互联网上发生什么?
- Google处理380万次搜索
- YouTube上传500小时视频
- Facebook用户发布50万条评论
- Instagram用户上传5万张照片
- 微信发送超过1亿条消息
这些数据,就是新时代的石油。
数据的爆炸 #
人类历史上,数据一直在增长。但增长速度在加快:
1980年代:全球数据量约几GB
1990年代:互联网出现,数据量增长到TB级
2000年代:社交媒体兴起,数据量增长到PB级
2010年代:移动互联网普及,数据量增长到EB级
2020年代:物联网、AI兴起,数据量增长到ZB级
1 ZB = 10亿 TB。今天,全球每年产生的数据超过100 ZB。
大数据的特点 #
大数据有四个V:
Volume(大量):数据量巨大,传统工具无法处理
Velocity(高速):数据产生速度快,需要实时处理
Variety(多样):数据类型多样:文本、图片、视频、传感器数据……
Veracity(真实):数据质量参差不齐,需要清洗验证
后来又加了第五个V:
Value(价值):数据本身没有价值,只有分析才能产生价值
Hadoop:处理大数据的工具 #
面对海量数据,传统数据库无法应对。
2004年,Google发表了两篇论文,描述了他们的分布式系统:MapReduce和GFS(Google File System)。
Doug Cutting受此启发,开发了Hadoop——一个开源的分布式计算框架。
Hadoop包括:
HDFS:分布式文件系统,把数据分散存储在多台机器上
MapReduce:分布式计算框架,把计算任务分散到多台机器上
Hadoop让普通公司也能处理海量数据,不需要像Google那样建设昂贵的数据中心。
后来,Spark取代了MapReduce,速度更快。Flink支持流处理,可以实时分析数据。
数据的价值 #
数据有什么用?
商业决策
亚马逊分析用户购买记录,推荐相关商品。推荐系统贡献了35%的销售额。
Netflix分析用户观看记录,推荐内容,甚至决定制作什么剧集。
精准广告
Google和Facebook分析用户行为,投放精准广告。这是他们主要的收入来源。
风险控制
银行分析交易数据,检测欺诈行为。保险公司分析客户数据,定制保费。
医疗健康
分析医疗数据,预测疾病爆发。分析基因数据,个性化治疗。
城市管理
分析交通数据,优化信号灯。分析能源数据,智能调度。
科学研究
分析天文数据,发现新天体。分析物理实验数据,验证理论。
数据的收集 #
数据从哪里来?
用户行为:点击、浏览、购买、搜索……
传感器:温度、位置、速度、图像……
社交媒体:帖子、评论、点赞、分享……
交易记录:购买、支付、转账……
设备日志:服务器日志、应用日志……
每时每刻,数据都在产生。收集数据已经不是问题,问题是如何利用数据。
数据的隐私 #
但数据的收集带来了问题:隐私。
科技公司收集了我们的:
- 位置信息
- 搜索记录
- 购买历史
- 社交关系
- 甚至对话内容
这些数据可以用来:
- 投放精准广告
- 影响我们的决策
- 甚至操纵选举(剑桥分析事件)
2018年,欧盟实施了GDPR(通用数据保护条例),规定了企业如何收集和处理个人数据。违反者面临巨额罚款。
中国也实施了《个人信息保护法》,保护公民的数据权益。
数据的垄断 #
数据也有垄断问题。
大公司拥有更多数据,可以训练更好的AI模型,提供更好的服务,吸引更多用户,产生更多数据——正反馈循环。
小公司无法竞争。
这导致了数据的"赢家通吃":Google垄断搜索数据,Facebook垄断社交数据,亚马逊垄断购物数据。
监管机构开始关注数据垄断问题,但解决方案仍在探索中。
数据的未来 #
数据的未来是什么?
更多数据:物联网将连接数百亿设备,产生更多数据。
实时处理:5G和边缘计算让数据可以实时处理。
AI分析:机器学习可以从数据中发现人类无法发现的模式。
隐私保护:差分隐私、联邦学习等技术可以在保护隐私的同时利用数据。
数据交易:数据市场让企业可以买卖数据,释放数据价值。
下一步:机器学习 #
数据本身没有价值,只有分析才能产生价值。
传统的数据分析依赖人工。但数据量太大,人工无法处理。
机器学习让计算机可以从数据中学习,自动发现模式。
明天,我们来讲机器学习。
今日知识点 #
大数据(Big Data) 海量、高速、多样的数据集合,传统工具无法处理。大数据的特点是4V:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)。
分布式计算(Distributed Computing) 把计算任务分散到多台机器上并行执行。Hadoop、Spark是分布式计算框架,可以处理海量数据。
数据隐私(Data Privacy) 个人数据的保护问题。科技公司收集大量个人数据,引发隐私担忧。GDPR等法规保护个人数据权益。
思考题 #
- “数据就是新石油”,你同意吗?数据和石油有什么相同和不同?
- 科技公司收集了我们的很多数据。你觉得应该如何平衡数据利用和隐私保护?
明天预告:机器学习入门——如何教计算机自己学习?