跳过正文
  1. 文章/

大数据时代:数据就是新石油

sun.ao
作者
sun.ao
我是 sun.ao,一名热爱技术的程序员,专注于 AI 和数智化领域。
目录
计算机前世今生 - 这篇文章属于一个选集。
§ : 本文

2017年,《经济学人》杂志的封面标题是:

“世界上最有价值的资源不再是石油,而是数据。”

这句话道出了我们时代的真相。

石油需要钻探、提炼、加工。数据也需要收集、清洗、分析。

但数据与石油不同:

  • 数据可以无限复制,不会枯竭
  • 数据越用越有价值,不是越用越少
  • 数据可以合并,产生新的价值

移动互联网、社交媒体、物联网……每时每刻都在产生数据。

每分钟,互联网上发生什么?

  • Google处理380万次搜索
  • YouTube上传500小时视频
  • Facebook用户发布50万条评论
  • Instagram用户上传5万张照片
  • 微信发送超过1亿条消息

这些数据,就是新时代的石油。

数据的爆炸
#

人类历史上,数据一直在增长。但增长速度在加快:

1980年代:全球数据量约几GB

1990年代:互联网出现,数据量增长到TB级

2000年代:社交媒体兴起,数据量增长到PB级

2010年代:移动互联网普及,数据量增长到EB级

2020年代:物联网、AI兴起,数据量增长到ZB级

1 ZB = 10亿 TB。今天,全球每年产生的数据超过100 ZB。

大数据的特点
#

大数据有四个V:

Volume(大量):数据量巨大,传统工具无法处理

Velocity(高速):数据产生速度快,需要实时处理

Variety(多样):数据类型多样:文本、图片、视频、传感器数据……

Veracity(真实):数据质量参差不齐,需要清洗验证

后来又加了第五个V:

Value(价值):数据本身没有价值,只有分析才能产生价值

Hadoop:处理大数据的工具
#

面对海量数据,传统数据库无法应对。

2004年,Google发表了两篇论文,描述了他们的分布式系统:MapReduceGFS(Google File System)。

Doug Cutting受此启发,开发了Hadoop——一个开源的分布式计算框架。

Hadoop包括:

HDFS:分布式文件系统,把数据分散存储在多台机器上

MapReduce:分布式计算框架,把计算任务分散到多台机器上

Hadoop让普通公司也能处理海量数据,不需要像Google那样建设昂贵的数据中心。

后来,Spark取代了MapReduce,速度更快。Flink支持流处理,可以实时分析数据。

数据的价值
#

数据有什么用?

商业决策

亚马逊分析用户购买记录,推荐相关商品。推荐系统贡献了35%的销售额。

Netflix分析用户观看记录,推荐内容,甚至决定制作什么剧集。

精准广告

Google和Facebook分析用户行为,投放精准广告。这是他们主要的收入来源。

风险控制

银行分析交易数据,检测欺诈行为。保险公司分析客户数据,定制保费。

医疗健康

分析医疗数据,预测疾病爆发。分析基因数据,个性化治疗。

城市管理

分析交通数据,优化信号灯。分析能源数据,智能调度。

科学研究

分析天文数据,发现新天体。分析物理实验数据,验证理论。

数据的收集
#

数据从哪里来?

用户行为:点击、浏览、购买、搜索……

传感器:温度、位置、速度、图像……

社交媒体:帖子、评论、点赞、分享……

交易记录:购买、支付、转账……

设备日志:服务器日志、应用日志……

每时每刻,数据都在产生。收集数据已经不是问题,问题是如何利用数据。

数据的隐私
#

但数据的收集带来了问题:隐私

科技公司收集了我们的:

  • 位置信息
  • 搜索记录
  • 购买历史
  • 社交关系
  • 甚至对话内容

这些数据可以用来:

  • 投放精准广告
  • 影响我们的决策
  • 甚至操纵选举(剑桥分析事件)

2018年,欧盟实施了GDPR(通用数据保护条例),规定了企业如何收集和处理个人数据。违反者面临巨额罚款。

中国也实施了《个人信息保护法》,保护公民的数据权益。

数据的垄断
#

数据也有垄断问题。

大公司拥有更多数据,可以训练更好的AI模型,提供更好的服务,吸引更多用户,产生更多数据——正反馈循环

小公司无法竞争。

这导致了数据的"赢家通吃":Google垄断搜索数据,Facebook垄断社交数据,亚马逊垄断购物数据。

监管机构开始关注数据垄断问题,但解决方案仍在探索中。

数据的未来
#

数据的未来是什么?

更多数据:物联网将连接数百亿设备,产生更多数据。

实时处理:5G和边缘计算让数据可以实时处理。

AI分析:机器学习可以从数据中发现人类无法发现的模式。

隐私保护:差分隐私、联邦学习等技术可以在保护隐私的同时利用数据。

数据交易:数据市场让企业可以买卖数据,释放数据价值。

下一步:机器学习
#

数据本身没有价值,只有分析才能产生价值。

传统的数据分析依赖人工。但数据量太大,人工无法处理。

机器学习让计算机可以从数据中学习,自动发现模式。

明天,我们来讲机器学习。


今日知识点
#

大数据(Big Data) 海量、高速、多样的数据集合,传统工具无法处理。大数据的特点是4V:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)。

分布式计算(Distributed Computing) 把计算任务分散到多台机器上并行执行。Hadoop、Spark是分布式计算框架,可以处理海量数据。

数据隐私(Data Privacy) 个人数据的保护问题。科技公司收集大量个人数据,引发隐私担忧。GDPR等法规保护个人数据权益。


思考题
#

  1. “数据就是新石油”,你同意吗?数据和石油有什么相同和不同?
  2. 科技公司收集了我们的很多数据。你觉得应该如何平衡数据利用和隐私保护?

明天预告:机器学习入门——如何教计算机自己学习?

计算机前世今生 - 这篇文章属于一个选集。
§ : 本文

相关文章