【大数据基础】大数据概述
【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。
文章目录
- 一、大数据时代
- (一)第三次信息化浪潮
- (二)信息科技为大数据时代提供技术支撑
- (三)数据产生方式的变革促成大数据时代的来临
- (四)大数据的发展历程
- 二、大数据概念
- (一)数据量大
- (二)数据类型繁多
- (三)处理速度快
- (四)价值密度低
- 三、大数据的影响
- 四、大数据的应用
- 五、大数据关键技术
- 六、大数据计算模式
- (一)批处理计算
- (二)流计算
- (三)图计算
- (四)查询分析计算
- 七、大数据产业
- 八、大数据与云计算、物联网
- (一)云计算
- (二)物联网
- (三)大数据与云计算、物联网的关系
- 小结
一、大数据时代
(一)第三次信息化浪潮
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 亚马逊、谷歌、IBM、VMware、Palantir、Cloudera、字节跳动、阿里云等 |
(二)信息科技为大数据时代提供技术支撑
1. 存储设备容量不断增加
2. CPU处理能力大幅提升
CPU处理能力的不断提升也是促使数据量不断增长的重要因素。
性能不断提升的CPU,大大提高了处理数据的能力,使得我们可以更快地处理不断累积的海量数据。用同等价格所能获得的CPU处理能力也呈几何级数上升在过去的40多年里,CPU的处理速度已经从10MHz提高到4.6GHz。在2013年之前的很长一段时间里,CPU处理速度的提高一直遵循“摩尔定律”,即芯片上集成的元件数量大约每18个月翻一番,性能大约每隔18个月提高一倍,价格下降一半。
3. 网络带宽不断增加
1977年,世界上第一个光纤通信系统在美国芝加哥市投入商用,数据传输速率达到45Mbit/s,从此,人类社会的数据传输速率不断被刷新。进入21世纪,世界各国更是纷纷加大宽带网络建设力度,不断扩大网络覆盖范围,提高数据传输速率。以我国为例,截至2022年年底:
- 我国互联网宽带接入端口数量达10.65亿个,其中,光纤接入端口占互联网接入端口的比重达95.7%,光缆线路总长度已达5791万千米。
- 移动通信4G基站数量已达590万个,我国4G网络的规模全球第一,并且4G的覆盖广度和深度也在快速发展。
- 我国正全面加速5G网络建设,截至2023年9月底,全国建设开通5G基站达318.9万个,5G移动电话用户达7.37亿户,5G网络建设基础不断夯实。
(三)数据产生方式的变革促成大数据时代的来临
数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。
1. 运营式系统阶段
人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。大型零售超市销售系统、银行交易系统、股市交易系统、医院医疗系统、企业客户管理系统等大量运营式系统,都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。比如,对于股市交易系统而言,只有当发生一笔股票交易时,才会有相关记录生成。
2. 用户原创内容阶段
互联网的出现,使得数据传播更加快捷,数据传播不需要借助于磁盘、磁带等物理存储介质。网页的出现进一步加速了大量网络内容的产生,从而使得人类社会数据量开始呈现“井喷式”增长。但是,真正的互联网数据爆发产生于以“用户原创内容”为特征的“Web 2.0 时代”。Web 1.0时代,主要以门户网站为代表,强调内容的组织与提供,大量上网用户本身并不参与内容的产生。而Web 2.0技术以Wiki、微博、微信、抖音等应用所采用的自服务模式为主,强调自服务,大量上网用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、传照片等,数据量开始急剧增长。
3. 感知式系统阶段
物联网的发展最终导致了人类社会数据量的第三次跃升。物联网中包含大量传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,此外,视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备,每时每刻都在自动产生大量数据,与Web 2.0时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。
(四)大数据的发展历程
大数据的发展历程总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期。
阶段 | 时间 | 内容 |
---|---|---|
第一阶段:萌芽期 | 上世纪90年代至本世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。 |
第二阶段:成熟期 | 本世纪前十年 | Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。 |
第三阶段:大规模应用期 | 2010年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。 |
二、大数据概念
随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。
大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性。
(一)数据量大
根据著名咨询机构互联网数据中心(Internet Data Center,IDC)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,大约每两年就增加一倍,这被称为“大数据摩尔定律”。
这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。
据IDC预测,2025年全球数据量将高达175ZB,2030年全球数据存储量将达到2500ZB。其中,中国数据量增速最为迅猛,预计2025年将增至48.6ZB,占全球数据圈的27.8%,平均每年的增长速度比全球快3%,中国将成为全球最大的数据圈。
(二)数据类型繁多
大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的类型繁多的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数据量十分巨大,已经从TB级别跃升到PB级别。各行各业,每时每刻,都在生成各种不同类型的数据。
大数据是由结构化和非结构化数据组成的,10%的结构化数据,存储在数据库中,90%的非结构化数据,它们与人类信息密切相关。
如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。传统数据主要存储在关系数据库中,但是,在类似Web 2.0等应用领域中,越来越多的数据开始被存储在NoSQL数据库中,这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。传统的联机分析处理(On Line Analytical Processing,OLAP)和商务智能工具大都面向结构化数据,而在大数据时代,用户友好的、支持非结构化数据分析的商业软件将迎来广阔的市场空间。
(三)处理速度快
大数据时代的数据产生速度非常快。在Web 2.0应用领域,在1分钟内,新浪微博可以产生2万条微博,Twitter可以产生10万条推文,苹果可以产生下载4.7万次应用的数据,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询的数据。大名鼎鼎的大型强子对撞机(Large Hadron Collider,LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,同时有成千上万台计算机在分析这些碰撞。
大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的区别,后者通常不要求给出实时分析结果。
(四)价值密度低
大数据虽然看起来很“美”,但是其数据价值密度远远低于传统关系数据库中的数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频有价值。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。
三、大数据的影响
大数据对科学研究、思维方式、社会发展、就业市场和人才培养都具有重要而深远的影响。在科学研究方面,大数据使人类科学研究在经历了实验科学、理论科学、计算科学3种范式之后,迎来了第4种范式——数据密集型科学;在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,完全颠覆了传统的思维方式;在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用不断涌现;在就业方面,大数据的兴起使得数据科学家成为热门人才;在人才培养方面,大数据的兴起将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。
四、大数据的应用
大数据无处不在,包括制造、金融、汽车、互联网、餐饮、电信、能源、物流、城市管理、生物医学、体育和娱乐等在内的社会各个行业/领域都已经融入了大数据,表3是大数据在各个行业/领域的应用情况。
行业/领域 | 大数据的应用 |
---|---|
制造 | 利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺、优化生产过程能耗、工业供应链分析与优化、生产计划与排程 |
金融 | 大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用 |
汽车 | 利用大数据和物联网技术实现的无人驾驶汽车,在不远的未来将走人我们的日常生活 |
互联网 | 借助大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放 |
餐饮 | 利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式 |
电信 | 利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施 |
能源 | 随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理地设计电力需求响应系统,确保电网运行安全 |
物流 | 利用大数据优化物流网络,提高物流效率,降低物流成本 |
城市管理 | 可以利用大数据实现智能交通、环保监测、城市规划和智能安防 |
生物医学 | 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,还可以帮助我们解读DNA,了解更多的生命奥秘 |
体育和娱乐 | 大数据可以帮助我们训练球队,预测比赛结果,以及决定投拍哪种题材的影视作品 |
安全领域 | 政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击;警察可以借助大数据来预防犯罪 |
个人生活 | 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务 |
按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。
- 第一层:描述性分析应用 是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。
- 第二层预:测性分析应用 是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个。
- 第三层:指导性分析应用 是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。
五、大数据关键技术
从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容,具体见表4。
大数据技术层面 | 功能 |
---|---|
数据采集与预处理 | 利用ETL工具将分布在异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析 |
数据存储和管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 |
数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 |
数据安全和隐私保护 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建数据安全体系和隐私数据保护体系,有效保护数据安全和个人隐私 |
两大核心技术:
- 分布式存储:GFS\HDFS、BigTable\HBase、NoSQL(键值、列族、图形、文档数据库)、NewSQL(如:SQL Azure)。
- 分布式处理:MapReduce、Spark、Flink。
六、大数据计算模式
MapReduce是大家熟悉的大数据处理技术,当人们提到大数据时就会很自然地想到MapReduce,可见其影响力之广。实际上,大数据处理的问题复杂多样,单一的计算模式是无法满足不同类型的计算需求的,MapReduce其实只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有批处理计算、流计算、图计算、查询分析计算等多种大数据计算模式(见表5)。
大数据计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 针对大规模数据的批量处理 | MapReduce、Spark等 |
流计算 | 针对流数据的实时计算 | Flink、Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等 |
图计算 | 针对大规模图结构数据的处理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |
(一)批处理计算
批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。MapReduce是最具有代表性和影响力的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集(大于1TB)的并行运算。MapReduce极大地方便了分布式编程工作,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象为两个函数——Map和Reduce,编程人员在不会分布式并行编程的情况下,也可以很容易地将自己的程序运行在分布式系统上,完成海量数据集的计算。
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多。Spark启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。在MapReduce中,数据流从一个稳定的来源进行一系列加工处理后,流出到一个稳定的文件系统(如HDFS)。而Spark使用内存替代HDFS或本地磁盘来存储中间结果,因此Spark要比MapReduce的速度快许多。
(二)流计算
流数据也是大数据分析中的重要数据类型。流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。目前业内已涌现出许多的流计算框架与平台,第一类是商业级的流计算平台,包括IBM InfoSphere Streams和IBM StreamBase等;第二类是开源流计算框架,包括Twitter Storm、Yahoo! S4(Simple Scalable Streaming System)、Spark Streaming、Flink等;第三类是公司为支持自身业务开发的流计算框架,如百度开发了通用实时流数据计算系统DStream,淘宝开发了通用流数据实时计算系统—银河流数据处理平台。
(三)图计算
在大数据时代,许多大数据都是以大规模图或网络的形式呈现的,如社交网络、传染病传播途径、交通事故对路网的影响等。此外,许多非图结构的大数据也常常会被转换为图模型后再进行处理分析。MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架,在表达多迭代、稀疏结构和细粒度数据时,往往显得力不从心,不适合用来解决大规模图计算问题。因此,针对大型图的计算,需要采用图计算模式,目前已经出现了不少相关图计算产品。比如谷歌公司的Pregel就是一个用于分布式图计算的计算框架,主要用于PageRank计算、最短路径和图遍历等。其他代表性的图计算产品还包括Spark生态系统中的GraphX、Flink生态系统中的Gelly、图数据处理系统PowerGraph等。
(四)查询分析计算
针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求。谷歌公司开发的Dremel是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询。系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级的数据,并且可以在 2~3s 内完成PB级别数据的查询。此外,Cloudera公司参考Dremel系统开发了实时查询引擎Impala,它提供结构化查询语言(Structure Query Language,SQL)语义,能快速查询存储在Hadoop的HDFS和HBase中的PB级大数据。
七、大数据产业
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,具体见表6。
产业链环节 | 包含内容 |
---|---|
IT基础设施层 | 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等 |
数据源层 | 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源 |
数据管理层 | 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) |
数据分析层 | 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 |
数据平台层 | 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 | 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
八、大数据与云计算、物联网
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。
(一)云计算
1. 云计算的概念
云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
2. 云计算的关键技术
云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等。
(1)虚拟化
虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多台逻辑计算机,每台逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。
虚拟化的资源可以是硬件(如服务器、磁盘和网络),也可以是软件。以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。
(2)分布式存储
面对“数据爆炸”的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。Google文件系统(Google File System,GFS)是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用的需求。GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。GFS还支持GB或者TB级别超大文件的存储,一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型,文件一旦创建、写入并关闭了,之后就只能对它执行读取操作,而不能执行任何修改操作;同时,HDFS是基于Java实现的,具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容。
谷歌公司后来又以GFS为基础开发了分布式数据管理系统BigTable,它是一个稀疏、分布、持续多维度的排序映射数组,适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点,可在廉价PC服务器上搭建起大规模存储集群。HBase是针对BigTable的开源实现。
(3)分布式计算
面对海量的数据,传统的单指令单数据流顺序执行的方式已经无法满足快速处理数据的要求;同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求,因为晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律已经开始慢慢失效,CPU性能很难每隔18个月翻一番。在这样的大背景下,谷歌公司提出了并行编程模型MapReduce,让任何人都可以在短时间内迅速获得海量计算能力,它允许开发者在不具备并行开发经验的前提下也能够开发出分布式的并行程序,并让其同时运行在数百台机器上,在短时间内完成海量数据的计算。MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数——Map和Reduce,并把一个大数据集切分成多个小的数据集,分布到不同的机器上进行并行处理,极大提高数据处理速度,可以有效满足许多应用对海量数据的批量处理需求。Hadoop开源实现了MapReduce编程框架,被广泛应用于分布式计算。
(4)多租户
多租户技术目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能定制。
3. 云计算数据中心
云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。全国各地推进数据中心建设。
4. 云计算应用
云计算在电子政务、教育、企业、医疗等领域的应用不断深化,对提高政府服务水平、促进产业转型升级和培育发展新兴产业等都起到了关键的作用。政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型。教育云可以有效整合幼儿教育、中小学教育、高等教育,以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标。中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。
5. 云计算产业
云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。
(二)物联网
1. 物联网的概念
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。
2. 物联网关键技术
物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。
3. 物联网应用
物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用。
4. 物联网产业
完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节。
(三)大数据与云计算、物联网的关系
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。
第一,大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现“物物相连”,应用创新是物联网发展的核心。
第二,大数据、云计算和物联网的联系。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自云计算,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架 MapReduce提供了海量数据分析能力。没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助云计算和大数据技术,实现物联网大数据的存储、分析和处理。
可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。
小结
- 本文介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临。
- 大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。
- 大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好地把握学习和应用大数据的方向。
- 大数据在制造、金融、汽车、互联网、餐饮、电信、能源、物流、城市管理、生物医学、体育和娱乐等在内的社会各个行业/领域都得到了广泛的应用,深刻地改变着我们的社会生产和日常生活。
- 大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
- 大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面都已经形成了一批引领市场的技术和企业。
- 本文最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系。
相关文章:
【大数据基础】大数据概述
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数…...
使用双向链表优化数组操作的性能
🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 背景 双向链表的优势 实现方案 性能优化 …...
Lua语言的语法
Lua语言的探索与应用 引言 Lua是一种轻量级、高性能的脚本语言,广泛应用于游戏开发、嵌入式系统和很多应用程序中。它的灵活性和高效性使得Lua成为软件开发中不可或缺的一部分。本文将从Lua的历史、语法、特色、使用案例及其在实际开发中的应用进行深入探讨。 Lu…...
Linux随记(十四)
一、处理vsftpd漏洞 【vsftpd安全漏洞(CVE-2021-30047)】 #操作系统1:bclinux euler 21.10#操作系统2:kylin v10二、处理ntp漏洞 【NTPMode6检测漏洞【原理扫描】】 #操作系统1:bclinux euler 21.10 cp /etc/ntp.conf /etc/ntp.conf.bak202…...
【Linux网络编程】第二十二弹---深入理解 I/O 多路转接之 epoll:系统调用、工作原理、代码演示及应用场景
✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【Linux网络编程】 目录 1、I/O 多路转接之 epoll 1.1、epoll 初识 1.2、epoll 的相关系统调用 1.2.1、epoll_create 1.2.2、epol…...
AI赋能服装零售:商品计划智能化,化危机为转机
在服装零售这片竞争激烈的战场上,每一个细微的决策都可能成为品牌兴衰的关键。当市场波动、消费者口味变化、供应链挑战接踵而至时,许多品牌往往将危机归咎于外部环境。然而,真相往往更为深刻——“危机不是外部的,而是你的商品计…...
课程预告|卓翼飞思多旋翼无人机集群实验课程即将上线,互动赢好礼
《多旋翼无人飞行器控制系统开发》实验课程自推出以来,吸引了众多高校的关注。目前,该课程已在多所学校成功实施,并广受好评。 点击链接查看飞控课程详情:课程上新| 卓翼飞思《多旋翼无人飞行器控制系统开发》实验课程正式发布 …...
AWS Glue从GCP的bigquery导入数据到AWS Redshift数据仓库
准备工作 创建账号与服务账号:拥有Google Cloud账号,创建有BigQuery权限的服务账号;拥有AWS账号,创建有相关权限的IAM用户。创建资源:创建Amazon Redshift集群或Redshift Serverless工作区,创建用于存储数…...
zookeeper shell操作和zookeeper 典型应用(配置中心、集群选举服务、分布式锁)
文章目录 引言I zookeeper客户端命令查看子节点 ls创建子节点 create获取节点信息 get更新节点数据 set删除节点 delete\ rmrII 监听机制node1:设置监听node3:修改监听节点node1:得到监听反馈III zookeeper 典型应用分布式锁集群选举服务数据发布/订阅(配置中心)引言 zk 的…...
如何解决HTML和CSS相关的问题,什么情况下会导致元素被遮挡?
在开发过程中,HTML 和 CSS 中的元素遮挡问题通常是由于布局、定位、层级等因素导致的。在使用 Vue.js 时,这些问题依然常见,尤其是涉及到动态渲染、条件渲染和组件嵌套的场景。以下是一些常见的导致元素被遮挡的原因,并通过 Vue.j…...
Java(3)封装、继承、多态
1.封装 封装可以被认为是一个保护屏障,防止该类的代码和数据被外部类定义的代码随机访问。 要访问该类的代码和数据,必须通过严格的接口控制。 封装最主要的功能在于我们能修改自己的实现代码,而不用修改那些调用我们代码的程序片段。 pu…...
【深度学习】多目标融合算法(二):底部共享多任务模型(Shared-Bottom Multi-task Model)
目录 一、引言 1.1 往期回顾 1.2 本期概要 二、Shared-Bottom Multi-task Model(SBMM) 2.1 技术原理 2.2 技术优缺点 2.3 业务代码实践 三、总结 一、引言 在朴素的深度学习ctr预估模型中(如DNN),通常以一个行…...
后端:Spring(IOC、AOP)
文章目录 1. Spring2. IOC 控制反转2-1. 通过配置文件定义Bean2-1-1. 通过set方法来注入Bean2-1-2. 通过构造方法来注入Bean2-1-3. 自动装配2-1-4. 集合注入2-1-5. 数据源对象管理(第三方Bean)2-1-6. 在xml配置文件中加载properties文件的数据(context命名空间)2-1-7. 加载容器…...
基于SpringBoot的诊所管理系统
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 (完整版代码包含详细中文注释和操作步骤视频)…...
【技术分享】如何利用rdesktop实现Linux远程Windows桌面高效办公
文章目录 前言1. Windows 开启远程桌面2. Linux安装rdesktop工具3. Win安装Cpolar工具4. 配置远程桌面地址5. 远程桌面连接测试6. 设置固定远程地址7. 固定地址连接测试 前言 随着技术的飞速发展,我们有了越来越多的方法来实现远程办公。今天我要给大家介绍一个特别…...
PDFelement 特别版
Wondershare PDFelement Pro 是一款非常强大的PDF编辑软件,它允许用户轻松地编辑、转换、创建和管理PDF文件。这个中文特别版的软件具有许多令人印象深刻的功能,PDFelement Pro 提供了丰富的编辑功能,可以帮助用户直接在PDF文件中添加、删除、…...
【江协STM32】10-2/3 MPU6050简介、软件I2C读写MPU6050
1. MPU6050简介 MPU6050是一个6轴姿态传感器,可以测量芯片自身X、Y、Z轴的加速度、角速度参数,通过数据融合,可进一步得到姿态角,常应用于平衡车、飞行器等需要检测自身姿态的场景3轴加速度计(Accelerometerÿ…...
【首发 1day】WordPress Crypto 插件存在前台任意用户登录漏洞(CVE-2024-9989)
漏洞描述 WordPress 的 Crypto 插件在 2.15 及以下版本(包括 2.15)中容易受到身份验证绕过攻击。这是由于对 ‘crypto_connect_ajax_process’ 函数中 ‘crypto_connect_ajax_process::log_in’ 函数的任意方法调用有限。这使得未经身份验证的攻击者可以以站点上的任何现有…...
c语言-----常识问题
1.VS的C4996错误 由于微软在VS2013中不建议再使用C的传统库函数scanf,strcpy,sprintf等,所以直接使用这些库函数会提示C4996错误: VS建议采用带_s的函数,如scanf_s、strcpy_s,但这些并不是标准C函数。 要想继续使用此函数&…...
MIUI显示/隐藏5G开关的方法,信号弱时开启手机Wifi通话方法
5G网速虽快,手机功耗也大。 1.取消MIUI强制的5G,手动设置4G的方法! 【小米澎湃OS, Xiaomi HyperOS显示/隐藏5G开关的方法】 1.1.小米MIUI系统升级后,被强制连5G,手动设置开关被隐藏,如下图: 1…...
超简单,使用Kube-Vip实现K8s高可用VIP详细教程
具体步骤如下: 以下步骤在其中一个 master 上操作即可, 1、参数配置 export VIP192.168.0.110 export INTERFACEens33 export KVVERSIONv0.8.7VIP 是虚拟IP地址,和主机同一个网段,且未被占用。INTERFACE 是你当前主机的网络接口…...
中国数字化发展的问题与机会
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案,帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。 橙蜂智农的智慧农业产品涵盖了多方面的功能,如智能化推荐、…...
为什么ip属地一会河南一会江苏
在使用互联网的过程中,许多用户可能会遇到这样一个问题:自己的IP属地一会儿显示为河南,一会儿又变成了江苏。这种现象可能会让人感到困惑,甚至产生疑虑,担心自己的网络活动是否受到了某种影响。为了解答这一疑问&#…...
【机器学习】神经网络(BP算法)含具体计算过程
目录 神经元的“激活函数” 多层前馈网络结构编辑 BP(BackPropagation:误差逆传播算法) BP算法推导 手动计算BP神经网络的权值来实现学习 前向传播(正向运算)的过程 隐藏层输入: 隐藏层输出: 输出层输入: 输出层输出: …...
【HarmonyOS NEXT】鸿蒙应用点9图的处理(draw9patch)
【HarmonyOS NEXT】鸿蒙应用点9图的处理(draw9patch) 一、前言: 首先在鸿蒙中是不支持安卓 .9图的图片直接使用。只有类似拉伸的处理方案,鸿蒙提供的Image组件有与点九图相同功能的API设置。 可以通过设置resizable属性来设置R…...
Swift语言的网络编程
Swift语言的网络编程探秘 随着移动互联网的迅猛发展,网络编程已经成为开发者必备的核心技能之一。尤其在iOS开发领域,Swift语言作为Apple官方推荐的编程语言,以其简洁的语法和强大的功能受到了广泛的关注。本文将深入探讨Swift语言的网络编程…...
江科大STM32入门——UART通信笔记总结
wx:嵌入式工程师成长日记 1、简介 简单双向串口通信有两根通信线(发送端TX和接收端RX)TX与RX要交叉连接当只需单向的数据传输时,可以只接一根通信线当电平标准不一致时,需要加电平转换芯片 传输模式:全双工;时钟&…...
2. 使用springboot做一个音乐播放器软件项目【框架搭建与配置文件】
上一章文章 我们做了 音乐播放器这个项目的 前期规划 项目需求, 环境安装 和 springboot框架的 搭建与配置。如果有小伙伴没看过 第一章文章 可以去看一下 https://blog.csdn.net/Drug_/article/details/144994317 今天这篇文章 我们来 主要分享一些 我们在开发中…...
历代iPhone运行内存大小和电池容量信息
系列设备名称充电端口标配充电线PD快充无线充电 (W)标配充电器电池容量 (mAh)发布时间RAM运存iPhone 16iPhone 16 Pro MaxUSB Type-CUSB-C to USB-C支持25无47472024/9/108GB LPDDR5XiPhone 16 ProUSB Type-CUSB-C to USB-C支持25无35772024/9/108GB LPDDR5XiPhone 16 PlusUSB …...
(STM32笔记)十二、DMA的基础知识与用法 第三部分
我用的是正点的STM32F103来进行学习,板子和教程是野火的指南者。 之后的这个系列笔记开头未标明的话,用的也是这个板子和教程。 DMA的基础知识与用法 三、DMA程序验证1、DMA 存储器到存储器模式实验(1)DMA结构体解释(2…...
ThinkPHP 8高效构建Web应用-获取请求对象
【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《2025新书 ThinkPHP 8高效构建Web应用 编程与应用开发丛书 夏磊 清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要 书评 试读】- 京东图书 使用VS Code开发ThinkPHP项目-CSDN博客 编程与应用开…...
深入解析 Python 2 与 Python 3 的差异与演进
Python 2 和 Python 3 是 Python 编程语言的两个主要版本。Python 3 于 2008 年发布,旨在解决 Python 2 中的一些设计缺陷,并引入了许多新特性。虽然 Python 2 在很长一段时间内仍然被广泛使用,但自 2020 年 1 月 1 日起,Python 2…...
57. Three.js案例-创建一个带有聚光灯和旋转立方体的3D场景
57. Three.js案例-创建一个带有聚光灯和旋转立方体的3D场景 实现效果 该案例实现了使用Three.js创建一个带有聚光灯和旋转立方体的3D场景。 知识点 WebGLRenderer(WebGL渲染器) THREE.WebGLRenderer 是 Three.js 中用于将场景渲染为 WebGL 内容的核…...
移动端可互动轮播图
首先通过事件监听获得到初始滑动位置,并关闭掉轮播图的自动轮播定时器 //设置事件代理 $(".slider").on("touchstart", function (e) {// 当滑动触发的时候关闭定时器clearInterval(time);// 开始时的pxstartX e.touches[0].clientX; }); 然…...
深入讲解 Docker 及实践
Docker 是现代化应用开发、测试和生产环境部署中不可或缺的工具。它能够为开发人员提供与生产环境一致的开发环境,同时支持高效的容器化部署、资源隔离、容器编排等高级功能。尤其在微服务架构和云原生应用中,Docker 更是提供了简化的流程和高效的可扩展…...
科大讯飞前端面试题及参考答案( 上)
前端有用到哪些数据结构? 在前端开发中,会运用到多种数据结构,以下是一些常见的类型及其应用场景。 数组(Array) 数组是一种有序的元素集合,可以存放不同类型的数据(在 JavaScript 等前端常用语言中)。比如在构建一个网页的列表展示时,像新闻列表、商品列表等,我们可…...
本地导入封装的模块 在docker内报错ImportError
本地封装了一个login方法 在写testcase的时候去复用这个方法 但是进入docker运行的时候一直报上面的错误 目录 出现的原因: 解决方法: 1. 根据docker的路径写绝对路径 2. 用sys 加入path到code 作用: 好处: 出现的原因…...
Java-日志技术大全
一:目录 1.jul的使用 2.log4j的使用 3.logback的使用 4.log4j2的使用 二:jul使用 jul是JDK自带的日志技术,不需要导入其他依赖,默认的级别为info 1.关键组件: (1).Logger:记录器 (2).Handler&…...
ARP-Batch-Retargeting 部署实战
git 地址: https://github.com/Shimingyi/ARP-Batch-Retargeting bpy安装: pypi上搜索 bpy bpy 4.3.0,4.2.0版本报错: Traceback (most recent call last):File "E:\project\jijia_4d\retarget\ARP-Batch-Retargeting-…...
二分查找题目:寻找峰值 II
文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法证明代码复杂度分析 题目 标题和出处 标题:寻找峰值 II 出处:1901. 寻找峰值 II 难度 7 级 题目描述 要求 一个二维网格中的峰值元素是指其值严格大于相邻值(左、…...
调和级数不为整数的证明
文章目录 1. 问题引入2. 证明2.1 引理12.2 引理22.3 引理3:2.4 核心证明: 3. 参考 1. 问题引入 s ( n ) 1 1 2 1 3 ⋯ 1 n , n ∈ N ∗ , n ≥ 2 s(n) 1\frac{1}{2}\frac{1}{3}\cdots\frac{1}{n}, \quad \\n \in N^*, n \ge2 s(n)12131⋯n1,…...
Redis 源码分析-内部数据结构 dict
Redis 源码分析-内部数据结构 dict 在上一篇 Redis 数据库源码分析 提到了 Redis 其实用了全局的 hash 表来存储所有的键值对,即下方图示的 dict,dict 中有两个数组,其中 ht[1] 只在 rehash 时候才真正用到,平时都是指向 null&am…...
git相关操作笔记
git相关操作笔记 1. git init git init 是一个 Git 命令,用于初始化一个新的 Git 仓库。执行该命令后,Git 会在当前目录创建一个 .git 子目录,这是 Git 用来存储所有版本控制信息的地方。 使用方法如下: (1ÿ…...
STM32小实验2
定时器实验 TIM介绍 TIM(Timer)定时器 定时器可以对输入的时钟进行计数,并在计数值达到设定值时触发中断 16位计数器、预分频器、自动重装寄存器的时基单元,在72MHz计数时钟下可以实现最大59.65s的定时 不仅具备基本的定时中断…...
Oracle Dataguard(主库为双节点集群)配置详解(2):备库安装 Oracle 软件
Oracle Dataguard(主库为双节点集群)配置详解(2):备库安装 Oracle 软件 目录 Oracle Dataguard(主库为双节点集群)配置详解(2):备库安装 Oracle 软件一、Orac…...
基于 Pod 和 Service 注解的服务发现
基于 Pod 和 Service 注解的服务发现 背景 很多应用会为 Pod 或 Service 打上一些注解用于 Prometheus 的服务发现,如 prometheus.io/scrape: "true",这种注解并不是 Prometheus 官方支持的,而是社区的习惯性用法,要使…...
操作系统之文件的逻辑结构
目录 无结构文件(流式文件) 有结构文件(记录式文件) 分类: 顺序文件 特点: 存储方式: 逻辑结构: 优缺点: 索引文件 目的: 结构: 特点…...
网络分析与监控:阿里云拨测方案解密
作者:俞嵩(榆松) 随着互联网的蓬勃发展,网络和服务的稳定性已成为社会秩序中不可或缺的一部分。一旦网络和服务发生故障,其带来的后果将波及整个社会、企业和民众的生活质量,造成难以估量的损失。 2020 年 12 月: Ak…...
vue实现虚拟列表滚动
<template> <div class"cont"> //box 视图区域Y轴滚动 滚动的是box盒子 滚动条显示的也是因为box<div class"box">//itemBox。 一个空白的盒子 计算高度为所有数据的高度 固定每一条数据高度为50px<div class"itemBox" :st…...