00:00
的时间是晚上的10点钟,那么咱们就开始今天晚上的学习哈,嗯,今天晚上呢,咱们来给大家介绍一下大数据的一些相关的知识,比如说我们如何使用大数据呢,构建我们的数据仓库,因为呢,在大数据的体系当中,它包含很多的组件,如果说大家对这些组件没有一个基本了解的话,那么是不利于咱们后面的进一步学习,因此呢,咱们希望通过今天晚上的学习,能够让大家对我们的大数据体习能够有一个进一步了解,为大家后续的深入学习哈奠定一个基础。那大家之前如果听过赵老师的课程,那么应该都知道,赵老师呢,在上课的这个过程当中,会给大家记录一个课堂笔记,通过记录课堂笔记的这种方式,我们会把今天晚上比较重要的。
01:00
知识给大家记录下来,让大家在学习的过程当中能够把握住课程重点,因此呢,今天晚上咱们也会给大家记录一个课堂的笔记,重点给大家介绍一下三个方面的知识,首先咱们需要对大数据的一些基本知识要有一个基本的了解,那么刚刚提到大数据体系当中它包含很多的组件,那么这些组件的功能和作用分别是什么呢?咱们将会在第一小节里面来给大家进行相关的介绍,那么重点讨论一下我们的第二个小节,如何基于我们的大数据的技术构建我们的数据仓库。当然构建数据仓库你也能够使用传统的关系型数据库,比如说你能够使用orac mysql PG也都能够去构建我们的数据仓库,但是呢,目前构建数据仓库的。
02:00
主要方式都是使用咱们的大数据的技术,比如说你能够使用你的哈杜培啊10SPA克或者是弗link呢,去部署你的这个,构建你的这个离线数仓,包括构建实时数仓,而我们在使用大数据构建数据仓库的时候呢,它的体系加构主要主要有两种体系架构,一种呢是我们的什么这个拉蒙达架构,一种呢是我们的什么卡A架构,好,这句话呢,重复一下,当我们使用大数据的技术构建数据仓库的时候,那么从体系架构上去说,它有两种体系架构,一种是我们的拉姆达架构,一种是我们的kaa架构,既然这个地方它存在两种架构,赵老师呢,就需要问大家一个问题,那么大家能不能够先告诉一下赵老师目前哪种架构?
03:00
是主流架构呢?是我们的LADA架构还是我们的卡A架构?那么如果大家知道呢,就请把答案呢发送到咱们的公屏之上,如果说大家不了解呢,就请在咱们的公屏之上回复一个0,或者给赵老师呢点个赞。当然这些知识稍后呢咱们都会给大家进行详细的介绍,那么有了前面的学习的基础以后,我们将会在第三个小节里面。通过DEMO演示,让大家能够对我们的整个的大数据的生态圈的体现能够有一个感性的认识,因此呢,赵老师呢,带着大家去梳理一下我们在今天晚上将会学习的哪些知识好,咱们现在呢,咱们就按照这样的一个顺序来给大家进行相关的介绍。首先咱们介绍一下第一个部分,大数据的一些基础知识,刚刚提到我们在大数据的体系当中,它包含很多的组件,那么这些组件他们主要是为了去解决两方面的问题,那么哪两方面呢?一方面是我们的什么数据存储,一方面呢是我们的数据的计算,那如果说你把握住了数据存储,把握住了数据的计算,那么咱们就把握住了大数据的体系当中,那么最核心的一个。
04:29
的部分,那不管是你的哈杜op也好,Spark也好,或者说是flick也好,那么它们都是围绕数据存储和数据计算所提出来的解决的方案,或者说解决的组件,那么咱们分别来看一下,首先看一下数据的存储,那么你的传统的方式下,你可能会把你的数据呢,存储在比如说你的oraclel里面,或者是你的MYSQL里面,但是呢,我们在大数据的体系当中,由于要存储海量的大数据,那么咱们就需要有一种新的方式来去解决海量数据的存储问题,而这种性的方式就是我们的什么分布式存储,那如何去理解什么叫分布式存储呢?分布式存储简单来说的话就是当一台服务器解决不了存储的问题,那么咱们就多个。
05:29
包几台服务器,他们共同搭建起一个集群,共同来解决海量数据的存储问题,因此呢,我们在大数据的体系当中采用的都是分布式的集群,那么具体呢?数据存储它具体又分为两种不同的形式,一种是我们的离线数据存储,通过存储离线数据。我们去构建离线数仓,而我们在大数据体系当中数据存储的第二种形式,那么就是我们的什么实时数据存储,通过存储实时数据来去构建我们的实时数仓,这个地方呢,我们就需要去解释一下,什么叫做离线数据,什么叫做实时数据?那么离线数据它表示已经存在的历史数据,比如说你的交易数据,你的订单数据,我们把这种已经存在的历史数据都叫做离线数据,那么什么又叫做实时数据呢?实时数据它是一个相对的概念,那么它相对我们的计算任务而言,目前还不存在,未来有可能会产生数据,那么这个呢,就叫做实时数据,既然有这两种类型的数据,那我们在整个的大数据的。
06:54
体系当中提供了哪些方式能够去解决这些数据的存储问题呢?首先赵老师呢,问一下各位直播间同学,能不能够告诉一下赵老师,我们在大数据体系当中可以使用哪些组件来存储离线数据,你能够把这些组件的名字都发送到咱们的这个公屏之上吗?那么如果说大家都了解呢,就请积极回答一下赵老师的问题,如果说大家不是很了解,就请在咱们的公屏之上回复一个0,或者呢给赵老师呢点一个赞啊,咱们接着往下来给大家进行相关的这个介绍啊。再好,我们讲这个什么你去存储离线数据,包括你去构建使离线数仓主要使用咱们的哈多普生态圈体系,比如说我们可以使用多普当中的什么H。
07:54
DFSM, 或者是h base, 或者是我们的hive来存储我们的离线数据。首先大家需要知道。
08:04
这三个组件都是属于我们的哈杜op生态圈体系,因此呢,大家后续你要如果系统的学习有关哈多的知识,需要学习这些相关的内容,好我们解释一下每个组件的功能和作用分别是什么?首先咱们看一下第一个我们的HDFS啊,那么这个HDFS呢,它是属于这个哈都普当中的分布式文件系统,你把这个分布式文件系统呢,看成是一个网盘就可以,它能够以目录和文件的形式解决海量离线数据的存储问题,对,那么它是哈杜op当中非常重要的一个组件,对大家学习哈杜普的第一步就需要学习到底什么是我们的HDFS,好,介绍完了咱们的HDFS以后呢,那么再来看一下什么是我们的这个h base.
09:04
啊,首先大家需要知道这个HP是。它是一个什么呢?它是一个我们的low cql数据库,那么我们可以把low cql数据库呢,划归到我们的大数据的体系当中,因此呢,从给他讲一下,如果说大家后续你要去系统的去学习有关大数据的知识,除了需要掌握大数据本身以外,还需要掌握咱们的low c扣数据库,那么关于low c code的更加系统的知识,赵老师呢,也会在这个后续的课程里面来给大家进行相关的介绍啊,那么简单介绍一下什么是h base啊h base呢,它是基于HDFS之上的一个什么呢?列是存储的NOC口数据库,那么这个里面呢,它就有两层含义,首先第一层含义。
10:02
它基于HDS之上,既然你的h base基于HDFS之上,那么你在h base里面你去创建一张表,表中的数据最终都将以目录和文件形式存储在HDFS当中,那么有了这个关系以后,大家后续你在部署环境的时候,先要部署好HDFS,然后呢在部署好我们的h base, 因为h base呢,本身就是基于HDFS之上,那么h base它的第二个含义呢?第二层含义呢,它是一个什么呢?列势存储的数据库,那么你的Oracle也好,MYCQ也好,传统的这种关系型的数据库呢,基本上都是行式存储的,行式存储的这个关系型数据库呢,适合去执行我们的插入、更新和删除,那么它并不适合执行查询语句,比如说。
11:02
呃,在我们的数据仓库当中,你就需要执行大量的查询语句,如果是这种应用场景呢,推荐使用咱们的列式存储数据库,这句话呢,我再重复一遍,列式存储数据库有很多,它非常适合执行我们的查询一句,因此呢,我们在构建数据仓库的时候,都是使用咱们的历史存储数据库。好,介绍完了咱们的HP以后,再来介绍一下我们的hive啊,但hive呢,大家需要知道它也是属于咱们的哈杜普的生态圈的体系,它是什么呢?基于HDFS之上这一个什么呢?离线数据仓库,它支持使用标准的SQL与dream来去处理我们的大数据。那么既然haveve呢,基于HDFS之上,它有支持我们的C口L语dream,因此呢,你在haveve里面通过CQL语你去创。
12:02
进一张表,往表里面呢插入数据,它跟HPS也一样,最终表和数据都将会以目录和文件形式存储在HDFS当中。那么Have呢,它要支持我们的CQL与dream,但是呢,请大家注意一下,从严格意义上去说,Haveve呢,它所支持的还不是CQ语句,它支持的是我们的HQL语句,那么简单解释一下。什么叫HQLHQL的全称是VE的query language, 它是C口的一个子集,既然HQL它是CQ的一个子集,也就意味着呢,我们在HQL当中并不百分之百的支持CQ的标准,比如说在have的早期版本里面,它就不支持我们的插入语句,但是呢,随着haveve版本的不断的提纲,我们在HQL当中它所支持的SQL语法也就会越来越多。那么还一点大家需要注意下,那么我们在默认的情况之下,Hive的底层执行引擎是我们的map producedu是,也就是说你在haveve里面执行跳语句,它默认呢将会被转换成是一个map produce程序,运行在哈德普集群之上,但是呢?
13:29
由于这个market productiondu它执行效率比较的低,因此呢,我们在实际使用have的时候,更多的一种形式是什么呢?使用我们的什么have on, 我们的10SPA克,也就是呢,把have的底层执行引擎由我们的map producedu呢改成我们的Spark克,那改成Spark以后,你再在have里面执行一条c regime dream, 这条c dream它就会被转换成是一个10SPA克任务,运行在我们的10SPA克集训之上,那那关于10SPA课的详细的知识,赵老师呢,也会在后续的课程里面单独的来给大家进行相关的介绍,好因此赵老师呢,介绍到这个地方的时候呢,问一下各位直播间同学,关于这三个组件他们的功能和作用,大家是不是都听明白了。
14:29
啊,如果说大家都听明白了呢,就请在咱们的公屏之上。请给赵老师呢回复一个1,或者给赵老师呢点个赞,好,咱们接着往下来给大家进行相关的介绍,那么讨论完的离线数据存储以后,好回答一下这个同学的问题哈,Have on sparkcum和have on my producedu有什么区别?对于Have来说呢,是没有区别的,Have呢,它就就是支持我们的CQL与Jim,只不过呢,你ON10SPA或者说是on mydu呢,是把have底层执行引擎到底换成是我们的map producedu还是换成我们的18课,那么have默认的执行引擎是have on map produceduce, 这个时候呢,你所执行的SQL regime将会被转换成map produceduce, 但是呢,刚刚说过在实际使用当中更多的是使用have on10spark,那么这个时候呢,你在have里面,你所执行的语句将会被转换成10SPARK任务,不管是哪种执行引擎。
15:36
Have, 本身的使用方式没有任何的啊,没有任VE本身的使用方式没有任何的区别啊好,咱们接着呢,往下来给大家进行相关的介绍,我不是张一根,赵老师刚刚讲的是不是都听明白了,如果听明白以后呢,请给赵老师呢回复个一,好,讨论完了离线数据以后,那么再谈一下我们的实时数据,那么问一下各位直播间同学,我们在大数据的体系当中。
16:06
可以使用哪个组件来存储实时数据,来去构建我们的实时数仓,那么你能够把这个组件的名字也发送到咱们的公屏之上吗?那么跟刚刚一样,如果说大家都知道呢,就请告诉一下赵老师哈,如果说大家不了解,就请在公屏之上回复一个0,或者给赵老师呢点个赞。好,咱们接着往下来给大家进行相关的介绍,那么我们在这个大数据体系当中,你要去存储实时数据呢,主要使用的是我们的卡夫卡,那卡夫卡呢,它是大数据的一个分布式的消息系统,并且呢,我们在卡夫卡里面只支持topic类型的广播的消息,它不支持点对,点对通过使用这种方式呢,你能够去构建我们的实时输仓,因此介绍到这个地方的时。
17:06
然后我们就把大数据体系当中用于数据存储的组件都给大家做了一个非常详细的介绍,那数据存储下来以后。我们在大数据体系当中还需要解决另外的一个问题,那么就是我们的什么数据计算,由于数据量非常的庞大啊,咱们不能够使用传统方式,不能够使用一台服务器解决大数据的计算问题,因此呢,我们在大数据体系当中就需要使用我们的什么分布式计算的方式,通过使用分布式计算就能够解决大数据的计算问题,那么解释一下什么叫分布式计算呢?分布式计算简单来说的话就是当一台服务器解决不了计算的问题,那么咱们就多搞几台服务器,共同搭建起一个集群,共同来完成咱们的这个计算,因此呢,我们在大数据体系当中采用的都是分布式计算模型来去解决计算的问题,那么。
18:19
由于你的数据存储分为离线数据,分为实时数据,那么我们在计算的这个地方也要分开来进行讨论。首先计算的第一个方向。是我们的什么呢?离线计算,那么离线计算也可以叫做批处理计算,那么这个呢,是整个大数据计算的第一个方向,那我们在大数据计算里面的第二个方向呢,是我们的实时计算,实时计算也可以叫做流处理计算,好的地方呢,赵老师呢,就问大家一个问题,各位直播间同学,你能不能够把大数据体系当中哪些计算引擎,它是离线计算引擎,你能够把这些比较常用的离线计算引擎的名字,那么都发送到咱们的公屏之上吗?那如果说大家都知道呢,就请积极回答一下赵老师的问题,如果说大家不了解的话。
19:22
就请在咱们的公屏之上,请给赵老师呢回复一个零案,或者给赵老师呢点个赞,好,咱们接着往下来给大家进行相关的介绍,哪些计算引擎是我们的离线计算引擎呢?我先把它们的名字写在这个地方,稍后呢一个一个来给大家进行相关的介绍,比如说由我们的什么map produ, 还有我们的map produ, 还有我们Spark当中的Spark com, 还有在弗Li克当中的么data set, 这三个呢,是我们在大数据体系当中用于处理离线数据的离线计算引擎,那简单介绍一下每个计算引擎的功能和作用分别是什么?首先第一个是我们的什么这个map produ, 那先说一下,尽管在目前的这个大数据。
20:22
体系当中很少会在直接使用myreducing开发程序,但是呢,Myreduce的思想和原因非常的重要,那么它采用这种先拆分。在合并的方式,先拆分再合并能够解决大数据的计算问题,那么咱们把这拆分的过程叫做map碰合并过程叫做,也就是,而这种先拆分在合并的思想呢,也被借鉴到了18课还有这个弗link当中,因此呢,大家后续如果你想系统的去学习大数据的话,那么第一步呢,还是需要好好的去学习一下,到底什么是我们的map producece, 好,简单介绍一下,到底什么是map producece啊map produce呢,它最早呢?它是什么呢?它是这个谷歌最早呢,它谷歌提出的一个什么?提出的一个计算模型,用于解决配机rank的网页排名,既然map produceduce本身它只是一个计算模型,那它跟这个编程语言就。
21:37
都没有关系,只不过呢,我们在哈杜普当中使用了Java语言实现了这个map produceduce, 因此呢,你这个时候你所开发出来的map producedu将会是一个Java程序,但是呢,在你的manggo dbam这个lowcy里面呢,它也支持我们的mapdu是,但是呢,Mango DB它所使用的编程语言是我们的Java斯script贝特啊,因此它重复一遍mapdu本身它只是一个计算模型,它与编程语言无关。好,介绍完了MAPDU10以后,再来介绍一下我们18课当中的什么这个18RK com, 那么这个S8COM呢?
22:20
它是整个10SPARK里面最核心也是最重要的一个部分,它是10SPARK的什么呢?离线计算引擎,那么我们在10SPARK里面的所有的计算都是10SPARK code的离线计算,因此呢,10SPARK里面并不存并不存在真正的实时计算,所有的18RK计算都是离线计算,那么这句话呢,我再重复一遍,那么这个18RK com它是8g的什么呢?离线计算引擎,那么我们在18g里面的所有计算,从本质上去说都是18RK克的离线计算,因此呢,18g里面不存在真正的实时计算,所有18g计算都是离线计算。好我们在这个flink里面呢,它提供了一个模块,或者说它提供了一套API,叫做我们的data set啊,那么你去开发你的Java程序,或者开发你的这个SC拉程序,利用这套API当中的算值,我们就能够处理离线数据。那么目前我们在大数据体系当中主要的两个计算引擎,一个是我们的18gm,一个呢是我们的弗林克,那这两个计算引擎本质上有什么区别呢?本质上在于18g偏向。
23:55
离线计算,你在18g里面的所有计算都是离线计算,而我们的flink呢,偏向实时计算,你在flink里面的所有计算都是实时计算,那么换个说法就是计算,那么换个说法就是说fli里面呢,并不存在真正的离线计算,因此呢,斯SPA克偏向离线,弗Li的偏向实时,了解到了这两种计算引擎的特点以后,那么就可以为我们以后的技术选型做一个参考,比如说在你以后的应用场景当中,你要执行大量的离线操作,推荐使用18g,反之推荐使用我们的弗Li克。好,介绍完了咱们的离线计算以后,再来介绍一下我们的实时的理由计算,那问一下各位直播间同学,你能够能不能够。
24:50
把我们在大数据体系当中主要的一些流处理引擎,你能够把这些计算引擎的名字发送到咱们的公屏之上吗?那么如果说大家都知道呢,就请积极回答一下赵老师的问题啊,如果不知道呢,就请给赵老师回复个零,或者给赵老师呢点个赞,让赵老师呢能够知道,大家都还能够跟得上啊,跟个赞。那么哪些计算引擎它是流计算引擎,能够处理实时的流速数据呢?比如说有你的什么这个10STORM,或者说有你的斯巴克当中的斯巴克的什么streaming,或者说有弗林克当中的么?对塔streaming,好,这三个是我们在10巴克体系当中,那是我们在大数据体系当中主要的流计算引擎,他们能够处理实时的流失数据。
25:50
那注意一下这个什么storm跟我们的什么这个flink的什么这个data stream注这两个呢,他们是属于真正的实时计算引擎,这句话呢,我再重复一遍啊,那么这个斯多跟我们的弗林克当中的这个。
26:08
对,它说明了这两个他们是属于这个真正的实时计算引擎们以用于什么,可以用于实时场景非常高的情况,那好这个地方呢,我们单独讨论一下,我们中间的什么这个18坑stream,那通过刚刚的这个计算,那么介绍到了你在这个10SPAN里面,那么你的所有的计算不都是底层的18RK扣的一个离线计算吗?因此呢,从本质上去说,你的这个是8DREAM,依然是底层是8扣的一个离线计算,它不是一个真正的一个实时的一个计算,因因此呢,你就不能够把这个时back dreaming呢,用于实时场景非常高的情况之下,比如说如果我想三秒钟,如果我想五秒钟,如果是秒级的这种。
27:08
单位,那么你能够使用我们的这个18个dream去实现,但是呢,如果是秒级以下呢,比如说我们希望300ms或者说400ms,那么在实时场景非常高的情况之下,不能够使用我们的18GG,因为它本质是一个离线计算,它不是一正真正的一个实时的计算。好回答一下这位同学的问题啊老师,大数据还有前景吗?现在AI都这么强了,现在AI是取代不了大数据的啊,AI现在尽管非常强,但是呢,AI真正用于生产的环境当中,用的很少,用的很少,但他还不能够用于实际的什么生产环境,那目前呢,还根本取代不了大数据。好,这个同学呢,如果听到了赵老师回复呢,请给赵老师呢回复个音,好,因此咱们介绍到这个地方的时候呢,赵老师呢,就把整个大数据体系当中。
28:07
涉及到的一些核心的组件,包括他们的功能都给大家做了一个非常详细的介绍,那么大家后续如果说你想系统的去学习大数据知识,那需要去学习哪些内容呢?就是把赵老师在这里一个地方列举出来的这些内容,那么这些组件呢,一个一个掌握,一个一个学习,那么你就能够掌握整个大数据体系当中那么最核心的一个部分,那么因此介绍到这个地方的时候呢,整个今天晚上的第一个小节,有关大数据的一些基本知识就给大家介绍到这地方,好问一下各位直播间同学,关于第一个小节的部分大家是不是都听明白了,如果说这个部分大家都听明白了呢,就请在咱们的公屏之上,请给赵老师呢回复一个1。
29:07
来给大家介绍一下第二个部分,如何基于我们的大数据体系当中,他所提供的各个组件构建我们的数据仓库呢?数据仓库它又是种什么呢?是一种OLAAP的应用场景,那什么叫op呢?把它全称写在咱们的课堂笔记上面,全称是我们的什么on am, 核心单词是中间的那个A,它叫什么Anna itic课P呢,是我们的processing,如果翻译成是中文的话,它就叫做连接分析处理,既然是分析处理的话,我们在OLAAP当中,或者说我们在数据仓库里面,一般的情况下只会执行查询语句,那这个呢,不绝对啊,不绝对,那么当你使用大数据的组件构建数据仓库实现OLAAP的时候,那么它有两种。
30:07
体系架构。那么一种是我们的LA姆达架构,一种是我们的卡A架构,好这个地方呢,问一下各位直播间同学,既然它有两种架构,那么目前哪种架构是主流架构呢?是我们的LA姆达架构还是我们的kaa架构?如果说大家了解知道呢,就请告诉小赵老师啊,如果说大家觉得是,那么大家高,我们就请在咱们的公屏之上回复一个L,如果说大家觉得是卡啪加高,那么就请在我们的公屏之上呢,回复一个K啊,咱们接着往下。来给大家进行相关的介绍,好,我们讲一下,嗯。目前在大数据体系当中,我们基于什么呢?基于我们的拉蒙达架构构建我们的数据仓库,这种架构它是主流架构,而我们在拉姆达架构当中,它的主要特点是什么?它有两套系统啊,它有两套什么系统的?那哪两套呢?一套是我们的离线数仓,另外一套呢是我们的实时数仓,这个是怎么个拉大架,跟我它最主要的特点重复下,目前我们的拉蒙达架构它是主流架构,而拉蒙达架构主要特点是它有两套系统,一套系统实现我们的离线数仓的部分,另外的一套系统实现我们的实时输畅,那整个LADA架构,那它长什么样子呢?咱们看一张图片,那大家目前看到的什么?这一张图片就是基于我们。
31:54
我们的大数据的技术基于我们的拉姆DA架构,实现我们的数据仓库,那么大家呢,可以截个屏下来,方便咱们课后的什么复习,好咱们简单解释一下,整个我们在拉姆达架构里面,它包含了些组成的部分,好咱们在拉姆达架构里面呢,从下往上能够把整个的体型划分成15层,那么一共分成哪5层呢?分别从我们的什么,分别从就下面的什么数据源层,数据源层之上。
32:32
是我们的什么数据采集层,数据采集层之上是我们的大数据平台层,而这一层就整个数据仓库体系当中最核心也是最重要的一个部分,那么在大数据平台层次上就是我们的数据仓库层,而这上面呢,就是我们的应用层,因此整个拉姆达体系当当中,一共从下往上呢分为这5层,那么接下来呢,咱们详细看一下在这5层当中,它都包含哪些组成部分,那么首先看一下最底层的数据源层,数据源有各种类型的数据源,比如说有你的文本数据,有你的把这个二进制的文本数据,嗯,包括你的网络数据,各种数据都会有,但是呢,不管是哪种数据的数据,哪种数据的数据,我们都可以把它划分成成两种不同类型,一种呢是我们的。
33:32
离线数据源,一种是我们的实时数据源,这两种数据刚刚都解释过,他们提供这种最原始的数据,最原始数据提供出来以后呢,就需要通过数据采集成。来完成我们的ETL的工作。好问一下各位直播间同学们,知不知道什么是ETL,你能不能够把这个ETL的它的中文名字发送到我们的公屏之上,数据采集成它所要完成的最主要功能就是需要执行我们的ETL。那么到底什么叫ETL呢?它实际上是三个单词的缩写,分别代表抽取、转换和加载对通过这种方式来去读取底层数据的数据,比如说你能够通过使用我们的什么各种ETL工具,比如说你能够通过使用我们的SCO呀呀爬虫或者开头,当然这样的ETL工具还有很多种的,通过它来去采集底层数据源的数据,但是呢,需要注意一下,一般来讲,我们在数据采集层和数据源这两层之间。
34:50
嗯,会加一层,加一层什么呢?加一层我们的这个数据总线,注意数据总线它不是必须的,不是必须的,但是呢,一般情况下都会有咱们的数据总线,数据总线引入以后,它能够去解决数据采集层与数据源这两层之间的耦合关系,这样子呢,一层的变动对另外一层的影响就会比较的小,那么我们要进行架构设计的时候。
35:23
需要考虑什么呢?层与层之间的耦合,好再重复一遍,那么我们在一般的情况之下,我们在数据采集层和数据源这这两层之间会加上一个什么呢?数据总线,数据总线它不是必须的,但一般都会有它,那有了数据总监以后,它能够去解决数据采集层和数据源层这两层之间的一个耦合,它不管你使用哪种一题要工具,你把底层数据的数据采集过来以后呢,就需要把数据存储在我们离线数仓当中,或者存储在实时数仓当中,这个呢就整个大数据平台体系当中,那么最核心的一个部分,那么不管是离线数唱这这边,还是实时舒畅这边,基本上是类似的,比如说你在构建离线数唱的时候。
36:23
能够去使用我们的什么呢?HMDFS或者是h base呢,存储离线数据,而你的离线计算引擎可以使用我们的mapdu使用我们的是啊,我把它图呢,稍微放大一点点啊,大家能看的更更更清楚一些的,好先看一下我们离线的这一边,离线这一边呢,好,离线这边它是这样的。离线这边是这样子的,对,你能够把数据呢,存储在我们的什么HDFS里面,或者呢,存储在h base当中,而你的计算引擎可以是我们的什么my produce s backrk Co, 或者是flink当中的什么data set, 那么你会有各种各种什么计算引擎来去处理离线数据,那么我们为了在一个平台之上对各种计算引擎那么进行统一的管理和调度呢?一般来讲我们都会把各种计算任务呢,统一运行在我们的什么yam之上,那什么叫ya门呢?Ya门它是属于哈杜普的2.0版本以后呢,它提供的一个资源和任务调度平台,它已经被集成在了我们的哈杜普的安装包里面,那也就是说你的ma producedu on ya, 你的Spark on ya, 你的flink on ya这种。
37:45
当压的方式是目前我们在大数据体系当中主流的调度方式,那么这些计算引擎大需要注意一下,需要咱们去开发程序,既然需要开发程序啊,咱们就需要使用到咱们的编程语言,那问一下各位同学,能不能够告诉一下赵老师,我们在大数据体系当中最主要使用的编程语言是哪一种编程语言?你能够把这个编程语言的名字也发送到咱们的公屏之上吗?那如果说大家知道呢,就请积极回答小赵老师的问题啊,如果不知道呢,就请在公屏之上回复一个0,或者给赵老师呢点个赞。那既然你需要使用编程语言,那就无形当中提高了大数据的门槛,因为呢,对于很多做数据分析的人员来说,他不懂什么编程语言,因此呢,我们在大。
38:45
诸进体系里面呢,就需要提供一种非常友好的方式,让这些不懂编程语言的人能够去使用他们熟悉的语句来去分析我们的大数据,因此呢,他们一般来说呢,都懂我们的CQL语句,既然一般做数据分析的人员都懂CQ与经,那么我们在大数据体系里面就提供了各种各样的什么数据分析引擎,因为支持我们的CQ,比如说我们刚刚讲过的么,Have, 包括18g当中的什么18个c com, 或者是fli c com, 用了这些数据分析引擎以后呢,你就能够通过使用标准的CQL语句来去分析我们的离线数据,那离线数仓这边搭建起来以后呢,整个拉姆达架构里面呢,它还有另外的一套系统,那就是我们了嘛,实时数仓,那实时数仓这个部分呢,基本上。
39:45
啊,跟离线这边呢,基本上是完全一样的,你通过底层的ETM,你所采集过的数据首先存储在我们的这么卡夫卡的消息系统当中,计算引擎有我们的什么storm,或者是10SPARK当中的18GDREAMING,或者是弗林克当中的么data塔swimminging,那么跟离线这边一样,为了统一管理调度各个计算任务呢,也都统一把它运行在我们的yam之上,对,并且呢,我们在实时数仓这边呢,也能够通过使用标准的C口L语据来去处理实时流失数据,比如说你在10SPARK里面,你能够集成18RK cle和我们的什么18RK dream, 通过集成这两种呢,你在Spark里面就能够通过使用标准的CQ语dream。
40:45
来去处理我们的离线数据,同样在我们的flink里面呢,你可以集成flink c口,还有flink的什么data stream, 通过使用这种方式,你就能够在flink里面通过使用标准的C口语句来去处理实时流速数据,那么关于18课关于flink呢,更加系统的知识,赵老师呢,也会在后续课程里面呢,单独的来给大家进行相关的介绍,因此呢,介绍到这个地方的时候呢,赵老师呢,就把整个数据仓库中间的这个部分,大数据平台层中间灰色部的部分呢,给大家做了个什么非常详细的介绍,而这个部分呢,也是整个大数据平台那最核心的一个部分,通过它能够去提供数据存储,包括数据计算的能力,那有能力以后呢,我们就能够去构。
41:45
建我们上面的什么数据仓库层,那数据仓库层主要研究各种建模,比如说你可以去通过使用你的新型模型雪花模型建立各种模型,模型建立好以后呢,把数据存储在底层的大数据平台之上,通过大数据平台提供了计算引擎来去分析和处理数据。模型建立起来以后呢,通过模型最终去支持上层的各种应用场景,包括比如说你的热门商品分析,社交网络分商品推荐等等等等。因此呢,整个这张图就给大家详细介绍一下,如何通过使用大数据组件,通过使用咱们的LADA架构构建我们的数据仓库,来去支持我们的数据存储,还有数据的计算。目前构建数据仓库的主要方式都是。
42:45
使用咱们的大数据的方式,这句话呢,请大家一定需要记住,当然你能够使用传统的关系型数据库,比如说你当然能够使用or com, 你能够使用MYSQL构物建你的什么数据仓库,这样属于传统的方式,嗯。
43:01
因此呢,介绍到这个地方的时呢,赵老师呢,就详细给大家介绍一下什么是我们的拉蒙达架构,拉蒙达架构是目前的什么主流架构,问一下各位直播间同学们,那关于什么是我们的拉蒙达架构,大家是不是都听明白了,如果说拉蒙大家跟我大家都听明白了呢,就请在咱们的公屏之上,请给赵老师呢回复一个666,或者给赵老师呢点一个赞,对好,咱们简单的再来介绍一下什么是我们的卡A架构,那关于这个kaa架构呢?赵老师呢,去找张图片吧,给他介绍一下到底有什么什么我们的kaa架构的,那么kaa架构它不是什么主流的方式,对,因为呢,在卡帕架构里面呢,它只存在我们的这什么实时的部分,并不存在我们的离线部分,诶好找张图看一下呢,好,目前大家现在来看到的么?这这个架构就是我们的kaa架构,那么通过什么卡A架构呢,主要构建我们的实时数仓,那也就是说在你的应用场景里面,如果只需要处理实时数据,我不需要处理离线数据呢,你可以使用什么,你可以使用你的卡A架构,当然目前的业务场景里面呢,既有可能会包含我们的离线,也有可能会包含我们的实时,那基于这个背景呢,目前我们的拉曼达架构呢,是构建大数据平台的主流架构,那么KA法架构呢?它只主要用于我们的实时场景。好有从介。
44:40
到到这个地方的时候呢,整个的我们的第二个小节,关于如何使用大数据技术构建我们的数据仓库整个架构呢,那就给大家做个什么,做了一个非常详细的介绍,好问一下各位直播间同学,关于我们的第二个小节大家是不是都听明白了,如果说咱们的第二小节大家都听明白了呢,请大家给赵老师呢回复一个一样,或者给赵老师呢点个赞,好让赵老师呢能够知道大家都还能够跟得上赵老师的节奏的,好有了这些知识以后。
45:21
那么当你把整个的环境搭建部署好以后,你的这个哈多嗯长什么样子呢?写一下,比如说你的这个哈多长什么样子,你的10SPA克长什么样子,那么你的flink呢,长什么样子呢?通过DEMO眼示让大家呢能够有一个感性认识,当然关于这个关于这些里面呢,更加深入知识,赵老师呢,后面呢会单独给大家讲直播课,来给大家进行详细的介绍。好首先咱们演示一下我们的哈多普的好,我们在哈杜op的安装包里面呢,已经集成好了,我们HMDFSM也集成好了我们的ER,那这两个部分它已经被集成在了哈都不安装包里面,除了这两个部分以外,哈都的的其他组件都需要单独安装,那么这呢,刚刚都介绍过了的,它切换到我们的命令行的什么窗口当中去,通过执行一条命令叫start or点。
46:21
命,这一条命令呢,它能够启动哈杜普当中的HDFS,也能够启动em,当你把HDFS启动起来以后呢,你就能够以文件的方式解决海量离线数据的存储问题,而当你把压M启动起来以后呢,你就能够去执行map produceduce, 执行十SPA com, 或者执行我们的flink,它是一个什么任务的个什么调度引擎,他们二者都提供了什么图形化界面,帮助咱们来进行操作。首先访问一下HDFS的图形化界面端口是我们的嘛,9吧,请面通过大家现在看到的什么,就图形化界面也能够去监控我们HDFS也能够去创上传文件,也能够呢去下载文件。好再来看一下我们yam的,Yam呢,它也提供一个图形化界面,端口是8088,那通过这个界面能够。
47:22
监控yam的运行状态,如果说你有计算任务呢,或不管是map producedu还是10SPA克还是flink呢,只要它运行在yam之上,也都能够通过现在的图形界面监控任务的是吧?执行的状态,因此呢,整个哈多安装好以后呢,大家所看到的界面呢,大概就是这样子的,这个通过图形界面进行操作,当然了,你也能够通过使用命令行方式也能够去操作HDFS,还有我们的样好,我们去把哈多呢给他停止下来,执行一个s stop哦,好,我们再去把我们的十巴克呢启动起来,当你把10巴克启动起来以后呢,它也提供了一个什么图形化界面,用于监控我们的斯巴卡集群,如果说你有任务呢,运行在斯巴卡提群之上,也能够呢,监控到任务的执行的状态啊好,咱们这个个地方呢,进到咱们的声。
48:22
8的目录下执行下面的10达O的脚本,那么它能够启动8主节点,也能够启动重接点,因此么?因此呢,它是个什么架构呢?它是一个主从式架构,那主从式架构呢,都存在咱们的单点故障,这些更加系统知识都被包含在了直播间下方的课程里面的,好,整个10SPARK启动起来以后呢,它也提供的图形化界面,端口号是我们的8080,那通过大家现在看到的这界面呢,你就能够去监控我们的10巴卡集群,如果说你有计算任务呢,运行在集群之上,也能够通过这个界面监控到任务的执行状态,注意10SPA克里面的所有计算都是离线计算,关于18课更加系统的知识,当然赵老师呢,也会在后续单独的给大家进行。
49:22
相关的介绍,好再来看一下我们的这个flicom,好先去把我们的10SPA克先去给把它停止下来,进到咱们的fli克什么安装的路径下执行,并下面什么斯start class脚本,Flink呢,它也跟斯Spark一样,它也是一个什么主从式架构,既然它也是一个主从式架构,它也存在单点故障,因此呢,我们在大数据体系当中,这些核心组件都是主从架构,都存在单点故障问题,因此我们的实际生产里呢,需要使用猪keepper来解决单点故障,实现它的HHA,当这些更加深入知识呢,会在系统课程里面来给大家进行详细的介绍。好当你把f income启动起来以后呢,它跟斯Spark一样,也提供一个图形化界面端口号8081,那通过大家现在看到的这图形化界面呢?
50:22
你就能够去监控我们的弗link集群,如果说你有计算任务呢,运行在弗link集群之上,你也能够通过现在的这个界面呢,监控到任务的执行的状态,当然了,如果你要停止集群呢,执行下面嘛,并下面的吧是多什么卡的,因此呢,咱们这个地方呢,通过非常简单的DEMO衍生,让大家呢,对整个大数据体系当中,那最核心的三个部分,到底什么是我们的哈多普,到底什么是我们的10SPA克,到底什么是我们的分呢,能够有一个感性的认识,当然你仅仅靠直播的一个小时是远远不够的,因此呢,如果说你要去系统学习的话。
51:09
还得需要通过什么系统课程来学习?
我来说两句