JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,可使人们很容易地进行阅读和编写,同时也方便了机器进行解析和生成。JSON适用于进行数据交互的场景,如网站前台与后台之间的数据交互。 查看全文>>
Python+大数据技术文章2021-06-21 |传智教育 |JSON是什么意思
使用lxml库时需要编写和测试XPath语句,显然降低了开发效率。除了lxml库之外,还可以使用Beautiful Soup来提取HTML/XML数据。虽然这两个库的功能相似,但是Beautiful Soup使用起来更加简洁方便,受到开发人员的推崇。 查看全文>>
Python+大数据技术文章2021-06-21 |传智教育 |BeautifulSoup库的功能
lxml是使用Python语言编写的库,主要用于解析和提取HTML或者XML格式的数据,它不仅功能非常丰富,而且便于使用,可以利用XPath语法快速地定位特定的元素或节点。 查看全文>>
Python+大数据技术文章2021-06-21 |传智教育 |lxml库获取子节点
学习Scrapy框架,从理解它的架构开始。Scrapy的这些组件通力合作,共同完成整个爬取任务。架构图中的箭头是数据的流动方向,首先从初始URL开始,Scheduler 会将其交给Downloader进行下载,下载之后会交给Spiders进行分析。Spiders分析出来的结果有两种:一种是需要进一步爬取的链接,例如之前分析的“下一页”的链接,这些会被传回Scheduler; 查看全文>>
Python+大数据技术文章2021-06-18 |传智教育 |Scrapy框架结构组件有哪些
每个Znode都包含了一系列的属性,对于Zookeeper来说,Znode状态改变的每一个操作都将使节点接收到唯一的zxid(Zookeeper Transaction ID)格式的时间戳,并且这个时间戳是全局有序的,通常被称为事物ID... 查看全文>>
Python+大数据技术文章2021-06-17 |传智教育 |Znode,Znode节点属性
Zookeeper为了保证各节点的协同工作,在工作时需要一个Leader角色,而Zookeeper默认采用FastLeaderElection算法,且投票数大于半数则胜出的机制,再介绍选举机制前,首先了解选举涉及的相关概念。 查看全文>>
Python+大数据技术文章2021-06-17 |传智教育 | Zookeeper, Zookeeper选举机制需要,自主选择leader
HBase中存储在HDFS中的数据是通过Zookeeper协调处理的。由于HBase存在单点故障的问题,因此,可以通过Zookeeper部署一个高可用的HBase集群解决。下面,以三台服务器为例(hadoop01、hadoop02和hadoop03),讲解如何安装部署HBase集群。 查看全文>>
Python+大数据技术文章2021-06-17 |传智教育 |HBase集群部署,Zookeeper,HBase安装
Spark的任务调度流程分为RDD Objects、DAGScheduler、TaskScheduler以及Worker四个部分。关于这四个部分的相关介绍具体如下: 查看全文>>
Python+大数据技术文章2021-06-17 |传智教育 |RDD运行流程,RDD在Spark中的运行流程