大数据是什么意思?什么是大数据?如果从字面意思来看,大数据指的是巨量数据。大数据的计量单位已经越过TB级别发展到PB、EB、ZB、YB甚至BB级别。 查看全文>>
大数据技术文章2021-02-01 |传智教育 |大数据是什么意思,什么是大数据?
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。对于不同的Spark部署模式而言,都可以通过设置spark.default.prallien这个参数值来配置默认的分区数目。一般而言,各种模式下的默认分区数目如下。 查看全文>>
大数据技术文章2021-01-29 |传智教育 |RDD分区
分层抽样法也叫类型抽样法,它是先将总体样本按照某种特征分为若干次级(层),然后再从每一一层内进行独立取样,组成一个样本的统计学计算方法,接下来,通过Spark-Shell演示分层抽样方法,具体代码如下: 查看全文>>
大数据技术文章2021-01-29 |传智教育 |Spark MLlib分层抽样,什么是分层抽样
当MySQL表中的数据发生了新增或修改变化,需要更新HDFS上对应的数据时,就可以使用Sqoop的增量导入功能。Sqoop目前支持两种增量导入模式:append模式和lastmodified模式。其中,append模式主要针对INSERT新增数据的增量导入;lastmodified模式主要针对UPDATE修改数据的增量导入。 查看全文>>
大数据技术文章2021-01-26 |传智教育 |Sqoop增量导入,MySQL导入数据
安装配置Sqoop,前提是部署Sqoop工具的机器需要具备Java和Hadoop的运行环境首先将下载好的安装包上传至hadoop01主节点的/export/software目录中,并解压至/export/servers路径下,然后对解压包进行重命名,具体指令如下。 查看全文>>
大数据技术文章2021-01-26 |传智教育 |Sqoop,Sqoop的安装和配置
Reduce大致分为copy、sort、reduce三个阶段,重点在前两个阶段。Copy阶段,简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher),通过HTTP方式请求maptask 获取属于自己的文件。 查看全文>>
大数据技术文章2021-01-26 |传智教育 |ReduceTask的工作机制
完成Scala环境和IDEA工具的安装。接下来,就通过打印“Hello World”的例子来演示如何使用IDEA工具开发Scala程序,具体步骤如下。 查看全文>>
大数据技术文章2021-01-25 |传智教育 |开发Scala程序的步骤