难度系数:★★★☆☆ 课程系列:CDA Level Ⅱ 数据分析师
当我们知道有Hadoop生态系统集成HDFS分布式存储数据、 YARN分配资源、 MapReduce管理任务之后, 我们还需要知道的是:海量数据如何导入到HDFS中去?
HBase实际上是一个在HDFS上开发的面向列的分布式的开源非关系型分布式数据库(NoSQL) 。它可靠性强、性能稳定、面向列、可伸缩、可实现实时读写的特点,使其成为存储非结构化、半结构化松散数据的不二之选。
HIVE是Hadoop的—个数据仓库工具,它可以将结构化的数据文件映射为—张数据库表, 并提供简单的SQL查询功能, 将SQL语句转化为Map Reduce任务进行运作。 HIVE不仅提供了—个熟悉SQL的用户所熟悉的编程模型,还消除了大量的通用代码, 甚至是那些有时不得不使用Java编写的令人棘手的代码。
Sqoop 工具是Hadoop环境下连接关系数据库和Hadoop存储系统的桥梁,支持多种关系数据源 (Mysql、 Orate等)和非关系数据库 (HIVE、 HDFS、 hbase等)的相互导入。 Sqoop可以根据实际业务情况和每天的数据量考虑是否需要全表导入。 例如:对千每天产生的数据量不是很大的情形可以全表导入,反之则进行部分导入。
通过本阶段的学习, 学员将能够掌握数据在传统数据库与大数据平台之间的相互传递。