1.能搭使用Hive和HBase的系统架构,和能用Hive进行海量数据的统计分析以及,能根据需求设计HBase表,能对Hive、HBase进行搭建Hadoop的系统架构和Hadoop集群。 2.能使用开源日志收集框架flume,Kafka消息队列。 3.能够使用Python2.7的版本,进行编程部署, 实现MapReducer框架,解决离线分析的场景和作业。 4.能够使用java,Scala进行项目的开发,能够实现Spark框架的研发作业。 5.能使用SparkStreaming进行实时数据的分析。 6.能使用MapReduce的原理和流程和其API开发应用程序 7.能使用Storm的原理和流程和使用API开发应用程序,以及Storm+Kafka实时流处理架构 8.清楚spark任务提交流程,对spark作业能进行调优 9.能操作MySQL、Oracle数据库 10.能使用Python进行网页爬虫,和Python与MySQL的交互
对于Linux的基本常用命令比较熟练,可以熟练使用vi编辑器。
熟悉zookeeper分布式协调服务应用,了解zookeeper的运行原理;熟练运用spark,清楚spark的启动过程以及任务运行的基本流程,可以自主完成对spark集群的搭建,熟悉spark-streaming,spark-sql,对于spark的相关算法有一些了解。
熟练掌握scala语言,可以使用scala对spark程序进行一些编写;
熟悉python语言,可以使用python来进行对业务逻辑的处理,以及爬取数据等操作;
熟悉Kafka的工作原理,可以自主完成对Kafka集群的搭建;
熟练运用shell脚本进行编程,可以使用shell脚本来进行一些特定的操作
熟悉hdfs,mapreduce,yarn的工作原理,熟悉Hadoop的生态体系,可以独立完成对于Hadoop集群的搭建,同时对于mapreduce程序的开发也可以独立完成;
熟悉hbase,hive,熟悉flume与Kafka的综合使用。
可以熟练使用eclipse,myeclipse,idea,mysql,等相关开发工具
Hadoop
PERL
Python
SQL
Hive
C/C++
Java
Linux
能够安装、部署、Hadoop2.x集群,熟悉Hadoop生态系统的相关产品,熟悉HDFS分布式文件系统,Sqoop数据库ETL工具,Flume日志收集,MapReduce分布式计算框架,熟练掌握Sql/Hql的编写,Zookeeper分布式协作,Yarn资源管理器,Hive数据仓库,HBase实时协作数据库,熟悉Spark内存计算,熟悉MySQL/ORACLE数据库安装、管理、调优、备份、容灾、安全等技能一般,熟悉MapReduce编程。熟悉Linux操作系统,熟悉shell,熟练运用SecureCRT, Xshell,MyEclipse,FileZilla Client等应用软件。