项目时间:2016-11 - 2017-03
项目名称:腾翼it管理系统
项目描述:
项目介绍
针对医院行业目前面临的运维挑战,推出"医院行业智慧运维解决方案",通过深度剖析业务系统组件及业务流量定位问题根源,快速分析问题,辅助运维人员及时解决问题,为领导提供决策依据。
我的职责
1、负责开发和维护Java后端服务,为用户提供稳定可靠的服务;
2、负责开发和维护基础服务,构建安全可靠的服务平台;
3、负责Java相关的应用开发。
项目时间:2015-01 - 2015-11
项目名称:众泰基于大数据的发展分析 | 项目工具:linux、hadoop-2.6.0-cdh5.5.2、sqoop-1.4.6-cdh5.5.2、zookeeper-3.4.5-cdh5.5.2、hbase-1.0.0-cdh5.5.2、hive-1.1.0-cdh5.5.2、kafka、JDK 1.7.0、spark-1.5.0-cdh5.5.2、mysql、oracle等
项目描述:
项目介绍
面对汽车行业数字化浪潮发掘企业数据价值,推动业务发展和创新,采用先进的云计算和大数据分析等技术搭建的数据分析应用生态体系。通过企业内部的数据系统获取研发、生产、营销销售、售后等各种信息,结合互联网、车联网、手机等用户端口获取用户的用车习惯、需求,以及对产品的抱怨等等。这些大数据经过大数据分析以后得出一些结论,为车型的研发、改进为营销策略的制定;为广告的精准投放;为生产、库存的调整;为销售、售后的跟进;提供数据、智力支持。 统计用户的审美喜好、用车习惯,给新车的设计师提供参考。这样出来的新车,势必拥有畅销的基础。 在广告投放阶段,云镜能精准地找到潜在客户,甚至广告的形式及内容都可以根据用户的喜好进行定制。这毫无疑问会提高广告效果。对用户的抱怨进行统计分析,可以及时发现并处理用户抱怨,提高用户满意度,同时为车型改进提供参考。
监测到某一车型多次出现同一故障,系统可以通过车载终端、手机对相同车型的车主进行提醒。让车主到4S店进行预防性检查,同时可以进行进店预约,节约车主时间。
项目描述:
1、数据来源: 数据传统来源已经有了相对成熟生产系统体系,包括销售领域的分销商管理系统(DMS),经销商使用的CRM、客服中心(Call center)、生产管理系统,质量管理系统(QIS)等等,因此可以满足日常主机厂自身日常运营分析、产品分析以及对渠道运营分析。
1)车联网系统:目前越来越多的主机厂考虑部署或者已经部署车联网系统,通过车联网系统有效补充用户日常数据缺失,以ADAS系统为例,可以捕获如下数据:用户驾驶行为数据:用户每次驾驶里程,转向习惯,行驶速度、是否有疲劳驾驶等,可以有效帮助客户画像数据构建产品参数实时获取:不同零部件的关键运营指标,如转速、温度、电子指标等,从而为精细化产品质量预测和分析提供基础
2)网络舆情信息:网络已经是用户信息传播的主要渠道,相比主机厂传统方式,网络信息会更早、更全面反映用户对主机厂的相关信息,通过部署自有网络爬虫系统或者购买第三方的SAAS服务,可以针对重点门户、知名行业网站、论坛、电商平台等通过爬虫系统可以捕获网络新闻、论坛帖子、用户评论等网络信息基于大数据技术处理,通过网络信息进行市场营销、品牌影响力、用户习惯、产品质量等分析,以品牌为例,可以完成品牌日常热度、口碑倾向等分析。
3)第三方外部数据:行业性数据:通过乘联会等行业组织的数据引入,可以有效解决市场趋势分析的数据引入;第三方用户标签数据:和第三方数据合作中,得到用户级的数据交换,考虑到第三方数据匹配成功率不足的问题,这就需要构建统一的用户标签体系和用户多ID体系;此外更为可行的做法是充分利用第三方的做好用户画像分析数据,优先完善用户群统计数据;
2、数据导入和预处理:使用sqoop抽取oracle数据库中的数据,因为数据采集端数据来自多个数据库,因此数据格式存在差异,需要抽取到hadoop平台上,在导入的过程中依据数据特征进行一些简单的清洗、筛选。
3、数据分析和统计:对已经导入的海量数据依据其本身特征进行分析并为之分类汇总,以满足大多数常见的分析需求。
4、数据挖掘:针对前面已经数据分类汇总,利用数据挖掘算法对这些汇总数据进行深一步挖掘。数据挖掘算法都比较复杂,没有预先设置的公式,这也是考验一个公司实力、人工智能的一个环节,只有相对准确合适的算法才能从大数据中得到有价值的数据分析结果。
项目架构:
1、相关负责组:数据收集组、数据处理组、分析组、建模算法组、数据展示组。
2、数据收集有多方面数据,有数据收集组通过爬虫在相关对重点门户、知名行业网站、论坛、电商平台等通过爬虫系统可以捕获网络新闻、论坛帖子、用户评论等网络信息。
3、数据处理组负责将数据库抽取出来的数据,数据抽取组的数据进行相关的清洗、筛选,并将数据进行海量小数据合并。
4、分析组负责大量离线数据的分析,汇总分析出各种型号车辆的各项参数,以及根据售后维修的数据分析出出现问题最多的前10名的车型及其维修的部件的型号,并且汇总根据售后反馈回来的信息, 再次综合出已出现问题的车型及其部件编号。还有网上爬虫来自网络新闻、论坛帖子、用户评论等网络信息,分析出客户期望以及车辆问题。其中还包括用户的行为分析,通过车辆的定位来确定客户的喜好消费,综合上方收集来的用户驾驶习惯来为用户定制专有的用户画像。还有分析各地区人们的不同而分别投放不同的广告。
我的职责
1、在hadoop生态圈上利用sqoop工具进行oracle数据库的增量抽取到HDFS
2、在hive中对数据进行分析、处理、创建、修改客户专属画像和汽车专属画像
3、按业务要求对hive进行优化
4、按业务要求HQL的编写及调优
项目时间:2014-05 - 至今
项目名称:Intel & Cloudera战略合作项目--CDH产品发布
项目描述:
项目介绍
Intel与Cloudera进行战略合作。Intel在技术上支持CDH的产品发布,将Intel Hadoop发行版的某些特定功能优化后整合到CDH产品中,同时加入基于IA平台的某些优化(如MKL)以期达到更好的性能。
我的职责
负责Intel某些特定功能的测试需求分析和测试计划的制定。
负责Intel某些特定功能的功能和稳定性测试,比如MKL, HBase MOB(Moderate Object Storage)等。
基于大数据测试基准(Hi-Bench, TPCx-BB等),提供针对CDH的性能测试和分析报告。
基于内部云测试平台(底层为OpenStack),协助Cloudera团队进行提高CDH安装部署测试的覆盖率。
项目时间:2017-03 - 2017-09
项目名称:美邻后台流量分析系统
项目描述:
项目介绍
美邻手机app,用于收集用户反馈,提建议,发起各种交流活动,通过埋点对美邻app的日志进行分析,计算app相关指标,其中指标包括:页面浏览量即为PV(Page View),每日登陆用户数UV,每周UV,跳出率(跳出数/PV)。跳出率是非常重要的访客黏性指标,它显示了访客对应用的兴趣程度:跳出率越低说明流量质量越好,访客对网站的内容越感兴趣,这些访客越可能是网站的有效用户、忠实用户。板块访问量pv,和板块独立ip访问量。
我的职责
1.参与前期项目分析,设计系统整体架构
2.使用flume监听每天的日志目录,将每天的日志文件上传到hdfs上相应的目录下
3.通过写mapreduce任务对数据进行清洗
4.负责网站的浏览量统计,用户注册统计等模块的设计。