项目时间:2015-01到至今
项目名称:医学专业字库的创建
项目描述:
项目介绍
该项目为公司内部完善产品的设计项目。该字库的创建主要解决系统中医院描述性数据不规范问题。根据字库,将不规范的数据标准化,为数据分析精准度提供有力支持。由于医院数据录入的不规范,且数据量过大,不易于系统分析,并使得系统分析得出的结果精准度有所下降,因此,该项目的目标是,标准化医院描述性数据,提高系统分析的精准度和可靠性。
我的职责
负责前期字库数据的ETL,以及在数据库中的构建。字库的构建解决了一直以来公司在处理医院描述性数据时的规范化问题,使得公司研发系统更加完善。
项目时间:2016-03到至今
项目名称:登云美业大数据平台 | 项目工具:Centos6.5、cloudera manage5.7、CDH5.7(hadoop2、sqoop、flume、kafka、zookeeper、hbase、hive、spark)、MySQL等
项目描述:
项目介绍
在大数据时代,我们需要运用大数据的科技力量来推动企业乃至社会的发展,可以说未来几年将是大数据风起云涌,竞争激烈的时代,机遇与挑战并存!数据时代的数据意义非凡!
数据来源:1、历史数据:海量的历史数据,从98年的线下数据到现在时刻产生的数据
2、APP产生的日志数据:主要来自APP(每天每耶、妃子校)日志,用户的行为数据
3、第三方采购数据:与同类型公司交换或者购买一些相关数据,以便于更加详细的分析用户操作的行为
项目阶段:第一阶段:大数据采集,清洗,分析框架搭建
第二阶段:数据胡数据流入,产品数据统计分析
第三阶段:外部数据打通,分析模型建立,用户画像,推动引擎,动态榜单
我的职责
1、负责平台搭建方案和具体步骤的文档编写
2、海量历史数据分批的导入
3、现产生的日志文件清洗、分析
4、现有日志与历史数据结合做出详细的用户画像
5、按要求对hql的编写
项目时间:2015-01到至今
项目名称:众泰基于大数据的发展分析 | 项目工具:linux、hadoop-2.6.0-cdh5.5.2、sqoop-1.4.6-cdh5.5.2、zookeeper-3.4.5-cdh5.5.2、hbase-1.0.0-cdh5.5.2、hive-1.1.0-cdh5.5.2、kafka、JDK 1.7.0、spark-1.5.0-cdh5.5.2、mysql、oracle等
项目描述:
项目介绍
面对汽车行业数字化浪潮发掘企业数据价值,推动业务发展和创新,采用先进的云计算和大数据分析等技术搭建的数据分析应用生态体系。通过企业内部的数据系统获取研发、生产、营销销售、售后等各种信息,结合互联网、车联网、手机等用户端口获取用户的用车习惯、需求,以及对产品的抱怨等等。这些大数据经过大数据分析以后得出一些结论,为车型的研发、改进为营销策略的制定;为广告的精准投放;为生产、库存的调整;为销售、售后的跟进;提供数据、智力支持。 统计用户的审美喜好、用车习惯,给新车的设计师提供参考。这样出来的新车,势必拥有畅销的基础。 在广告投放阶段,云镜能精准地找到潜在客户,甚至广告的形式及内容都可以根据用户的喜好进行定制。这毫无疑问会提高广告效果。对用户的抱怨进行统计分析,可以及时发现并处理用户抱怨,提高用户满意度,同时为车型改进提供参考。
监测到某一车型多次出现同一故障,系统可以通过车载终端、手机对相同车型的车主进行提醒。让车主到4S店进行预防性检查,同时可以进行进店预约,节约车主时间。
项目描述:
1、数据来源: 数据传统来源已经有了相对成熟生产系统体系,包括销售领域的分销商管理系统(DMS),经销商使用的CRM、客服中心(Call center)、生产管理系统,质量管理系统(QIS)等等,因此可以满足日常主机厂自身日常运营分析、产品分析以及对渠道运营分析。
1)车联网系统:目前越来越多的主机厂考虑部署或者已经部署车联网系统,通过车联网系统有效补充用户日常数据缺失,以ADAS系统为例,可以捕获如下数据:用户驾驶行为数据:用户每次驾驶里程,转向习惯,行驶速度、是否有疲劳驾驶等,可以有效帮助客户画像数据构建产品参数实时获取:不同零部件的关键运营指标,如转速、温度、电子指标等,从而为精细化产品质量预测和分析提供基础
2)网络舆情信息:网络已经是用户信息传播的主要渠道,相比主机厂传统方式,网络信息会更早、更全面反映用户对主机厂的相关信息,通过部署自有网络爬虫系统或者购买第三方的SAAS服务,可以针对重点门户、知名行业网站、论坛、电商平台等通过爬虫系统可以捕获网络新闻、论坛帖子、用户评论等网络信息基于大数据技术处理,通过网络信息进行市场营销、品牌影响力、用户习惯、产品质量等分析,以品牌为例,可以完成品牌日常热度、口碑倾向等分析。
3)第三方外部数据:行业性数据:通过乘联会等行业组织的数据引入,可以有效解决市场趋势分析的数据引入;第三方用户标签数据:和第三方数据合作中,得到用户级的数据交换,考虑到第三方数据匹配成功率不足的问题,这就需要构建统一的用户标签体系和用户多ID体系;此外更为可行的做法是充分利用第三方的做好用户画像分析数据,优先完善用户群统计数据;
2、数据导入和预处理:使用sqoop抽取oracle数据库中的数据,因为数据采集端数据来自多个数据库,因此数据格式存在差异,需要抽取到hadoop平台上,在导入的过程中依据数据特征进行一些简单的清洗、筛选。
3、数据分析和统计:对已经导入的海量数据依据其本身特征进行分析并为之分类汇总,以满足大多数常见的分析需求。
4、数据挖掘:针对前面已经数据分类汇总,利用数据挖掘算法对这些汇总数据进行深一步挖掘。数据挖掘算法都比较复杂,没有预先设置的公式,这也是考验一个公司实力、人工智能的一个环节,只有相对准确合适的算法才能从大数据中得到有价值的数据分析结果。
项目架构:
1、相关负责组:数据收集组、数据处理组、分析组、建模算法组、数据展示组。
2、数据收集有多方面数据,有数据收集组通过爬虫在相关对重点门户、知名行业网站、论坛、电商平台等通过爬虫系统可以捕获网络新闻、论坛帖子、用户评论等网络信息。
3、数据处理组负责将数据库抽取出来的数据,数据抽取组的数据进行相关的清洗、筛选,并将数据进行海量小数据合并。
4、分析组负责大量离线数据的分析,汇总分析出各种型号车辆的各项参数,以及根据售后维修的数据分析出出现问题最多的前10名的车型及其维修的部件的型号,并且汇总根据售后反馈回来的信息, 再次综合出已出现问题的车型及其部件编号。还有网上爬虫来自网络新闻、论坛帖子、用户评论等网络信息,分析出客户期望以及车辆问题。其中还包括用户的行为分析,通过车辆的定位来确定客户的喜好消费,综合上方收集来的用户驾驶习惯来为用户定制专有的用户画像。还有分析各地区人们的不同而分别投放不同的广告。
我的职责
1、在hadoop生态圈上利用sqoop工具进行oracle数据库的增量抽取到HDFS
2、在hive中对数据进行分析、处理、创建、修改客户专属画像和汽车专属画像
3、按业务要求对hive进行优化
4、按业务要求HQL的编写及调优
项目时间:2015-08到至今
项目名称:新华保险业务系统 | 项目工具:oracle 11g
项目描述:
项目介绍
新核心业务系统通过对前后台运营业务处理支持,实现保单的全生命周期相关业务处理,实现外部差异化服务、内部集约化、运营精益化有效的基础支撑平台。
为实现个险理赔处理流程系统化、智能化、集中精益化,支持公司业务发展,实现个险理赔闭环管理,提升作业效率,提升客户体验、提高客户粘度,提出个险理赔新核心系统业务需求。
新契约是保险公司整个运营体系中非常重要的一项业务职能,是一张有效的保单建立就是从新契约开始,是保险公司和客户建立合同的重要步骤。新契约主要分为四大部分:承保处理、承保管理、承保查询、承保报表。
而保全是保险合同在保险期间内,为了维持合同效力,保险公司根据合同约定及投保人、被保险人或者受益人的要求而提供的一系列服务。即围绕合同内容变更、年金或者满期金给付等服务项目而开展的工作。
我的职责
库表及数据模型的维护;异常数据的查询与处理;数据迁移脚本编写及优化