项目时间:2012-09 - 2013-07
项目名称:平安一卡通
项目描述:
项目介绍
此项目是使集体组织的日常生活出勤考察变得高效,公开,透明。解决由于内勤事物的冗杂,繁琐而带来的重要数据的遗失现象。
我的职责
本人参与了,计费审查统计模、物业公共设施财物的状况、来访人员管理等模块的业务分析及功能实现。
项目时间:2014-11 - 2015-10
项目名称:中国国际网博中心(https://wangbo.com/)
项目描述:
项目介绍
中国首家基于3D虚拟互动技术的商务应用平台,运用现代网络科技推动会展行业转型升级和创新发展,努力探索实体展与网络展互为支撑、线上展览与信息检索、电子商务紧密结合的全新展览模式,帮助企业宣传推广和企业间商务交流提供媒介。
我的职责
中文版的个人账户信息管理(部分)功能模块开发,英文版的数据库文档撰写、数据关联。依据文档近些编码及系统维护。
项目时间:2016-01 - 2016-06
项目名称:移动互联网内容规则库自优化系统
项目描述:
项目介绍
基于企业数据中心用户上网日志数据,通过URL过滤、规则库匹配、爬虫爬取、内容复原,文本数据挖掘等方法,实现内容分析配置管理可视化以及内容规则库的自优化等功能,利用爬虫技术并融合DPI复原技术,以及标签规则库的流程管理,对客户的手机上网行为、访问内容、访问应用进行深入识别,精细化支撑客户数据、业务数据的分析需求,并结合数据整合和数据建模、数据挖掘、数据清洗等手段,建设基于细分行业的大数据及用户深入洞察分析能力。
本项目包括:
1.URLCLASSIFIER URL分类模块,输入是采样的DPI URL ,使用用应用规则,栏目规则,搜索规 则,元数据规则,噪音规则,元数据等规则库,清洗为样本数据,供规则分析人员使用。
2.URLGENERATOR 爬虫URL 生成模块,可输入全量的DPI URL,使用用应用规则,元数据规则,噪音规则,元数据等规则库, 自动生成爬虫URL, 供爬虫使用。
3.URLFOCUS 重点应用的URL 提取模块,可输入全量的DPI URL,使用应用规则,栏目规则,搜索规则,元数据规则,噪音规则等规则库,清洗为重点应用的数据,供规则分析人员使用
4.SPIDER 读取爬虫URL,爬去相关页面,生成相关 URL索引文件和对应的页面文件,提供给PP使用。
5.PPPage Parser的简写,读取SPIDER或PR的URL索引文件和页面内容文件,使用页面规则库,生成内容元数据,导入相应的APP的元数据库。
6. CRMANAGER 内容规则库管理系统的用户操作可视化界面。
我的职责
本人在项目中参与系统架构和数据库表结构的设计,主要负责的模块:网页内容分析模块(PP)和爬虫复原URL生成模块(URLGenerator)。
网页内容分析模块(PP):网页内容分析,通过对网页内容提取规则,将提取的内容与内容元数据对应,建立内容元数据规则库。可以支持对网页/APP应用更新状态进行判断、对网页/APP应用编码进行识别 、对网页/APP应用标题进行获取、对网页/APP应用内容的获取 。
爬虫复原URL生成模块(URLGenerator):基于应用(APP)栏目动作规则库,内容规则库,内容元数据规则库和噪音库,从全量输入的DPI XDR中提取并基于规则生成供爬虫爬取的URL。
项目时间:2017-01 - 至今
项目名称:国寿指标计算新框架 | 项目工具:hadoop,hdfs,mapreduce,hbase,spark-streaming
项目描述:
项目介绍
该框架主要解决了以下几个问题:
1.集群中依赖的第三方Jar部署问题,使用了hadoop的分布式缓存技术,自动把依赖的jar包分发到各个node节点,并添加与classPath中
2.解决集群的安全认证问题,新框架兼容了hadoop集群的kebos认证
3.解决了不同项目组编程中的版本冲突,程序实现了计算逻辑的自动加载,每个人只需维护好自己的代码即可.
我的职责
参与新框架(基于MapReduce与hbase编程模型)方案的讨论与设计,部分架构代码的实现,按照新架构的思路去实现指标的计算,解决了以前架构中缺陷!