求职意向
spark研发工程师 全职 北京 15K-20K 1周内到岗
教育背景
2008.9-2012.7 中山大学 通信工程
职业技能
熟练掌握Scala语言,熟悉函数式编程,熟悉Java面向对象编程;
理解Spark工作机制,熟练掌握Spark任务的执行流程,熟练使用Spark Core算子;
掌握Spark Streaming的流式处理技术,对流式数据在线处理分析以及对出现的问题进行排查,性能调优;
掌握利用Spark SQL进行数据处理、查询、统计,拥有一定SparkSQL调优经验;
理解Hadoop的分布式文件系统HDFS,Yarn资源调度机制,掌握MapReduce原理及Job提交流程,实现编码;
熟悉Hive的工作原理,了解数据仓库建立,完成对数据主题抽取和多维分析,具有一定Hive调优经验;
熟练使用Redis内存数据库,分布式列式存储数据库HBase及MySQL数据库;
熟练使用Sqoop工具,实现非关系型数据库与关系型数据库表数据互导;
掌握Flume数据采集工具的原理,实现流式数据的过滤和分析,自定义Source实现日志采集过程中的偏移量维护;
熟悉分布式消息系统Kafka集群搭建,熟练使用Kafka直连方式实现消费数据偏移量的手动维护和校验;
熟悉分布式协调系统Zookeeper集群搭建,了解Zookeeper的主从选举机制(paxos)
熟悉Linux基本操作,以及Shell脚本编写;
熟悉HTML、XML、JavaScript、jQuery、Bootstrap、E-charts等前端技术;
熟悉MyBatis 、Spring、SpringMVC等后端开源框架;
熟练使用Git、Maven等项目版本管理及项目构建工具;
熟练阅读英文技术文档;
实习经历
2015.9-2016.2
Arecy LLC
数据分析实习
参与项目需求分析,协助制定方案; 与客户商讨,帮助客户理解项目,给出建议; 维护核心用户群; 做一些简单的数据统计分析工作。
工作经历
2016.3-2016.7
StupidVideos
大数据开发工程师
2016.9-2017.5
SWARM Digital Agency
数据开发
2017.6-2017.12
河南省聚思信息科技有限公司
spark开发工程师
项目经验
2016.4-2016.7
优质内容分析系统
研发人员
项目描述:提取公司产品视频平台上视频的单日播放日志数据,根据业务需求,制定日志数据的采集策略,完成日志中无效数据预处理,实现分析数据和HDFS分布式文件系统的无缝对接。将处理后的日志数据导入Hive数据仓库,利用HQL进行离线数据的统计和分析,完成优质内容判定,实现传统优质内容随机推荐和热门推荐。
软件架构: Flume+HDFS+MapReduce+Yarn+Hive+Sqoop+MySQL
项目职责: 参与产品需求分析,技术方案选型
数据处理:
Flume日志数据采集, Json数据解析;
MapReduce数据清洗、有效数据过滤、HDFS分布式文件系统存储
Hive指标统计及报表生成
Sqoop报表导出与Mysql数据导入
Shell脚本编程及自动化部署
数据分析:
离线报表:
视频单日播放总量、视频单日播放排名统计
视频单日评论数,视频历史总评论数统计
视频单日得分,视频历史总得分统计
2016.10-2017.5
游戏日志分析平台
研发人员
项目描述:为了更好地实现游戏推广策略,优化游戏玩家体验,为游戏产品的运营和研发等提供数据参考, 游戏服务器会对触发重要事件的用户行为进行埋点并记录日志。通过对产生的大量日志数据进行离线分析和 在线处理从而实现用户行为的多维度指标统计。该项目基于游戏日志,主要统计指标有新增玩家,活跃玩 家,玩家留存率,玩家流失率,游戏平均时长,游戏频次,充值数据。
软件架构: Flume+Kafka+HDFS+ Spark Core +Spark SQL+ Yarn + Spark Streaming+Redis+MySQL
项目职责:
数据采集: 自定义Flume组件递归从以日期格式命名的日志目录中采集游戏日志文件至Kafka集群;
数据处理: 拉取Kafka中预消费数据,完成数据清洗,过滤有效数据;
数据分析:
1、离线分析:
DAU/WAU/MAU等离线指标统计,生成玩家总体粘度分析报表;
渠道分析、媒体分析、自然流量分析等,优化游戏广告投放策略;
新增用户、活跃用户、玩家留存率、累计用户等离线指标统计,改进产品运营策略;
2、在线报表:
收入金额、充值人次、各地区收入、各渠道收、分性别收入、各年龄段收入等实时监控运营情况;
系统特色:
Ø 自定义Flume Source实现项目中日志文件递归监控和采集;
Ø Spark Streaming直连Kafka手动维护并校验偏移量避免数据重复消费;
2017.6-2017.12
精准广告推送系统
研发人员
项目描述:结合现有的视频搜索引擎、视频观看界面和个性化应用设置以及用户历史数据信息,追踪、研究 用户偏好,通过技术手段获取、挖掘用户上网行为、浏览习惯。结合DSP广告投放引擎日志数据,构建 DMP(Data-Management Platform),将分散的多方数据进行整合纳入统一的技术平台,对用户数据进行 标准化和细分,最终实现标签化管理,为实现广告精准投放提供数据支持。在自有视频平台进行广告投放的 基础上,参与其他交易平台广告实时竞价与投放,充分实现数据的商业价值。
软件架构:Flume+Kafka+Zookeeper+Spark SQL/Core+Spark Streaming+Spark GraphX +HDFS+HBase+Redis
项目职责:
数据采集: 自定义Flume组件采集Redis溢写到磁盘上的日志文件至Kafka/HDFS集群;
数据处理: 日志数据切分、封装,完成数据清洗,过滤有效数据
数据分析:
1、离线分析:
地域分析、终端设备分析、渠道分析、媒体分析等多维度统计广告投放情况;
用户画像及用户数据标签化, APP标签,商圈标签,关键字标签等,构建、完善公司知识库;
Spark GraphX图计算完成统一用户识别及上下文标签合并,实现用户标签归一化;
HBase存储用户当日及历史标签数据,实现用户特征权重值衰减;
用户历史标签数据导出HBase及ElasticSearch数据导入,为广告投放引擎提供检索数据;
2、在线报表:
广告展示量、点击量、点击率、参与竞价数、竞价成功数、广告消费等报表生成;
Redis存储及前端可视化展示;
系统特色:
Ø 自定义Flume组件TailFileSource实现日志文件Offset记录及断点续传;
Ø Spark Streaming直连Kafka手动维护偏移量并校验偏移量避免数据重复消费;
Ø 数据清洗完毕采用KryoSerializer压缩体量更小传输更快速;
Ø 离线数据转Parquet列式存储降低IO负载,提高扫描性能;
Ø GeoHash结合百度逆地理位置编码,明确用户活跃商圈范围;
Ø Spark GraphX图计算提高用户统一识别及上下文标签合并精确度;
自我评价
认真细致,可以静的下心专心做事。责任心较强,对于布置下来的任务认真对待。
比较善于沟通,时刻注重 学习,具有较强的学习能力与团队精神。
工作踏实,能很快的适应新的工作环境,工作勤奋,能吃苦耐劳,抗压能力强 。 热爱学习与分享,喜欢研究新事物,爱好读书游戏游泳。
【使用锤子简历小程序制作简历】
零经验实习简历模板
21254人用过
学生求职简历模板
52754人用过
申请研究生简历模板
2324人用过
经典工作简历模板
6254人用过
投行咨询简历模板
12465人用过
产品经理简历模板
7532人用过
程序员简历模板
7457人用过
留学英文简历模板
4554人用过