spark研发工程师求职简历模板范文案例-锤子简历

首页 > 软件支持> spark研发工程师求职简历模板范文案例

分享
定制

spark研发工程师求职简历模板范文案例

作者：锤子简历 2020/03/02 23:15:00

阅读 912

求职意向

spark研发工程师 全职 北京 15K-20K 1周内到岗

教育背景

2008.9-2012.7 中山大学通信工程

职业技能

熟练掌握Scala语言，熟悉函数式编程，熟悉Java面向对象编程；

理解Spark工作机制，熟练掌握Spark任务的执行流程，熟练使用Spark Core算子；

掌握Spark Streaming的流式处理技术，对流式数据在线处理分析以及对出现的问题进行排查，性能调优;

掌握利用Spark SQL进行数据处理、查询、统计，拥有一定SparkSQL调优经验；

理解Hadoop的分布式文件系统HDFS，Yarn资源调度机制，掌握MapReduce原理及Job提交流程，实现编码;

熟悉Hive的工作原理，了解数据仓库建立，完成对数据主题抽取和多维分析，具有一定Hive调优经验；

熟练使用Redis内存数据库，分布式列式存储数据库HBase及MySQL数据库；

熟练使用Sqoop工具，实现非关系型数据库与关系型数据库表数据互导；

掌握Flume数据采集工具的原理，实现流式数据的过滤和分析，自定义Source实现日志采集过程中的偏移量维护；

熟悉分布式消息系统Kafka集群搭建，熟练使用Kafka直连方式实现消费数据偏移量的手动维护和校验；

熟悉分布式协调系统Zookeeper集群搭建，了解Zookeeper的主从选举机制（paxos）

熟悉Linux基本操作,以及Shell脚本编写;

熟悉HTML、XML、JavaScript、jQuery、Bootstrap、E-charts等前端技术；

熟悉MyBatis 、Spring、SpringMVC等后端开源框架；

熟练使用Git、Maven等项目版本管理及项目构建工具;

熟练阅读英文技术文档；

实习经历

2015.9-2016.2

Arecy LLC

数据分析实习

参与项目需求分析，协助制定方案；与客户商讨，帮助客户理解项目，给出建议；维护核心用户群；做一些简单的数据统计分析工作。

工作经历

2016.3-2016.7

StupidVideos

大数据开发工程师

2016.9-2017.5

SWARM Digital Agency

数据开发

2017.6-2017.12

河南省聚思信息科技有限公司

spark开发工程师

项目经验

2016.4-2016.7

优质内容分析系统

研发人员

项目描述：提取公司产品视频平台上视频的单日播放日志数据，根据业务需求，制定日志数据的采集策略，完成日志中无效数据预处理，实现分析数据和HDFS分布式文件系统的无缝对接。将处理后的日志数据导入Hive数据仓库，利用HQL进行离线数据的统计和分析，完成优质内容判定，实现传统优质内容随机推荐和热门推荐。

软件架构： Flume+HDFS+MapReduce+Yarn+Hive+Sqoop+MySQL

项目职责：参与产品需求分析，技术方案选型

数据处理：

Flume日志数据采集， Json数据解析；

MapReduce数据清洗、有效数据过滤、HDFS分布式文件系统存储

Hive指标统计及报表生成

Sqoop报表导出与Mysql数据导入

Shell脚本编程及自动化部署

数据分析：

离线报表：

视频单日播放总量、视频单日播放排名统计

视频单日评论数，视频历史总评论数统计

视频单日得分，视频历史总得分统计

2016.10-2017.5

游戏日志分析平台

研发人员

项目描述：为了更好地实现游戏推广策略，优化游戏玩家体验，为游戏产品的运营和研发等提供数据参考，游戏服务器会对触发重要事件的用户行为进行埋点并记录日志。通过对产生的大量日志数据进行离线分析和在线处理从而实现用户行为的多维度指标统计。该项目基于游戏日志，主要统计指标有新增玩家，活跃玩家，玩家留存率，玩家流失率，游戏平均时长，游戏频次，充值数据。

软件架构： Flume+Kafka+HDFS+ Spark Core +Spark SQL+ Yarn + Spark Streaming+Redis+MySQL

项目职责：

数据采集：自定义Flume组件递归从以日期格式命名的日志目录中采集游戏日志文件至Kafka集群；

数据处理：拉取Kafka中预消费数据，完成数据清洗，过滤有效数据；

数据分析：

1、离线分析：

DAU/WAU/MAU等离线指标统计，生成玩家总体粘度分析报表；

渠道分析、媒体分析、自然流量分析等，优化游戏广告投放策略；

新增用户、活跃用户、玩家留存率、累计用户等离线指标统计，改进产品运营策略；

2、在线报表：

收入金额、充值人次、各地区收入、各渠道收、分性别收入、各年龄段收入等实时监控运营情况；

系统特色：

Ø 自定义Flume Source实现项目中日志文件递归监控和采集；

Ø Spark Streaming直连Kafka手动维护并校验偏移量避免数据重复消费；

2017.6-2017.12

精准广告推送系统

研发人员

项目描述：结合现有的视频搜索引擎、视频观看界面和个性化应用设置以及用户历史数据信息，追踪、研究用户偏好，通过技术手段获取、挖掘用户上网行为、浏览习惯。结合DSP广告投放引擎日志数据，构建 DMP（Data-Management Platform），将分散的多方数据进行整合纳入统一的技术平台，对用户数据进行标准化和细分，最终实现标签化管理，为实现广告精准投放提供数据支持。在自有视频平台进行广告投放的基础上，参与其他交易平台广告实时竞价与投放，充分实现数据的商业价值。

软件架构：Flume+Kafka+Zookeeper+Spark SQL/Core+Spark Streaming+Spark GraphX +HDFS+HBase+Redis

项目职责：

数据采集：自定义Flume组件采集Redis溢写到磁盘上的日志文件至Kafka/HDFS集群；

数据处理：日志数据切分、封装，完成数据清洗，过滤有效数据

数据分析：

1、离线分析：

地域分析、终端设备分析、渠道分析、媒体分析等多维度统计广告投放情况；

用户画像及用户数据标签化， APP标签，商圈标签，关键字标签等，构建、完善公司知识库；

Spark GraphX图计算完成统一用户识别及上下文标签合并，实现用户标签归一化；

HBase存储用户当日及历史标签数据，实现用户特征权重值衰减；

用户历史标签数据导出HBase及ElasticSearch数据导入，为广告投放引擎提供检索数据；

2、在线报表：