锤子简历品牌推广师
spark研发工程师求职简历模板范文案例
作者:锤子简历 2020/03/02 23:15:00
阅读 775

求职意向

spark研发工程师 全职 北京 15K-20K 1周内到岗

教育背景

2008.9-2012.7  中山大学  通信工程

职业技能

熟练掌握Scala语言,熟悉函数式编程,熟悉Java面向对象编程;

理解Spark工作机制,熟练掌握Spark任务的执行流程,熟练使用Spark Core算子;

掌握Spark Streaming的流式处理技术,对流式数据在线处理分析以及对出现的问题进行排查,性能调优; 

掌握利用Spark SQL进行数据处理、查询、统计,拥有一定SparkSQL调优经验;

理解Hadoop的分布式文件系统HDFS,Yarn资源调度机制,掌握MapReduce原理及Job提交流程,实现编码; 

熟悉Hive的工作原理,了解数据仓库建立,完成对数据主题抽取和多维分析,具有一定Hive调优经验;

熟练使用Redis内存数据库,分布式列式存储数据库HBase及MySQL数据库;

熟练使用Sqoop工具,实现非关系型数据库与关系型数据库表数据互导;

掌握Flume数据采集工具的原理,实现流式数据的过滤和分析,自定义Source实现日志采集过程中的偏移量维护;

熟悉分布式消息系统Kafka集群搭建,熟练使用Kafka直连方式实现消费数据偏移量的手动维护和校验;

熟悉分布式协调系统Zookeeper集群搭建,了解Zookeeper的主从选举机制(paxos)

熟悉Linux基本操作,以及Shell脚本编写;

熟悉HTML、XML、JavaScript、jQuery、Bootstrap、E-charts等前端技术;

熟悉MyBatis 、Spring、SpringMVC等后端开源框架;

熟练使用Git、Maven等项目版本管理及项目构建工具;

熟练阅读英文技术文档;

实习经历

2015.9-2016.2

Arecy LLC

数据分析实习

参与项目需求分析,协助制定方案; 与客户商讨,帮助客户理解项目,给出建议; 维护核心用户群; 做一些简单的数据统计分析工作。

工作经历

2016.3-2016.7

StupidVideos

大数据开发工程师

2016.9-2017.5

SWARM Digital Agency

数据开发

2017.6-2017.12

河南省聚思信息科技有限公司

spark开发工程师 

项目经验

2016.4-2016.7

优质内容分析系统

研发人员

项目描述:提取公司产品视频平台上视频的单日播放日志数据,根据业务需求,制定日志数据的采集策略,完成日志中无效数据预处理,实现分析数据和HDFS分布式文件系统的无缝对接。将处理后的日志数据导入Hive数据仓库,利用HQL进行离线数据的统计和分析,完成优质内容判定,实现传统优质内容随机推荐和热门推荐。

软件架构: Flume+HDFS+MapReduce+Yarn+Hive+Sqoop+MySQL

项目职责: 参与产品需求分析,技术方案选型

  数据处理:

Flume日志数据采集, Json数据解析;

MapReduce数据清洗、有效数据过滤、HDFS分布式文件系统存储

Hive指标统计及报表生成

Sqoop报表导出与Mysql数据导入

Shell脚本编程及自动化部署

 数据分析:

    离线报表:

视频单日播放总量、视频单日播放排名统计

视频单日评论数,视频历史总评论数统计

视频单日得分,视频历史总得分统计

2016.10-2017.5

游戏日志分析平台

研发人员

项目描述:为了更好地实现游戏推广策略,优化游戏玩家体验,为游戏产品的运营和研发等提供数据参考, 游戏服务器会对触发重要事件的用户行为进行埋点并记录日志。通过对产生的大量日志数据进行离线分析和 在线处理从而实现用户行为的多维度指标统计。该项目基于游戏日志,主要统计指标有新增玩家,活跃玩 家,玩家留存率,玩家流失率,游戏平均时长,游戏频次,充值数据。

软件架构: Flume+Kafka+HDFS+ Spark Core +Spark SQL+ Yarn + Spark Streaming+Redis+MySQL

项目职责:

   数据采集: 自定义Flume组件递归从以日期格式命名的日志目录中采集游戏日志文件至Kafka集群;

   数据处理: 拉取Kafka中预消费数据,完成数据清洗,过滤有效数据;

   数据分析:

     1、离线分析:

DAU/WAU/MAU等离线指标统计,生成玩家总体粘度分析报表;

渠道分析、媒体分析、自然流量分析等,优化游戏广告投放策略;

新增用户、活跃用户、玩家留存率、累计用户等离线指标统计,改进产品运营策略;

     2、在线报表:

收入金额、充值人次、各地区收入、各渠道收、分性别收入、各年龄段收入等实时监控运营情况;

   系统特色:

      Ø 自定义Flume Source实现项目中日志文件递归监控和采集;

      Ø Spark Streaming直连Kafka手动维护并校验偏移量避免数据重复消费;

2017.6-2017.12

精准广告推送系统

研发人员

项目描述:结合现有的视频搜索引擎、视频观看界面和个性化应用设置以及用户历史数据信息,追踪、研究 用户偏好,通过技术手段获取、挖掘用户上网行为、浏览习惯。结合DSP广告投放引擎日志数据,构建 DMP(Data-Management Platform),将分散的多方数据进行整合纳入统一的技术平台,对用户数据进行 标准化和细分,最终实现标签化管理,为实现广告精准投放提供数据支持。在自有视频平台进行广告投放的 基础上,参与其他交易平台广告实时竞价与投放,充分实现数据的商业价值。

软件架构:Flume+Kafka+Zookeeper+Spark SQL/Core+Spark Streaming+Spark GraphX +HDFS+HBase+Redis

项目职责:

   数据采集: 自定义Flume组件采集Redis溢写到磁盘上的日志文件至Kafka/HDFS集群;

   数据处理: 日志数据切分、封装,完成数据清洗,过滤有效数据

   数据分析:

     1、离线分析:

地域分析、终端设备分析、渠道分析、媒体分析等多维度统计广告投放情况;

用户画像及用户数据标签化, APP标签,商圈标签,关键字标签等,构建、完善公司知识库;

Spark GraphX图计算完成统一用户识别及上下文标签合并,实现用户标签归一化;

HBase存储用户当日及历史标签数据,实现用户特征权重值衰减;

用户历史标签数据导出HBase及ElasticSearch数据导入,为广告投放引擎提供检索数据;

     2、在线报表:

广告展示量、点击量、点击率、参与竞价数、竞价成功数、广告消费等报表生成;

Redis存储及前端可视化展示;

      系统特色:

        Ø 自定义Flume组件TailFileSource实现日志文件Offset记录及断点续传;

        Ø Spark Streaming直连Kafka手动维护偏移量并校验偏移量避免数据重复消费;

        Ø 数据清洗完毕采用KryoSerializer压缩体量更小传输更快速;

        Ø 离线数据转Parquet列式存储降低IO负载,提高扫描性能;

        Ø GeoHash结合百度逆地理位置编码,明确用户活跃商圈范围;

        Ø Spark GraphX图计算提高用户统一识别及上下文标签合并精确度;

自我评价

认真细致,可以静的下心专心做事。责任心较强,对于布置下来的任务认真对待。

比较善于沟通,时刻注重 学习,具有较强的学习能力与团队精神。

工作踏实,能很快的适应新的工作环境,工作勤奋,能吃苦耐劳,抗压能力强 。 热爱学习与分享,喜欢研究新事物,爱好读书游戏游泳。

内容来源说明:本文章来自网络收集,如侵犯了你的权益,请联系QQ:2772182309进行删除。