项目背景
随着公司大数据相关业务的发展,公司组建了专业的大数据分析部门,负责基于大数据平台的数据挖掘、数据分析和数据建模工作,结合电力行业业务需求,实现数据分析成果与业务场景的紧密结合,切实解决了大量客户现场的业务问题,并基于大数据预测分析模型,提出许多合理化建议改进方案,实现设备故障和窃电问题的预测判断,有效提升了客户现场作业效率,提升电力计量业务的精益化管理水平。
但是在大数据项目的方案制定、分析建模过程中,部分数据的导入导出、清洗处理工作需要手工完成,工作内容重复,占用大量人员时间,并且不同的项目运维需要专人负责,无形中增加了人员的投入。
现有大数据团队人力资源有限,可支撑项目范围无法快速扩张,不能够有效发挥团队优势。
另外在技术积累和扩展方面,也需要有一套基础支撑平台,能够支撑大数据分析技术的不断深入探索,在提供大数据分析技术支撑的同时,形成可延续的技术积累,逐渐形成大数据技术的沉淀,为公司未来在大数据方面的发展打下坚实基础。
02
项目目标
为了加强公司对大数据、人工智能等前沿技术的研究和实践,构建一套基于大数据项目的应用集成框架,解耦数据分析流程和业务应用流程,支撑分析算法的模块化和深入化,积累核心技术的经验和成果,提高项目中的公共组件占比,降低开发和运维成本。
系统建设按照完善性、易用性、稳定性原则,需要达到以下5个目标:
1.为数据分析人员提供分析建模工具,支撑大数据项目的全流程分析管理;
2.为业务人员提供数据治理工具,更好地支撑样本模型训练;
3.简化分析过程,调整团队成员的分工合作方式;
4.固化既有的分析成果;
5.复用已有的分析技术、形成技术积累和沉淀。
03
总体架构
基于大数据分析建模工作管理过程,构建标签化数据分析系统,总体结构如下:
源数据层:系统可支持多种类型的关系型数据库及非关系型数据库作为数据分析来源,包括MySql、Oracle、MongoDB及其他大数据平台的数据。
数据中心:对源数据进行汇集整理后,基于ODS和DW构建数据中心仓库,进行初步的筛选、汇总和统计。
数据集市:在数据中心基础上,构建数据集市,实现数据特征集的定义,并实现分析结果的持久化存储。
分析层:通过大数据计算平台生成业务数据的特征集,供标签计算层生成业务标签使用,针对不同的业务场景,采用不同的分析算法进行数据挖掘,确定分析指标,构建分析模型,并实现标签化管理和场景分析。
在标签化分析管理基础上,对外提供服务能力支撑,包括多维数据展示、文件报表生成、对接第三方系统等,为各系统业务应用提供数据支撑。
数据流转及核心技术应用如下图:
04
系统功能
标签化数据分析系统主要包括标签计算管理和数据服务管理两方面
1.标签计算管理
分析系统提供给数据分析开发人员数据分析、处理、特征工程、建模、部署的全流程开发框架。
区别于市面上的数据分析挖掘软件,标签化分析系统不仅提供了主要的数据处理和建模的代码实例,也提供了以主题为核心的数据分析案例管理功能。
方便用户快速实现同类型数据分析开发的迁移工作。
标签计算管理服务主要通过:主题管理、标签管理、和模型管理模块来实现。
(1)主题管理描述了数据分析案例的应用特点,包括涉及了哪些指标,特征集以及指标与特征之间的关系。
通过主题管理,用户可以对各网省电力计量领域内形成独特的主题性认识,如专项工作主题、课题研究主题、质量提升主题与电力计量领域电能表、集中器、台区等子领域主题。
方便数据分析开发人员快速开展开发工作。
(2)分析系统中的数据处理和特征工程等实例统一采用标签指代的形式进行管理。
通过标签管理功能,用户可以对特征集、标准表之中的特征进行再处理,针对特性化特征进行处理,分为枚举、分类分段、直接读取标签规则。
(3)模型管理,实现了对分析师与大数据工程师算法、模型、计算逻辑,以及版本迭代管理,还实现了自定义算法、简易算法功能,解放分析师代码管理混乱,版本迭代管理复杂的难题。
更是帮助分析师突破py模型与PySpark模型的运行难点。
2. 数据服务管理
标签化数据分析系统为数据分析应用提供大数据计算支撑。
解决了用户人员部署难、维护成本高等实施难题。
数据服务管理开放了数据管理、工程管理、数据预览和数据发布模块,满足数据应用开放人员的各种大数据计算配置需求。
(1)数据管理实现了对特征集的维护、创建,用于固化特征与新增特征,实现了对各网省电力计量领域内形成独特的特征集分析。
如特征大类:电能表,特征小类:基础属性、管理表现、外部环境等分类分析。
(2)工程管理主要实现任务的创建、执行、终止操作、启动功能。
采用有向无环图 DAG(Directed Acyclic Graph)对计算任务进行编排,提供任务启停控制、历史任务查询、任务状态查看以及任务流定时执行功能,实现对计算任务生命周期的管理
(3)数据预览模块给开发人员提供查询数据表和特征集的窗口。
一方面帮助用户快速建立对于数据的直观认识。
另一方面提供潜在的数据分析报表生成入口,辅助业务分析人员开展决策工作。
(4)数据发布模块通过数据归集、数据分发、数据中心、配置映射关系、发布数据的流程对系统计算出的数据进行发布和推送。
05
实施案例
标签化分析系统是一个大数据项目的应用集成框架,解耦了数据分析流程和业务应用流程,支撑分析算法的模块化和深入化,积累核心技术的经验和成果,提高项目中的公共组件占比,降低开发和运维成本,目前已经在多个大数据分析建模项目中得到推广应用:
1.在国网公司的智能反窃电项目中,基于标签化数据分析系统,构建反窃电分析模型,实现对窃电用户的精准排查,并建立了数据、模型共享的反窃电知识库,形成技术知识积累,为提升反窃电工作效率打下坚实基础。
2.在计量库存资产精益管理项目中,为计量资产的库存分析、数据治理工作提供高效的数据管理工具,为一线库存管理人员的清仓利库、库存盘点工作提供有效支撑。
3.在计量资产管控策略研究项目中,基于标签化数据分析系统的数据服务管理能力,构建资产管控分析模型,根据业务需求,制定特征集,制定数据管理和样本训练任务,进行模型训练,并实现分析结果数据的发布和推送。
【使用锤子简历小程序制作简历】
零经验实习简历模板
21254人用过
学生求职简历模板
52754人用过
申请研究生简历模板
2324人用过
经典工作简历模板
6254人用过
投行咨询简历模板
12465人用过
产品经理简历模板
7532人用过
程序员简历模板
7457人用过
留学英文简历模板
4554人用过