基于 Informatica 的数据质量设计在数字供电中的应用
基于 Informatica 的数据质量设计在数字供电中的应用
文/刘叶
摘要:某省电力部门在信息化建设与运行的过程中,为了让主网生产系统、EMS系统的基础数据维护单位及时了解基础数据在业务系统中的完整、准确性以及跨系统之间的数据一致性情况,利用数据质量提供的数据,拼接成统一的电网模型,提供给管理人员全方位的电网全景分析和应用。本文阐述了主网生产系统与EMS系统的电网模型比对方法,以及通过 ETL 工具 Informatica PowerCenter 及正则表达式等实现的效果。最后,根据实际数据分析出取得的效果及待改进之处。
【关键词】电网模型 模型比对 ETL 数据质量
1 数字供电项目应用背景
某省电力部门信息化建设经过多年发展,围绕电网设备和电网生产已经形成了主网生产、EMS、配网生产和GIS等应用系统,为主配网生产、管理提供了较大支持。针对同一个物理设备,不同的应用系统根据业务部门的需要进行相关的数据建模和数据录入,比如生产系统维护设备相关的生产数据,EMS或GIS维护设备在电网中的拓扑数据,同时由于各应用系统建设时间、开发厂商不同,造成系统间技术实现、应用架构、数据库平台、数据编码等方面的异构性。随着该电力部门围绕设备数据应用的深度和广度不断增加,单一系统的数据已经不再可以满足需要。围绕该省电网设备,通过基于统一模型的信息集成已经非常有必要。随着主网生产系统和营配一体化系统在该省的推广和实用化,已经具备一定的数据基础。设备数据的一体化非常符合电网信息化建设方向以及智能电网的发展趋势。
2 数据质量与数字供电项目的交互
图1主要说明数据质量在整个数字供电项目中的支撑作用,是由主网系统和EMS系统对比成功后的数据提供给数字供电项目使用,包括SVG图转换,统一模型裁剪台账树,向WEBGIS提供实时数据查询。
(1)SVG 图 转 换: 把 SVG 图 中 的SCADA_ID替换成对应数据的主网MIP_ID。
(2)统一模型裁剪台账树:对省公司上传比对成功的节点,使之满足整棵树的连通性。
(3)向 WEBGIS 提供实时数据查询:取 SCADA_ID 和 MIP_ID,以 MIP_ID 来查询实时数据。(实时数据库中存放的是SCADA_ID)。
3 数据质量的设计与实现
3.1 主网与EMS系统模型的比对方法
主网与EMS系统模型的比对规则的制定首先依照数据唯一性和准确性的原则,另外规则需简练无冗余以保证执行效率,如Disconnector(刀闸)的数据比对仅需变电站名和刀闸编号即可得出,无需增加电压等级或间隔名称等冗余规则。根据以上原则,在基于informatica的基础上,使用相关正则表达式[4],可分析出主网与EMS系统模型的比对方法下:
(1)Bay(间隔): 变电站+间隔编号。
(2)Line(线路): 电压等级+名称。
(3)Substation(变电站): 变电站名称+#号变压器名。
(4)VoltageLevel(电压等级区域): 变电站名称+电压等级。
(5)Breaker(断路器): 变电站名+开关编号。
(6)Disconnector(刀闸): 变电站名+刀闸编号。
(7)BusbarSection(母线): 站名+ 电压等级+母线名。
3.2 数据质量比对的实现
基于以上的方法通过ETL工具Informatica PowerCenter来进行数据抽取、清洗、处理和比对等。Informatica PowerCenter 是 Informatica 公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。Informatica PowerCenter使用户能够方便地从异构的已有系统和数据源中抽取数据,用来建立、部署、管理企业的数据仓库,从而帮助企业做出快速、正确的决策。在 Informatica PowerCenter 中,依此通过建立ODBC、映射、流程和定时执行计划后,即可依据一定的规则从主网生产系统和EMS系统中分别抽取中对应设备的数据,进行处理后整理成数字供电应用项目所需的数据。
3.3 数据质量一致率提升处理机制
数据一致率提升处理机:由部门专责在发现问题,软件公司针对这些问题找出处理办法,并将处理办法反馈到专责处,再由专责与相关业务部门协调,进行数据整改,在此过程中,反复检查数据整改是否符合规范,最后跑informatica流程,为其它系统提供最为准确的数据。
3.4 数据质量对比结果
主要完成九个主要对象数据对比,俊工验收对于九个对象的平均对比效率要求为85%左右。
功能验收阶段:
(1)Breaker( 断路器 ):主网为 11553,SCADA为11863,比对一致数为11156,一致率为96.56%。
(2)Line( 线段 ):主网为 610,SCADA为670,比对一致数为489,一致率为80.16%。(3)Busbarsection( 母 线 段 ): 主 网 为1221,SCADA为1824,比对一致数为361,一致率为29.57%。
(4)Disconnector( 隔 离 开 关 ): 主 网为 14059,SCADA 为 17094,比对一致数为11597,一致率为82.49%。
(5)Grounddisconnector(接地隔离开关):主网为17670,SCADA为19029,比对一致数为14827,一致率为83.91%。
(6)Substation(变电站):主网为248,SCADA为248,比对一致数为246,一致率为99.19%。
(7)Bay( 间隔 ):主网为 6624,SCADA为 16282,比对一致数为 6119,一致率为92.38%。
(8)Voltaglevel( 电 压 等 级 ): 主 网 为550,SCADA为2941,比对一致数为538,一致率为97.82%。
(9)PowerTransformer(变压器):主网为1363,SCADA为1415,比对一致数为1186,一致率为87.01% 。
通过一致率提升机制,数据质量较之以前有了显著的提高,统计如下所示:
(1)Breaker( 断路器 ):主网为 11641,SCADA为11801,比对一致数为11224,一致率为96.42%。
(2)Line( 线段 ):主网为 610,SCADA为557,比对一致数为489,一致率为89.41%。(3)Busbarsection( 母 线 段 ): 主 网 为1232,SCADA为1471,比对一致数为1052,一致率为85.39%。
(4)Disconnector( 隔 离 开 关 ): 主 网为 14058,SCADA 为 13241,比对一致数为11465,一致率为86.59%。
(5)Grounddisconnector(接地隔离开关):主网为17726,SCADA为18069,比对一致数为14851,一致率为85.78%。
(6)Substation(变电站):主网为249,SCADA为248,比对一致数为246,一致率为99.19%。
(7)Bay( 间隔 ):主网为 7243,SCADA为 16052,比对一致数为 6700,一致率为92.50%。
(8)Voltaglevel( 电 压 等 级 ): 主 网 为552,SCADA为2942,比对一致数为538,一致率为97.46%。
(9)PowerTransformer(变压器):主网为1363,SCADA 为 1178,比对一致数为 1115,一致率为94.65% 。
通过以上数据可以看出数据质量得到了明显的提高,证明本文提出的数据处理机制是行之有效的,这种思路可以应用于任何行业来处理数据质量问题。
4 总结
本文主要是通过Informatica PowerCenter等工具实现了主网和EMS系统模型比对,基本达成主网电网模型比对的目的,与此同时发现了在电网模型比对过程中的源系统数据质量问题,如:调度不规范命名、罗马数字与字符数字交替使用、无效数据没有及时处理等,解决这些问题后将更有效提升电网模型数据比对率,从而促进数字供电项目的应用效果。
参考文献
[1]广东电网公司 广东电网公司数字供电集成应用 2011
[2]广东电网公司 2010年数据质量提升计划实施方案 2010
[3] 侯晓静 , 苑津莎 , 李中 , 徐良燕 基于 SVG 的电网WebGIS实现方案[J],电力系统通信 ,2006,27(163):41-46.
[4] 李旻,陈和平 正则表达式在数据库查询中的应用[J],计算机工程与设计 ,2006,27(12):2303-2305.
[5]胡波 电网业务系统数据质量管理平台的设计与初步实现 2010
作者单位
广州科腾信息技术有限公司 广东省广州市 510656
本站论文资源均为来自网络转载,免费提供给广大作者参考,不进行任何赢利,如有版权问题,请联系管理员删除! 快速论文发表网(www.ksfbw.com)本中心和国内数百家期刊杂志社有良好的合作关系,可以帮客户代发论文投稿.
投稿邮箱:ksfbw@126.com
客服Q Q:
82702382
联系电话:15295038833
本站论文资源均为来自网络转载,免费提供给广大作者参考,不进行任何赢利,如有版权问题,请联系管理员删除!
文章评论
共有 0 位网友发表了评论