欢迎访问信息侠官方网站!

行业新闻

解析CIFS| 江苏昆山农商银行刘磊:元数据分析的应用
2024-10-14
各位领导、首先解释一下,我们杨总因为行程有冲突,今天没来,由我代替他讲一下我们元数据分析,我在数据管理部主要做整个数据中台产品,做产品经理,跟大家介绍一下。

我今天讲的主题是元数据知识图谱这块,在我们农商行元数据是我们中台的核心,中台中的其他模块均围绕元数据进行设计的。我们所谓中台智能推荐的东西,全部都是基于元数据分析出来一些图谱进行应用的。首先我从三个点说一下,首先说一下我们现在遇到的痛点;接下来说一下知识图谱实践的方式以及它的作用;最后说一下我们知识图谱的应用。

01痛点分析

先说一下痛点。讲下数据管理、数据分析方面、应用开发方面的痛点。

首先数据治理方面,大家对于监管的考核特别是EAST、一表通,不知道一表通大家有没有报,江苏一表通每天都在报送,所以对这块的数据治理首先涉及到就是数据对标、核标,难以保证对标的准确性和一致性,还有系统关系模型的设计资料存在表、字段、外键缺失,难补充,补充后又难于核对。

数据开发方面,手工进行开发,自行分析表间关联关系,开发要求比较高,而且能力这方面可能一两年工作经验还做不了这个事,所以对这块人员成本投入比较多,降本难。

数据管理方面,现在大家都在做数据资产盘点,盘点的数据如何清晰的展示,如何展示资产间的血缘关系、如何了解资产的使用情况等数据管理比较难。

还有数据开发过程中,开发的mapping怎么管它、脚本怎么管,具体的管理实操上比较难的。还有作业方面,现在大家所有作业少说有几万个作业在跑,作业之间的关系,包括作业每天跑批遇到的问题怎么解决它,这些作业关联关系、先后依赖等,这块工作也很复杂的。

针对上述问题,我们农商昆山这边从元数据分析去入手,通过数据获得数据的特征、码值、关联等,形成知识图谱,让数据说话,为业务赋能。

字段级图谱完善数据治理,实现字段标准智能推荐;表级知识图谱,自动推荐表间关联关系,辅助数据开发快速建模;血缘关系图谱理清数据加工链路,做好数据管理。

02图谱实现方式及作用

下面阐述下三张图谱实现方式及作用。

元数据构成数据中台的核心动力

元数据作为数据中台建设核心,先说一下元数据这块。

第一,我们对元数据做数据特征的探索,实现数据探查,辅助数据资产盘点;

第二,构建数据元特征库,辅助完善数据质量的规则库,丰富整个数据质量校验这块规则。我们分析出来一些数据问题,特别是在几百万行数据里面找出一行数据异常问题的时候,靠人工找可能不太好找,通过元数据分析,做了一些元数据的本身层面数据分析,就可以很容易发现这条数据的问题,提高基础数据治理落地能力。

第三,字段级知识图谱可以实现数据资产快速归类,做数仓建模的时候,根据定义好模型字段自动选择底层表,从而实现数据模型分析开发。

第四,字段级图谱还有一个作用,我们现在要求数据安全管控,数据安全管控其实最有力的是现在对安全的分类分级,安全分类分级大家常用的做法是一个字段一个字段的盘点,人工确认它放在哪一类,安全级别是什么。我们现在中台里面做的时候,是对标准进行定义和安全登记划分,数据开发时对源字段进行对标,这样做不用逐个字段的分级分类了,还可保持数据安全管控的一致性。

第五,构建整个数据开发关联关系推荐,数据开发用到的两张表、三张表,它们之间关系是什么样的,可以系统自动推荐,不让你自己找它。

第六,血缘分析实现数据问题的快速定位。

通过元数据分析构建三张知识图谱

接下来我们T具体说下三张图谱:

表级知识图谱

首先说一下表级知识图谱。表级知识图谱是以表作为分析的数据节点,突破系统边界,分析表与表之间的关系,最终形成表与表之间的关系图谱,表与表之间的关系为外键关系。

这个分析我们是通过抽样数据,直接以数据方式抽样一部分,分析它的关联关系,再拿全量数据做验证。表与表的关系加载到图数据库中供数据开发、数据治理、数据安全、数据资产、数据服务等功能使用。也可以用于分析出信息孤岛表,作为数据入仓或者入湖信息决策。这张表要不要入湖、要不要入仓,大家也不知道它使用的频度,粗暴地将一两万张表一股脑全部加载的话,对大家的工作量是有所增加的。如果系统自动推荐你,哪些表可以入,哪些表不用入,这个时候工作量可以减少很多。

字段级知识图谱

其次是字段级知识图谱。以字段作为分析的数据节点,突破表的边界,分析字段与字段之间的关系,最终形成字段与字段之间的关系图谱。

通过数据分析的相关属性信息作为图谱点的属性信息,用于分析数据的属性特征,用于指导数据标准的落地、数据标准的核对等。

通过数据分析得到的字段之间的关系,作为图谱的点与点之间的关系,关系包含函数依赖关系、相等关系、同名关系、等价关系、外键关系等用于指导数据开发、数据模型构建、数据质量分析、数据标准验核、码值转换、数据字段名称识别等。

数据血缘图谱

最后是数据血缘。读取线上化开发的开发成果(即作业mapping信息,并转换为血缘信息)。线上化开发后直接把mapping入表,入表之后可以转换它的血缘,mapping里面信息包含了数据加工的sql信息和作业信息,这些信息结构化存储在Mapping三张表中。通过这三张表把数据开发过程态的东西全部管控起来,形成数据血缘。

表/字段关系图谱实现过程

表级或字段级关系图谱是如何实现的呢?

首先我们是做了一些特征识别,分析数据类型、最小长度、最大长度、平均长度、是否定长、是否可空、是否包含中文等,通过这些分析再做属性识别,包含函数依赖关系、码值信息、默认值、自增序列、技术分类等。根据函数依赖关系等信息完成主键识别,根据特征和属性信息进行数据过滤,通过数据和哈希比较得出跨系统外键关系,最终识别跨系统共享的数据和系统内部共享的数据之间的关系,形成了表级或字段级知识图谱。

03图谱应用场景
图谱构建后,我们如何应用这些图谱呢?

第一,利用表关系图,补充基础关联。特别以前建设比较久的系统,它的PDM信息有缺失,对缺失的信息通过人工一个个核很难,每家行大概有几百套系统,涉及的表更多了,涉及的字段非常大。读取数据库模型中的表信息,并检查表关系图谱中是否含有外键关系。根据系统编号判断表和字段是否存在缺失的问题,并进行补充。判断数据库模型中是否缺失外键关系,并向数据库模型中增加外键关系。这样做极大的减少了人工工作量。

第二,利用表关系图,辅助数据开发。刚才也说数据开发一般要求你会做模型,大概需要有五年的工作经验。现在我们通过线上化智能推荐,辅助开发,降低数据开发的门槛。现在招个实习生培训一星期就可以让他上手做数据开发这块。这个界面就是中台现代化开发界面,我们提出三态概念,解决现在大家数据开发没有数据测试,解决测试难的问题。以前的测试环境是将生产数据脱敏导入测试环境进行测试的,数据严重发散。我们提出三态概念后,让大家开发的时候就能够拿到真实数据测,测试的时候也可以用真实数据验证。

第三,利用表关系图,辅助自助取数。在自助取数界面,业务人员可以通过读取数据资产系统的资产清单。业务人员选择需要的表和字段后,一键补充join关联方式,无需业务人员理解表的含义,只需要业务人员知道资产的意义就可以实现数据分析。通过限定关联关系,有效防止用户在不了解数据的情况下造成的笛卡尔积,增强了系统的可靠性,同时也可以通过数据标准的传统实现动态的数据脱敏。

第四,利用字段关系图,辅助数仓主题建模。通过指定一部分表,会将字段级知识图谱中对应的表和字段进行主题划分,寻找业务主键,比如客户号、机构号、产品号等,初步确定主题。对主题之间的关系进行剪枝,并合并掉过小的业务主题。最后输出数据主题清单。

第五,利用字段关系图,辅助数据质量检查。对于字符类型尝试解析是否符合如数值、日期等类型,当绝大部分数据符合时,将少部分不符合的值取出;对于长度多大或过小的异常值,找出长度异常值;找出默认值和全空值的字段;找出缺失码值定义的字段。这些校验形成数据质量检查规则。

第六,利用字段关系图,辅助数据标准制定。通过主题划分,快速区分字段业务域,方便数据标准制定人员确定业务类型,比如字段在对私客户号的主题域内,则标准应注意添加<对私客户>定语。通过字段知识图谱,确定数据关联关系,以便数据标准制定人员上下级标准定语的描述,比如属于对私客户和信贷主题域内,需要注意添加<对私信贷客户>定语。

第七,利用血缘关系图,辅助影响性分析。通过前端页面选择一张表、一个字段或者一个作业。通过血缘图的路径查询,可视化展示下游查询到一张表、一个字段或者一个作业的完整下游影响范围。通过按钮可以下载当前查看的对象的影响性分析EXCEL清单。

第八,利用血缘关系图,辅助溯源分析。通过前端页面选择一张表、一个字段或者一个作业。通过血缘图的路径查询可视化展示查询到的一张表、一个字段或者一个作业的完整上游来源。通过按钮可以下载当前查看的对象的溯源分析EXCEL清单。

第九,利用血缘关系图,理清作业依赖关系。读取血缘关系,获取作业间的依赖关系。根据依赖的上下游顺序,配置调度作业依赖。使用调度服务或者根据使用程序根据作业的依赖关系,计算作业并行方式,优化调度顺序。

我们行的数据中台建设,从2021年开始一直建设到现在,形成了数据开发流水线,构建了一套三态理念,我们在这方面已经申请成功授权了5项专利。如果大家有兴趣的话,可以私下再聊一下。

谢谢大家!


扫一扫微信二维码

随时了解信息侠微报资讯


扫一扫手机端二维码

随时了解信息侠微报资讯

Copyright @ 2018-2019 信息侠一站式数字化转型交流分享平台  版权所有 皖ICP备19006839号-1

上海申馥文化传媒有限公司

安徽申馥商务咨询有限公司

安徽申馥企业服务有限公司

地址:安徽合肥望江西路西湖国际广场D座2345室   网址:www.xinxixia.cn

电话:021-34121111     0551-64388008


友情链接: 安徽省经济和信息化厅 |  江苏省经济和信息化厅  |  浙江省经济和信息化厅  |  上海市经济和信息化委员会  |  四川省经济和信息化厅 |  中华人民共和国工业和信息化部 |  小牛网络 |