2025-03-18大家好,我叫王烨,来自金赛药业,我的题目比较大,主要是分享我们在大数据建设过程中的经验以及实践的理论,所以今天我给大家讲一下我们的一些经验。
我们金赛大数据起步比较晚,2022 年下半年开始启动,用了大概一年半时间,从零到一搭建了一个按照互联网标准的整个数据中台,把数据从数据接入到数据治理、应用,在全公司做了推广。目前整个数据涵盖面非常大,我们目前接近 5000 人体量使用这个数据,每天查看数据的人数也很多。另外,刚才大家也谈了新时代数字资产概念的出现以及 AI 大模型的出现,其实我们也在构思未来整个大数据的发展方向,我们总结了以下几点:
金赛大数据建设思考方向
第一,刚才同事也讲了,大数据有一个很重要的点,能够帮助我们业务系统做一些大量计算,保证数据流畅运行,提升运维效率。
第二,因为现在集采整个行业面临的压力比较大,所以我们未来要思考如何打通整个公司的业务端数据和财务端数据,构建盈利模型,帮助公司老板把账算明白,以便根据整个业务模式的变迁,调整自己的业务方向。
第三,整个数字化核心在于如何让员工参与进来,使数字化成为员工的数字化,这是今天讲的重点。
第四,另外我们要思考如何降低开发成本,大家知道大数据无论是人力成本还是硬件成本都非常高,在这个过程中我们要思考如何提升数据开发效率。
第五,在大模型新兴时代,如何给大模型提供高质量数据,尤其非结构化数据,包括语音、图片,我们要思考如何给它们提供这些数据。
第六,数据资产。在使用数据过程中让数据变现,形成数据资产。
数据技术架
针对这六个方向,我们也对数据架构做了新调整。传统的我们基于结构化数据构建的数据结构,包括数据计算,这个模式引入两块内容:
第一,关于非结构化数据的管理,包括图像、音频,我们在这个过程中其实也将其未来纳入很重要的治理范畴。因为现在整个数据治理这一块,其实刚刚兴起,并没有一个非常明确的治理范式,它不像我们结构化数据,从数仓建设、数仓架构设计到数据治理范式,包括对元数据管理等等都有非常标准的内容。但是现在我们在非结构化数据治理这一块,没有很好的参考,我们也在摸索,包括分析完数据如何做设计,如何像结构化数据一样做零售化的治理,这些都是我们目前所遇到的难题。
第二,在数据资产沉淀方面,我们也将其纳入到技术架构里面。未来我们会构建一个数据资产平台,前提是我们在融合结构化和非结构化数据基础上开发应用,然后再沉淀资产,后续我们可能会做一些资产入表等动作。
数据/知识中台产品架构
针对我们这个基础架构,所以我们在产品形态上也做了一些规划。借助目前主流大数据架构,构建了一个底层计算平台。中层(治理层面)我们建立了完善指标体系,满足公司各个场景的应用。上层建立了各种一站式数据门户,比如报表平台、取数平台等等。这样我们在此基础之上,能够更好服务于业务场景。在这个过程中,明年重点会做一些关于知识方面的治理,我们这边也会开发一些产品,包括我们知识治理流程平台、问卷存储平台等等,会像治理结构化数据一样,把整个非结构化数据平台也纳入进去。
还有一个重要的点,目前这个企业在合规方面,其实也面临很大的风险,所以我们这边把合规维度也纳入产品线里面,比如我们在整个数仓建设过程中,我们会特意留出一块,把整个合规数仓搭建起来,对整个数据做分级管理,不同职级的人看到的数据是不一样的。
下面,我结合一下公司场景,聊一下我们在整个数据化过程中如何让业务使用数据的经验。在很多企业过程中,大家都会面临一个困境。
业务场景1:数据填报
第一,比如我们在建系统的时候,不可能所有的领域和部门都能涉及到,像我们新业务发展特别快,你没办法去给它建一个固定系统让它去管理自己的数据。
第二,像很多药企本身系统都是采购的,它直接串联,也是一个难题。如果你开发一个重的系统,其实不划算。但是你不串联,业务用起来也是有问题的。
第三,有些业务单元小没办法开发这个东西,还有就是数据安全等级高,我们没法去做表单。结合这个场景,我们自己开发了一个补录平台。这个补录平台就是针对这些场景来做的。过程中大家可以根据自己的需求自定义表达,让大家的数据能够填到里边。另外也支持上传、接口对接等等,这样我们能够让一些没有能力去建数据系统的部门,它能够很好把数据管理起来。我们补齐了能力的缺陷,所以让整个数据能够在完整性方面有一个保障。目前我们建完之后,上线半年以来我们建了 100 多个表单,由业务自己构建,并进行数据管理。
业务场景2:指标管理
很重要的一个指标管理,其实大家也知道我们在建完数仓之后,无论是构建了 DWD,还是 DWS,实际上业务人员在使用的时候,还不是很清楚这些指标是什么含义。通常模式肯定在与他们对接的过程中,我们互相去了解,你对这个指标是怎么理解,或者对方需求是什么,我们可以根据需求再开发,包括设计哪些维度,其实业务人员可能对这些维度没有清晰认知。为了解决这个问题,我们构建了一个指标平台。做这样一个指标市场,在这个市场中业务人员可以看到每个指标是怎么来的。比如引用的数据源或者业务场景是什么,这样业务人员在与我们沟通过程中,对于这些指标维度包括哪些,就能很清晰地知道自己想要的东西是什么。在帮助业务构建模型的时候,其实可以减少很多工作成本。
业务场景3:自助分析/取数
还有一个很重要的点是指标统一,公司很多部门对一个指标的定义是不一样的。我们通过这个指标市场,大家可以看到这个指标,这样能够保证指标是统一的。指标我们建完之后,下一个场景就是我们怎么应用。业务在用的过程中,现在大家也知道药企数字化人力是非常缺的,怎么能够让开发的数据大量铺向业务,这是目前很多企业面临的场景,其实我们也面临同样的问题。我们从 2020 年起,数字化推进速度节奏非常快。我们为了解决这个问题,我们搭建了一个自主取数平台,通过指标平台的构建,在指标平台构建了大量数据集,让业务通过自主取数平台和指标平台联通之后,业务根据自己需求构建自己分析看板报表,这样可以缓解自己数字化团队的压力。
业务场景4:Chat BI
毕竟我们自主取数还是需要有一些数据思维,包括开发比较简单的 SQL 脚本还是有一些小的门槛。但是我们为了能让没有任何技术储备的人也能够用上这个数据,所以我们也在启动研究 Chat BI,目前我们有一个先发优势。
第一,目前我们把公司所有业务系统已经与数据中台做了集成。
第二,我们已经建了一个很好的指标平台,我们在此基础上构建 Chat BI(交互式 BI)方式,可以满足大家平时想看数据,或者没有能力获取数据的场景。
业务场景5:知识管理
还有一个场景关于知识管理,这也是目前我们受到业务需求最多的一个场景。在整个过程中遇到一些难题,比如知识散落在各地,有的可能在员工的电脑里面,我们没法共享。员工离职之后,这个文档就没人管理了,也没有权限和权能管理。另外也没有治理,其实大家在用的过程中也不知道这个文档质量如何等等。基于这些,我们目前正在做一些这方面的工作。首先我们搭了一个存储平台,把整个公司文档汇集到一个地方,目前我们已经收集 100 多 T 数据。在此基础上,我们后续会搭建一个治理平台。刚才前面也讲了,我们把整个知识做一些分类,打标签,做一些质量治理,做一些后续应用等等。整体上我们基于这上面 5 个场景,核心问题是我们要在数字化过程中让业务参与进来。只有通过这样的手段,我们才能把整个数据数字化推得更彻底一些。
业务价值
我们这边做完这个事情之后,整个公司数据业务目前非常庞大。从最高层到下面代表部门各个体系员工,目前大家都有自己的看板。通过看板来管理自己的日常行为,目前公司这边已经做了一些普及。另外,我们的开发效率得到了提高,成本也得到了有效控制,我们形成这样一个体系之后。因为所有数据集、指标我们都建好了,我们在看板配置的时候很快。有时候大家提个需求,可能几分钟就完事,配上去就可以用了。我们在知识中台基础上也做了一些 AI 应用,包括合规机器人等等,我们也是在做这一块工作,持续把我们整个数据中台、AI 平台,包括这几个平台一起为公司数字化赋能。
谢谢!

扫一扫微信二维码
随时了解信息侠微报资讯

扫一扫手机端二维码
随时了解信息侠微报资讯
Copyright @ 2018-2019 信息侠一站式数字化转型交流分享平台 版权所有 皖ICP备19006839号-1
上海申馥文化传媒有限公司
安徽申馥商务咨询有限公司
安徽申馥企业服务有限公司
地址:安徽合肥望江西路西湖国际广场D座2345室 网址:www.xinxixia.cn
电话:021-34121111 0551-64388008