与数据同行

其他

数据网格到底是什么,它真的能替代数据仓库和数据湖吗?

数据网格概念由扎马克·德赫加尼提出,她在2019年的开创性文章《如何从单一数据湖转向分布式数据网格》中指出:“传统的集中式数据管理模型无法适应快速变化的业务需求,而数据网格通过分布式的方式管理数据,允许业务部门拥有并管理其数据,同时通过标准化的API和自助服务平台实现跨部门的数据共享。”2022年,德赫加尼的著作《数据网格:大规模交付数据驱动的价值》(Data
2024年9月19日
其他

傅一平:论数据中台的“倒掉”

最近,朋友圈被"数据中台倒掉"的言论刷屏。有文章称《数据中台即将消亡,取而代之的是数智基建》,《Gartner分析:中国数智基建将取代传统数据中台》。这些观点引发了广泛讨论,但我认为其中不乏扯谈之处,这里给出我的思考和看法,大家耐心看完。一、"数据中台消亡论"的由来关于数据中台消亡的文章,多数引用了Gartner的一份报告。该报告是2023年发布的中国数据分析和人工智能技术成熟度报告。Gartner分析师在报告中将数据中台置于"泡沫破裂低谷期"。主要观点包括:1、技术问题:数据中台的传统架构和技术可能迅速过时。2、效益问题:数据中台建设和维护成本高昂,但效益不够明显。3、架构问题:数据中台的集中化难以应对不断变化的业务需求。然而,也有反驳的声音。例如,彭总在《美国公司叨逼叨,中国公司自乱阵脚—论数据中台的“倒掉”》一文中提出:1、数据中台已进入决策层视野,多个省市的"十四五"规划都提到了数据中台(比如调研中大家都提到了70%企业在建数据中台,其中一半属于跟风,但这个数字反倒佐证了数据中台在国内得到了很大发展)。2、数据中台概念本身具有深远意义,可以衔接前台业务和后台技术,推动组织和架构优化(这让我想到了当年大数据刚出来的时候提到的蜜蜂模型:蜜蜂的效益主要不是自己酿的蜂蜜,而是传粉对农业的贡献)。3、外国分析师对中国情况了解有限,连翻译都自相矛盾,咱们就没必要跟风,妄自菲薄了。二、数据中台概念的演变理性讨论数据中台,首先需要在定义上达成共识,否则争议就没有意义。让我们回顾一下数据中台概念的演变:2015年
2024年9月9日
其他

美国公司叨逼叨,中国公司自乱阵脚—论数据中台的“倒掉”

彭友们好,我是老彭。这两天有彭友跟我说,数据中台又倒掉了。彭友圈都在传一篇踩数据中台的文章,标题很抓人眼球,又是“数据中台即将消亡”,又是要被“数智基建取而代之”。嗯?为什么要说又?怎么特么技术圈也玩PUA这一套么?搞什么拉踩?数据领域好容易出一个中国提出的概念,这帮人就这么恨不得数据中台倒掉?老彭是实用主义者,就算是看小说也要看爽文,获得一些情绪价值。但是这类文章一点信息增益都没有,纯粹的“负面话题”。哪怕你挑一些数据中台的毛病,提点建设性意见也行啊,啥也没有,纯浪费我5分钟。今天老彭就来扒掉老外的底裤,让大家瞧瞧都什么德行。数据中台与Gartner的技术曲线前文所述的“Gartner:数据中台即将消亡”的说法援引自Gartner在2023年中国数据分析和人工智能技术成熟度报告。在这个成熟度曲线里,Gartner分析师把数据中台放在了泡沫破裂低谷期。注:搞笑的是很多文章里引用Gartner的图片都是错的就是上图。而且还特意标注“未成熟即面临淘汰”。请注意,这里Gartner的数据中台翻译为Data
2024年9月6日
其他

傅一平:2024年我的私人书单(上)

2024年一直在通过AI进行专业学习,占据了我几乎所有的业余时间。但缺点就是,AI太冰冷了,少了很多趣味。有时候会问自己,学习到底是为了什么?当然是为了让自己活得更好,无论是工作上的,生活上,身心上的。因此,我还是会去读些有温度的,治愈类的书籍,算是对冲一下。这里推荐上半年读过的TOP
2024年9月2日
其他

看不见的咒语,我如何让ChatGPT发挥出最大的价值?

使用ChatGPT已经一年半有余,陆续写过几篇使用GPT心得的文章,如下所示:没有读不懂的书,ChatGPT让我的理解力提升了1000%!我用ChatGPT搞懂GPT技术原理,只问了30个问题,这是极致的学习体验!问了ChatGPT
2024年8月26日
其他

谈谈我关于数据资产入表的看法

现在大家都在提数据资产入表,这个事情意义很大,但由于横跨数据和财务两个领域的知识,不少人估计看不明白,或者说要彻底理解这个事情比较困难。今天就把这个事情的why和how讲讲清楚,我会结合案例尽量浅显易懂的表达,主要包括七个方面的内容:数据资产入表的重要性数据资源的会计处理原则数据资产入表的会计处理难点数据资源的分类及特点不同数据资源确认为资产的方法财务报表列示与披露无法入表的数据资产管理策略一、数据资产入表的重要性在谈数据资产入表的具体方法之前,我先给大家看个案例,了解下为什么其对很多公司这么重要。假设有两家电子商务公司:数据资产入表公司(DAC)和传统会计处理公司(TAC)。基本假设:两家公司的收入、运营成本和其他费用完全相同数据资产的摊销期为5年每年的数据相关支出中,60%符合资本化条件(对于DAC公司)所得税率为25%以下是三年的详细财务数据:第一年:收入:5亿元
2024年8月19日
其他

基于AI大模型的数据治理

来源:数据学堂在大模型时代,数据治理变得尤为重要。随着大数据技术的不断发展,数据规模呈爆炸式增长,数据来源也日趋多样化。如何有效地管理和利用这些数据,成为了企业和社会关注的焦点。本文将探讨在大模型下如何进行数据治理。一、什么是大模型?大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。大模型的原理是基于深度学习,它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数,使得模型能够在各种任务中取得最佳表现。通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高等。很多先进的模型由于拥有很“大”的特点,使得模型参数越来越多,泛化性能越来越好,在各种专门的领域输出结果也越来越准确。一个基本架构,三种形式:当前流行的大模型的网络架构其实并没有很多新的技术,还是一直沿用当前NLP领域最热门最有效的架构——Transformer结构。相比于传统的循环神经网络(RNN)和长短时记忆网络(LSTM),Transformer具有独特的注意力机制(Attention),这相当于给模型加强理解力,对更重要的词能给予更多关注,同时该机制具有更好的并行性和扩展性,能够处理更长的序列,立马成为NLP领域具有奠基性能力的模型,在各类文本相关的序列任务中取得不错的效果。根据这种网络架构的变形,主流的框架可以分为Encoder-Decoder,
2024年7月17日
其他

IT管理者的自白:技术让我坐上了会议桌,但业务语言让我在桌前有发言权

前段时间跟几位IT界的朋友聊天,谈到了IT人员用业务语言阐述技术概念的重要性,感同身受。回来梳理思路,撰万字长文一篇。一、引言想象这样一个场景:
2024年7月15日
其他

终于有人把数据资产目录给讲清楚了

1、数据资产的定义和分类中国信息通信研究院在其发布的《数据资产管理实践白皮书》中将数据资产定义为"企业拥有或者控制的,能够为企业带来现实或潜在经济利益的数据资源"。这个定义强调了数据的所有权和经济价值,这在数据交易日益活跃的中国市场尤为重要。在实践中,我们通常将数据资产分为以下几类:结构化数据:如员工信息、财务报表,存储在关系型数据库中。半结构化数据:如日志文件、XML文档,有一定的组织结构。非结构化数据:如邮件、合同扫描件,占企业数据的80%以上。另一种常见的分类方法是基于数据的来源和用途:内部数据:企业自身生产的数据,如销售记录。外部数据:从第三方获得的数据,如社交媒体评论。主数据:描述业务实体的核心数据,如客户、产品信息。事务数据:记录业务活动的数据,如订单、支付记录。为了更便于识别,根据数据资产的定义,再根据企业业务特点总结企业自身的数据资产性质。可参考如下:有价值,数据要能直接或间接给企业带来价值和效益,价值不能局限于金钱价值,还可以包括品牌、信誉、社会影响力等无形价值。能管控,企业内部数据肯定是能管控的,还包括能进行管控的外部数据,比如第三方数据、上下游企业的相关的数据、市场数据。有记录方式,除了电子方式的数据,一般容易忽略物料记录方式,比如纸质表单。还需要注意,如果有些数据还没有通过电子或物料的形式记录下来,但确实满足其他特征的,需要识别进来并要增加措施将其通过电子或物料形式记录下来。需识别,并非所有数据都要识别,首先不满足上述特征的不应该被识别,其次可以抓主要矛盾,重点识别重要程度高、使用频次高的。2、数据资产盘点传统意义上的资产盘点是指对资产进行定期清点,以确定各种财产在一定时间的实存数。数据资产盘点则是对企业拥有的数据进行清点,已确定企业当前拥有的数据。数据资产盘点将帮助企业弄清以下问题:企业有多少数据?企业有哪些数据?企业的数据价值如何?企业的这些数据分布在什么地方?最有价值的数据存储在什么位置?企业数据的归属和责任人是谁?下面介绍数据资产盘点的方法和步骤,主要归纳为6个阶段:构建数据标准、数据发现、数据定义、分类分级、明确归属、数据资产目录。3、数据资产目录架构关于数据资产目录的架构建立,可参考业务流程架构,如果企业还没有建立流程架构,可以按企业业务板块,形成数据资产架构的最上层——数据主题域,比如研发或IPD主题域、营销或LTC主题域、人力资源主题域。再从流程或业务流中识别和归纳数据主题域的下一层——数据域。数据域一般是核心业务流程的按阶段点或流程功能模块,比如价格管理、商机管理、合同管理、供应商管理。再下一层是具体的业务对象,承载业务运作和管理业务的重要信息,是业务领域涉及到的重要的事、物、人。比如客户基本信息、报价单、产品数据。业务对象下一层是对业务对象进行描述的数据项,一般也称之为数据实体,比如报价信息、机会点信息、合同信息。而且一般每个信息都包括两个数据项表头信息(出货单表头)和内容信息(明细行),反映数据信息实体的最小粒度。最下一层是数据属性,是用来描述数据项的维度信息、属性信息和数据特征信息,反映数据管理的最小粒度。数据资产目录是数据架构的基础,它列出了企业所有的数据资产,包括数据的来源、类型、格式、用途等。数据资产目录有助于企业清晰地了解自身的数据资源,为数据的利用和管理提供依据。4、如何建立数据资产目录自定义的数据资产目录模板,将数据按照层级结构汇总,检查和完善数据属性,经过评审确认形成企业数据资产目录。一旦有新的业务流程、新的业务系统、新的流程表单,以及涉及数据的变更时,需要及时更新数据资产目录。数据资产目录是数据管理层面的输出,如果需要进一步将数据资产在应用系统或数据平台管理落地,再结合数据结构、表结构、数据存储的物理层级,形成数据字典。数据资产目录主要是面向业务人员和数据管理人员,数据字典一般面向数据管理人员和开发实施人员。下面是数据资产目录实例:L1~L2业务数据主题域下面以最常见的研发和营销数据主题域为例,实例如下:(1)研发数据主题域(2)营销数据主题域5、如何建立数据资产目录数据资产目录管理包括目录维护及目录安全权限管理,目录应用场景有数据资产的可视化应用、数据资产目录服务、数据分析应用场景等内容。数据资产目录主要有如下
2024年7月12日
其他

主数据如何成就业务?深入剖析与实际应用

想象一下,你正在经营一家跨国连锁咖啡店。每天,全球数千家门店都在使用你的品牌,制作相同的饮品,为客户提供服务。但是,你突然发现一个问题:纽约的"拿铁"和东京的"拿铁"配方似乎不太一样。更糟糕的是,你的线上菜单和实体店菜单显示的价格不一致,导致顾客困惑和抱怨。这就是缺乏有效主数据管理(Master
2024年7月8日
其他

数据治理:一文讲透元数据

想象一下,你是一名考古学家,在广袤的沙漠中发现了一座失落已久的古代城市。每一块石头、每一片瓦片都可能隐藏着关于这个文明的无尽信息。然而,所有的文物和遗迹都散落一地,没有任何标记和说明。你能破解这些谜题,重现这座城市的辉煌吗?在现代数据驱动的世界中,我们面对的挑战类似于考古学家。这座“古代城市”就是我们庞大的数据存储库,而“元数据”则是解开这些数据奥秘的关键线索。元数据不仅是数据的“数据”,更是理解数据、管理数据和赋予数据价值的核心。元数据的重要性不言而喻,它能提高数据的可发现性、支持数据分析、确保数据质量,并在数据交换和互操作性中发挥关键作用。在这篇文章中,我们将深入探讨:通过具体的案例和详细的图表,您将全面了解元数据在现代企业中的重要作用,以及如何通过有效的元数据管理,解锁数据的真正价值。1、元数据的定义和重要性1.1
2024年7月2日
其他

详解大厂实时数仓建设

状态拉起,如果出现了一些不符合预期的场景,我们会做离线的整体数据修复。第二个是时效性保障。针对数据源,我们把数据源的延迟情况也纳入监控。在研发阶段其实还有两个事情:首先是压测,常规的任务会拿最近
2024年6月28日
其他

数据资产入表流程

摘要:随着大数据、云计算和人工智能等技术的发展,企业产生的数据量呈指数级增长。这些数据不仅包括传统的交易数据,还涵盖了用户行为数据、社交媒体数据等非结构化数据。数据资产的入表,即把数据作为资产纳入企业的财务报表,是企业对数据价值认识的体现,也是对数据管理能力的一种提升。上一文介绍了哪些数据可以成为数据资产,详细参考文章《哪些数据可以入表,并作为公司资产?》本文继续介绍数据资产入表的流程。数据资产入表的数据形态变化数据资产入表过程数据资产入表过程设计的法律法规和相关服务01—数据资产入表的数据形态变化数据的形态变化2023年8月1日,中国财政部发布了《企业数据资源相关会计处理暂行规定》(以下简称《暂行规定》),标志着我国企业数据资源正式纳入会计报表的序幕。随后,在同年12月31日,财政部又发布了《关于加强数据资产管理的指导意见》,进一步明确了对入表数据资产的管理要求。尽管产业界和学术界在过去十年中对数据相关术语进行了深入讨论,但关于数据的定义至今仍未达成共识。在全国范围内,包括上海、重庆、深圳、厦门等地区在内的数据条例,通常将数据定义为“以电子或其他方式记录信息的任何形式”。中国信息通信研究院在对数据进行深入分析后,认为数据是“对客观事件的记录,存储在媒介上的可识别符号,是对客观事物的性质、状态以及它们之间的相互关系进行记录的物理符号或符号组合,是一种客观存在的资源”。国际数据管理协会(DAMA)则从数据的功能角度出发,将数据定义为“以文本、数字、图形、图像、声音和视频等格式表现事实的实体”。数据从数据变化成资产过程中经历的形态变化如下图所示:数据原矿:在企业生产生活系统中源源不断产生的所有原始数据称为数据原矿。也是我们在Dama中定义的原始数据,包括以文本、数字、图形、图像、声音和视频等格式的数据。数据资源:将数据原矿经数据资源化的过程可以形成数据资源,数据资源化过程包括数据存储、数据治理、数据加工等操作。数据资源包括数据集,数据产品,数据服务等。在数据原矿基础上,经过数据资源化,可以形成数据集类型的数据资源。进一步结合业务场景,通过再加工的方式,可以进一步形成数据产品(如平台、应用程序等)、数据服务等形态的数据资源。数据资源用好理解的方式解释即为数据集(整理好的数据表)、从数据集发布的API服务,以及基于数据集上开发的数据产品(APP,saas软件、BI软件等)数据资产:数据资源经过了合法拥有确认、成本计量、经济利益流入的判断后成为数据资产。
2024年6月26日
自由知乎 自由微博
其他

实战1年半,我总结的大模型在企业落地的三个策略

最近一周在公司总部参加大模型培训,之后总部组织了参培人员的交流发言,让大家谈谈大模型产品在省侧落地应用和AI人才发展的意见和建议。下面是我重新组织的当时的发言内容,共提了三个建议,主要是自己在做大模型过程中的一些反思。1、第一个建议,就是做大模型,一定要以业务导向,选择有主动意愿,一把手推动力很强的的业务部门来合作。去年以来我们做了不少大模型,例如ChatBI,ChatOA等,但都不能算成功。然而,在个别场景中,如公文核稿方面,还是取得了一定进展,这主要得益于业务部门的主动推动。目前,靠IT部门独立去推动大模型研发、建设和应用,难度还是很大的,而且不少工作非IT所长。近期我们在推财务的智乎大模型,由财务部一把手主推,全省上百号好财务人员共同参与测试,1周提的问题数就超过3000个,这样我们跟业务的交互非常频繁,模型的按周迭代就真的能做起来,现在准确率做到了90%左右,离实用已经比较接近了。在做财务的智乎大模型过程中,我们发现最有价值的工作恰恰是那些看似笨拙、但却朴实无华的工作,特别是要重视FAQ的完整搜集,然后去做针对性的提升,这样会事半功倍。例如,为每个地市设立一个独立的向量库,就能很大程度解决大模型水土不服的问题,但如果没有业务人员持续的反馈这个问题,我们不会将其列入大模型的优化列表。但要让业务部门帮你做大规模测试,并且要持续很长一段时间,代价其实很大,这个极大依赖业务部门一把手的认识、主动的意愿、实际资源的投入和业务部门的创新文化,比如我们财务部门还专门搞了劳动竞赛来驱动这个事情,这真是莫大的支持。同时,我们公司的业务重点跟业界的普遍关注点可能有所不同,因此在场景选择上更需要业务的牵引,不能跟风,更要抑制技术上的冲动,因为我们的资源有限。当然,必要的亮点还是需要,但做盆景的和做风景的,还是要区分开。2、第二个建议,考虑到当前受限的开源大模型能力,我们还是要从小做起,要努力寻找最合适的,最细分的业务切片场景。做企业的垂类模型,开始的时候,一定是场景越细越好,从当前的生产流程中去嵌入,先要做到+AI,再考虑AI+,这个主要受限于我们当前的数据能力和开源基础大模型的能力,场景越细,对数据和开源模型要求越低,准确率就越可能达到商用的水平。什么叫场景越细越好呢?举个例子,比如做智能办公,这个题目太大了,我们其实是做不动的,可以找一个细分赛道,例如文档核稿,但这个还是太粗,可以再细分为通用字纠错、专业名词纠错、叠词纠错等类别,然后针对每个细分类别建独立的模型,这样大模型的构建难度就降下来了。我们现在特别需要在一个点上获得突破,建立起信心,然后才能玩下去,积累了足够的经验后,再考虑模型的泛化和通用性。为什么先期不建议去做通用性比较大的领域模型呢?比如ChatBI,因为我们企业的业务特性太明显了,大模型理解不了企业的领域术语。我们前期在做ChatBI,发现难度很大,一个核心问题就是领域的语义理解。比如我问ChatBI:“杭州分公司的武林网格各渠道的放号情况如何”,这个大模型能回答,但一线去测试时,问:杭分的武林网格渠道的放号情况如何,大模型就理解不了了,因为“杭分”是我们业务部门对杭州分公司的简称,大模型是无法理解的。类似的问题就太多了,比如公司分管领导,业务支撑中心主任,力量大厦,和教育,亲情网,诸如此类,这些专有名词都具有明显的领域特点,基础大模型无法理解。理论上,我们做领域大模型,第一步是选择一个基础大模型,然后基于行业术语做一个行业大模型,然后在行业大模型的基础上再去做领域大模型,但现在我们往往是从基础大模型一步跨域去做领域大模型,但没有行业大模型的基础,没有行业语料的积淀,领域大模型的效果很难让一线满意,因此需要画大量的时间去微调,而微调大多也是领域语料的问题。例如,为了做ChatBI,我们要把公司数据分析领域的业务术语,指标口径都搜集一遍,整理好了,才有可能做出一个真正可用的ChatBI,但这种基础性工作,现在是没人做的,或者没有人体系化的去做。因此,大多情况下,一个资源有限的大模型项目团队很难做出产品级的ChatBI,退而求其次,它只能去做一个及其细分的数据分析场景,把这个细分场景的语料尽可能搜集清楚,让大模型重新理解特定场景语境,从而做出正确的推理,即TXT2SQL,这也是无奈之举。因此,大模型语料作为基础的生产资料,需要引起公司的高度重视,现在公司已经有所动作,我觉得是非常正确的方向,但关于语料集的构建,有三点建议:一要明确业务目标,无论是公开的,还是领域内的,至少要明确具体支撑哪类AI应用,跟哪个AI团队合作,否则容易做空,效果难以衡量。二要加强非结构化数据的技术研究和数据治理,语料这这种非结构化数据的处理解析,大多传统企业缺乏人才和技术储备,也缺乏实际处理经验。比如大模型中的RAG,最关键的是语料的向量化处理,涉及语料数据如何高效分词、检索结果优先级排序、向量数据库的自动化更新等等技术,这些对我们都是挑战。三是语料数据的处理和解析是苦活累活,工作量很大,前期很难看得到成绩,需要资源的保障和一定的激励。3、第三个建议,现在企业大模型人才什么都缺,但最缺的是AI产品经理,其次是语料工程师。AI人才规划是个系统性问题,涉及各类岗位,如AI架构师、AI项目经理、AI产品经理、算法工程师、数据科学家、数据工程师、平台工程师等。但企业内搞AI,不是为了研究,更不是为了发论文,目标就是为了做出有价值的、能有人买单的产品。个人认为,公司当前最缺的是AI产品经理。一个公司的最重要的产品经理可能就是各位领导和管理者。我自己做大模型的感觉就是,很多大模型问题不是靠单一的算法维度能暴力解决的(一方面开源大模型能力还不够,另一方面企业也没足够的资源)。例如,一线人员可能会提出模棱两可的问题,大模型再厉害也理解不了,但这类问题其实可以转化成产品设计的问题,然后巧妙的解决。在这个过程中,好的产品经理是关键。例如,我们在产品设计上,可以通过增加多轮问答和结构化确认过程来确保一线问题的完整性。同时因为AI产品涉及的要素特别多,除了算法、算力及数据,还包括需求、场景、架构、UI/UE等等。企业内一定要有人能把这些资源协同起来,盘活起来,但难点就在于这些资源在公司内还是按条线配置的。例如,CRM这边有产品经理,但数据工程师则大多在大数据团队。因此大模型也是需要治理的,组织保障是重中之重,需要让各个团队协同起来,发挥各自所长。还有一点就是我们以前的数据工程师都是跟着数据仓库成长起来的,擅长于做结构化数据的ETL和数据处理,但对于语料这种非结构化数据,明显缺乏技术储备和处理经验。我记得在做错别字纠正的时候,语料数据的准备就花了3个月,代价非常大。还有一次在做语料数据准备的时候,去隐私化太多,导致微调的效果非常差,这都是我们缺乏积累和经验造成的。后来我去研究了下,发现语料数据的处理其实是一个庞大的技术体系,至少包括公司语料数据的归集(含人财物等)、数据清洗(含去除重复文本、处理文本编码、拼写纠正等)、数据预处理(含分词、词形还原、词干提取、文本标准化等)、数据增强(同义词替换、随机插入、回译、噪声注入、数据扩充、生成对抗数据等)、数据标注(词性标注、命名实体识别、意图识别、主题标注等)及数据准备(语料分割、语料编码、语料补齐及语料存储等),当然还有针对大模型的提示词工程,这些全是朴实无华但对大模型至关重要的基础工作。在新的时期,公司需要培养新一代的数据工程师,大数据处理团队需要与时俱进,正如当年的数据仓库建模一样,语料数据的处理将成为数据工程师的核心竞争力。很多领导和同事都提到要加强人才引入和培养,我认为这很重要,但远水解不了近渴,我们需要在现有条件下去创造最有可能的实施条件,例如进行工作内容的结构性调整,当然这考验管理者的智慧。AI产品经理和语料工程师,由于对业务、数据的理解要求较高,一般还是需要公司自己培养。但数据科学家、算法工程师等岗位,由于技能的通用性,可以采取外部人才引入的方式解决。同时希望公司有个AI专家的共享复用机制,因为现在公司各个实施团队都在进行大模型应用的探索,碰到了大量的算法调优问题,比如幻象和RAG,现在只能靠本地找资源解决,效率很低。我们需要有一种集中化AI专家的市场化征调机制,就像合作伙伴做的那样。当然这可能涉及到市场结算啥的,但真能解决问题的专家,相信大家都愿意付钱。就讲这三点,谢谢大家!孙凝晖院士给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》
2024年6月24日
其他

上市公司“数据资产入表”全景图(2024Q1)

导言数据资产作为新的资产形态与价值来源,被寄予厚望。有预测显示,随着数据资产的入表,未来将会新增万亿级的资产规模。目前,季报已经结束,入表成果的第一个观察窗口到来,那么,哪一些上市公司和会计师事务所将会成为了第一批吃螃蟹的人呢?
2024年6月19日
其他

我整理的面向大模型的高质量语料集!

自己一直在做企业内部的垂类大模型,但随着运营深入,发现光有企业内部的领域数据还不足以微调出一个健壮的领域大模型,因为泛化能力比较弱。在领域数据中融入公共数据进行训练是公认的提升领域大模型泛化能力的方法,下面是我整理的面向大模型的六大类高质量语料集,共涉及20多个网上公开数据集(附有网址),希望对你有所帮助。一、文本数据集1、维基百科简介:免费的多语言协作在线百科全书,内容覆盖广泛,由志愿者社区编写和维护。用途:用于训练语言模型的基础知识库。链接:https://dumps.wikimedia.org/backup-index.html范例:Title:
2024年6月17日
其他

每个人都该提前想想失业了怎么办?

4806查看全部文章点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!
2024年6月11日
其他

数据治理:一文讲透数据标准

3年前自己写过一篇讲数据标准的文章《如何全面而深刻的理解数据标准?(理论+案例)》,但无论是体系化程度、分类方法的科学性、案例的详实程度等各方面都有很大不足。这次在AIGC的帮助下,我再写一篇,包括六个部分,如下所示,希望带给你全新的启示:第一部分
2024年6月3日
其他

数仓的建模和BI的建模有啥区别?

产品这是彭文华的第175篇原创我现在是真的认识到:一个好问题,胜过100篇回答。因为一个问题产生的原因,是因为他在理解事情的时候,对不上号,顺不起来啊。而为什么会产生问题,本身就是一个问题。比如这个:为啥会有这个问题?乍一眼看上去,这哥们是不是干活干傻了?BI(商务智能)的概念里本来就包含数据仓库的,BI的建模和数仓的建模有啥区别?不是一个东西么?你莫不是新新新新新新来的吧?嗯,没错,BI的确包含数仓,但是BI产品就不含数仓了。数仓负责建模,BI产品则提供固定报表、多维分析、驾驶舱等应用。我15年前刚工作的时候,就是这个逻辑了。那时候的BI产品,除了数据库,其他的功能都自带的,连ETL工具都自带。不过那时候数据仓库的产品不多,当时如日中天的是Teradata,巨贵无比。反而是BI产品大行其道,为了抢占市场,各大BI厂商不断增强自己的能力,ETL、任务调度、建Cube、做报表、数据展示能做的都做了。所以在绝大多数BI产品中,都设置了“主题建模”的功能,尽量减少数仓层面的依赖。15年后的今天,得益于开源理念,很多数据仓库产品不但免费,功能也不断强大。比如咱中国人开发并开源的Apache顶级项目-Kylin,就自带Cube。这个时候你就会发现,原来的Teradata就慢慢的没落了。所以,如果你现在去做BI项目的开发,就会发现很奇怪的事情:数仓这边要建模,这个毋容置疑。但是BI产品里,也会有一个“建模”。这不就让人头大了么?嘿嘿,开头这哥们说的其实就是BI产品里的“建模”模块和数仓中的“建模”工作之间的联系与区别。数据仓库建什么模?我之前写过好多数仓建模的文章,这里就偷个懒,复制几张图过来。数据仓库建模分为4个阶段:业务建模、领域建模、逻辑建模和物理建模。通常意义上来说,我们说的建模狭义上指的是“逻辑建模”。业务建模和领域建模跟业务关系比较紧密,通常会在最开始就完成了。而物理建模就是执行一下脚本,分分钟就搞定了,比业务建模和领域建模还快呢。而逻辑建模的时候,为了解耦,通常会把数仓进行分层设计。每一层的建模范式都不完全一样。比如:其实上面的图也不完全正确。在传统数仓建模的时候,DWS其实也是用维度模型建模的。宽表模型是大数据环境下的产物。啥?你问问建的模型长啥样?其实就是按照一定规则组合起来的一堆数据表。大致是这个德行的:因为长的像星星,所以叫星型模型。除此之外,还有雪花型、星座型、cube、宽表等等。我这里有一篇文章,写的很详细:【戳我查阅:一口气讲完数据仓建模方法】,你可以去参考一下。BI建什么模?前面说了,此BI非彼BI。群里提问的哥们问的不是“商业智能”那个BI,而是BI产品的“BI”。你想想,我们在数仓里建好模型了,不管是维度模型,还是宽表模型,还是Cube,然后呢?当然是得有一个地方把这些数据展示出来了,要不放在那里生崽儿么?这时候就轮到BI产品出马了。BI产品一端连着用户,另一端连着数据仓库。所以BI产品有一个巨大的任务,就是做业务和数据之间的翻译。这个时候就又轮到“建模”哥们出马了,在BI产品中,它是这个德行:这是永洪网站上截的图,帮他们打个广告,支持一下国产BI产品。这是QuickBi的说明,也是一个意思。这个业务和数据之间的翻译工作该咋做呢?其实还是维度建模,就是设置维度和度量了。然后加上各种的个性化操作,什么传入参数了、表间关联关系了、确定维度和度量了、添加过滤条件了,甚至还可以新增维度和度量,比如以年龄字段为基础,新增一个年龄段的维度。这些都是BI工程师做的偏业务的数据建模。建好模型之后,BI产品会把这些建模的信息保存好。当打开报表的时候,解析引擎会按照刚才建模的结果,解析成SQL语句,挨个执行。做各种查询、关联、传参、过滤,顺带则把新增维度、度量等操作也一并做了。最后把结果展示给用户。总结唉,不管是啥工作,都是一脑门子的官司,深究下去无穷无尽。数据仓库的建模,目的是把数据整理好,所以重点在于实体与实体之间的关系。按照组织关系分类,自然就有星型、雪花型、星座等模型,也有为了加速存在的Cube和大数据环境特有的宽表模型。BI产品的建模,目的是进行业务与数据之间的翻译。所以重点在于如何用现有数据满足业务的需求。于是就有了选择数据源、表间关联、传参、过滤、确定维度、确定度量、新增维度、新增度量等乱七八糟的操作。这两个“建模”本来就是一件事情,只不过一个侧重数据的逻辑建模,一个侧重于数据的业务建模;一个是在数据仓库阶段,一个是在数据业务输出阶段;一个目的是为了数据组织和存储,一个目的是为了数据的业务表达。解锁企业架构:漫画版TOGAF框架,让初学者也能游刃有余!
2024年5月29日
其他

数据架构:90%的人搞不清的事情

数据架构可以说是数据工作的蓝图,我以为数据架构有标准的定义和内涵,但翻遍全网,发现业界对数据架构的认识并不完全一样。考虑到数据架构对于数据工作的极端重要性,在研究了众多文献后,结合自己的真实经历,我这里给出全新版本的数据架构图,见下图,共包括6大模块。为什么会是这些内容?它们的具体内涵是什么?下面听我道来。一、传统数据架构定义1、DAMA数据架构识别企业的数据需求,并设计和维护总蓝图以满足需求,使用总蓝图来指导数据集成、控制数据资产、并使数据投资与业务战略保持一致。主要包括数据模型、数据流设计。2、华为数据之道数据架构是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。主要包括数据资产目录、数据标准、数据模型及数据分布。3、DCMM数据架构通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。4、Software
2024年5月27日
其他

傅一平:如何成为一名顶尖的数据管理专家?

关于如何成为一名数据管理专家,今天我就来谈一谈自己的认识,算是一个系统总结吧。1、进入一个靠谱的平台小说作家,比如刘慈欣,即使不工作,他们也能靠自己丰富的想象力写出水平非常高的小说。而数据管理是一门数据科学,也是实践的学问,但无论是科学还是实践,都无法靠漫无边际的想象力达到顶尖水平。如果你有幸在一个研究机构,那可能会有研究数据管理的机会,但大部分的数据管理专家,还是来自于企业,因为企业提供了数据管理实践的平台。我很珍惜公司提供的数据岗位,因为我关于数据管理的思考和创新,大都源于岗位实践的启发。哪天我离开这个岗位了,或者退休了,我的输出也就基本枯竭了吧,这个规律应该适用于大多数职场工作者。但许多数据从业者仍然对自己的职业发展感到焦虑,觉得每天重复相同的工作,缺乏广度和深度,更别提成为专家级人物了,这可能受限于他们所在的平台。阿里每年都搞云溪云栖大会,各位大咖轮番上阵,那么这么多大咖到底是怎么练成的呢?我曾阅读过《淘宝技术这十年》和《大数据之路》两本书,这些书籍详细地介绍了阿里巴巴的技术是如何随着业务需求的发展而进步的,我想,专家的个人努力固然重要,但阿里提供的舞台更功不可没。因此,要想成为一名数据管理专家,我们最好进入一家靠谱的有数据的公司,数据规模要足够大,毕竟有过1P数据处理经验的人,跟1G数据处理经验的人相比,需要的技能、所需的时间、能达到的高度是完全不同的,否则天花板马上就会到来。大数据架构师更多会出现在拥有海量数据的企业,而企业数据治理专家则只会孕育在组织结构足够复杂的企业,这跟企业的特点是密切相关的,一定程度上讲,只有“企业的专家”,没有“专家的企业”。2、拥有主动积极的心态在我刚进入公司时,依然保持着大学时养成的学习习惯。我用了两年时间成为公司里的取数大师;三年后,我掌管公司全部报表,被同事戏称为“数据表哥”;五年时间,我成为数据仓库的项目经理。然而,随后的十年里,我的专业技能陷入了停滞,大致的原因,应是失去了继续学习的动力吧。在学校,应试教育激发我们学习的动力主要有两个:一是考试的压力,二是争做第一的冲劲。但当我们走入职场后,这些动力往往会悄然消失。原因大致有三个:首先,职场的很多工作是熟能生巧的类型,达到及格标准不难。
2024年5月20日
其他

国家数据局局长刘烈宏:数据要素论

当前,数据基础制度建设正逐步完善,数据要素产业发展持续加速。国家数据局将持续关注北京市数据要素产业发展,支持先行区在数据要素相关领域积极探索,也期待北京市在数据要素领域取得新的成绩。二、数据基础设施
2024年5月8日
其他

八个领悟:我在数据管理中的挑战与反思!

数据管理工作充满曲折和挑战,今天就来聊聊我当前面临的八大困境,分别是:大模型瓶颈、责权利不对等、组织架构缺陷、达摩克利斯之剑、扁平化悖论、数据不owner、完美的“坑”、冲动是魔鬼。同时也给出了我的一些思考,与大家共勉。1、大模型瓶颈从去年以来,我们团队陆续开发了智典、智能核稿、智乎、ChatOA、ChatBI、代码解释器等大模型应用,其中智典和智能核稿算是初战告捷。但ChatOA和ChatBI这类大模型的准确率始终达不到实际使用的标准,只能静待更强大的开源基础大模型的推出。最近,Llama
2024年5月6日
其他

详解数据治理体系(值得收藏)

4233查看全部文章点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!
2024年4月28日
其他

业务架构建模8步法指南及其成功关键要素

Architect,作为一款全面的建模工具,既支持业务架构的搭建,又兼顾系统设计的需要。用户可轻松创建业务流程图、数据模型和架构图,通过协作式建模与分析,实现业务架构的目标,推动企业数字化转型。9
2024年4月26日
其他

数据安全100问(PPT)

来源:合规社免责申明:本文内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。数据治理与数据资产管理平台方案
2024年4月23日
其他

数据安全:一文读懂隐私计算

让我们从一个生动的故事入手:想象两位百万富翁偶然在街头相遇,他们各自都想夸耀自己的财富,又不愿透露具体的财务状况。他们面临的挑战是,如何确定谁更富有而不泄露各自的具体数字。这其实是隐私计算技术面临的一种经典问题。隐私计算是一组技术和方法,它们使我们能够在保护数据主体隐私的前提下,安全地存储、处理和分析数据。这些技术确保数据在加密或其他形式的保护下进行处理,从而在整个处理过程中保障数据内容的安全与隐私。这些技术主要包括:安全多方计算、同态加密、联邦学习、机密计算、差分隐私以及零知识证明等。例如,通过安全多方计算,两位百万富翁可以在不直接透露各自资产的情况下,确认谁更为富有。你可能已经意识到,这种能力——在不公开各自数据的前提下进行数据融合和安全计算——正是目前高效安全数据要素流通所追求的目标。尽管隐私计算的相关概念颇为抽象,技术涉猎广泛,但我会尽量用简洁通俗的方式来解释每个概念。在介绍每种技术时,我不仅会阐述其定义,还会提供典型的应用场景和技术原理,让这些高深的技术变得更加贴近实际,易于理解。一、安全多方计算多方安全计算由姚期智在1982年提出,指一种计算范式,其中多个参与方可以合作计算一个函数,而无需将各自的输入数据暴露给其他参与方。该技术通过复杂的加密方法和协议确保,即便参与计算的一方或多方试图获取其他方的数据信息,也无法得知。该技术能够满足人们利用隐私数据进行保密计算的需求,有效解决数据的“保密性”和“共享性”之间的矛盾。多方安全计算包括多个技术分支,主要用到的技术包括秘密共享、不经意传输及混淆电路等等。1、秘密共享定义:秘密共享(Secret
2024年4月22日
其他

2024年中国AI大模型产业发展报告(附下载)

摘要:《2024年中国AI大模型产业发展报告-开启智能新时代》是一份全面梳理中国AI大模型产业发展现状、挑战及未来趋势的报告。报告指出,AI大模型已成为科技发展的新高地、产业的新赛道和经济发展的新引擎,具有巨大的发展潜力和广泛的应用前景。中国高度重视人工智能的发展,将其上升为国家战略,并出台了一系列扶持政策和规划,为AI大模型产业的发展创造了良好的环境。报告中提到,AI大模型的发展受到政策、技术和市场三方面的驱动力。政策方面,中国政府发布了一系列支持人工智能发展的政策,如《新一代人工智能发展规划》和《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》等。技术方面,AI大模型的快速发展得益于语言大模型相关技术的突破,特别是Transformer架构的提出和优化。市场方面,办公、制造、金融、医疗和政务等多个领域的广泛需求推动了AI大模型产业的发展。报告还详细介绍了AI大模型的主要特征、类型和典型案例。AI大模型具有泛化性、通用性和涌现性三大特征,能够实现知识迁移、处理多任务并产生新的能力。按照部署方式,AI大模型可分为云侧大模型和端侧大模型,其中云侧大模型具有更大的参数规模和算力资源,端侧大模型则具有参数规模小、本地化运行和隐私保护强等特点。报告中列举了多个中国AI大模型的典型案例,如科大讯飞的讯飞星火认知大模型、百度的文心一言大模型、阿里巴巴的通义千问大模型等,这些模型在各自的领域中展现出了强大的应用能力。尽管AI大模型产业发展迅速,但仍面临一些挑战。首先是算力瓶颈问题,大模型的训练需要强大的算力支持,而高性能AI芯片的获取受到限制。其次,当前主流的Transformer架构存在资源消耗大、存储需求高等问题。此外,高质量的训练数据集仍需扩展,特别是在中文数据集方面。最后,尽管AI大模型技术发展迅速,但尚未出现爆款级的应用。展望未来,报告预测AI大模型产业将呈现几个趋势:一是云侧与端侧大模型将满足不同需求,C端用户将成为端侧的主要客群;二是AI大模型将趋于通用化与专用化,垂直行业将成为大模型的主战场;三是AI大模型将广泛开源,小型开发者可调用大模型能力提升开发效率;四是AI高性能芯片将不断升级,AI大模型产业生态体系将不断完善。结语部分强调,AI大模型将加快新质生产力的发展,助力中国经济社会高质量发展。AI大模型作为创新驱动和产业升级的重要手段,将推动多个领域的智能化升级,提高生产效率和产业竞争力。报告呼吁,中国需要进一步加强资源与研发力量的统筹,强化大模型在发展中的场景牵引作用,促进经济社会的高质量发展。中国AI大模型产业发展背景AI大模型产业现状及典型案例中国AI大模型产业发展所面临的挑战中国AI大模型发展展望报告下载:关注与数据同行公众号,后台回复“AI报告”,即可获得完整报告大企业如何推进AI
2024年4月16日
其他

一图看懂数据仓库、数据平台、数据中台、数据湖的内涵和区别!

当大数据平台出现的时候,有人是说这不就是大号的数据仓库吗?当数据中台出现的时候,有人说这不就是数据仓库的进一步包装吗?数据湖的出现更是让很多人陷入困惑。事实上,数据仓库、数据平台、数据中台、数据湖还是有区别的,不仅在技术架构上,更是体现在业务的支撑模式上。下面我先用一张图简单示意这四个概念的区别(省略了数据管理等相关组件),其中绿色背景代表数据中台、黄色代表数据平台、灰色代表数据仓库及橙色代表数据湖。为了让大家更通俗化的理解其中的区别,下面我通过概念辨析、案例分析和类比诠释三种方式来进行解读。一、概念辨析1、传统数据仓库(1)定义数据仓库是一种专门设计来支持决策制定过程的数据管理系统。它从多个异构数据源收集数据,然后经过清洗、转换和集成,以一种统一的格式存储,也就是大家熟知的数据仓库建模,便于进行高效的查询和分析。数据仓库的目的是为企业提供一个中央存储库,其中包含了整洁、一致的数据,从而支持复杂的数据分析、业务智能报告、数据挖掘以及决策支持活动。一定程度讲,数据仓库是一种数据供给层面的“计划经济”。(2)核心组件数据提取、转换和加载(ETL)过程这是数据仓库的关键环节,负责将来自不同数据源的数据提取出来,然后进行必要的清洗和转换,最后加载到数据仓库中。这一过程确保了数据的质量和一致性。数据存储通常是利用关系数据库管理系统(RDBMS)来实现。数据在数据仓库中按照一定的模式(如星型模式、雪花模式)组织,以便于进行高效的查询和分析。数据访问层包括各种查询和报表工具,以及更高级的分析和数据挖掘工具。这一层使得最终用户能够轻松地从数据仓库中检索信息,执行数据分析,生成报告等。元数据管理元数据是关于数据仓库中数据的描述性信息。它包括数据的来源、格式、内容、数据模型的细节以及ETL的日志和历史记录等。元数据对于管理数据仓库系统、进行数据治理和帮助用户理解数据仓库中的数据至关重要。管理和监控工具用于确保数据仓库系统的性能、数据的加载过程、数据质量和安全性。这包括了对数据仓库操作的监控、性能优化、备份和恢复等功能。2、数据平台(1)定义数据平台是一个全面的技术解决方案,旨在支持整个数据处理流程,包括数据的收集、存储、管理、分析和可视化。它不仅包含数据仓库的功能,还扩展了非结构化数据的采集、大数据处理、实时分析、数据科学和机器学习等能力。数据平台为全类型数据驱动的决策和业务洞察提供了一站式服务。(2)数据平台与数据仓库的相同组件数据存储两者都涉及到数据的存储,但数据平台通常包含数据仓库作为其组件之一,同时可能还包括数据湖等其他存储解决方案。ETL/ELT工具数据平台和数据仓库都依赖ETL(提取、转换、加载)或ELT(提取、加载、转换)工具来整理和准备数据。数据产品包括查询和报告工具,都提供从数据中检索信息、生成报告的能力。数据管理和治理包括元数据管理、数据质量控制等功能,在两者中都非常重要。(3)数据平台的独特组件数据存储除了关系数据库管理系统,还采用数据湖(如Hadoop等分布式、可扩展的大数据架构),用于存储大规模的原始数据,支持结构化、半结构化、非结构化数据,这些是数据平台的常见组成部分。实时数据处理支持对流数据的实时分析和处理,适用于需要即时数据洞察的场景。高级分析和机器学习平台提供数据科学和机器学习工作的环境和工具,支持构建、训练和部署模型。数据集成和APIs支持更广泛的数据集成能力,包括从多种数据源收集数据,并通过APIs使数据和分析结果更容易被应用程序访问和利用。(4)总结数据仓库是数据平台的一个组成部分,专注于为分析和报告提供结构化的、经过处理的数据。而数据平台则提供了更全面的数据管理和分析能力,不仅包括数据仓库的功能,还扩展了对大数据、实时数据处理、数据科学和机器学习等先进技术的支持。数据平台的目的是为组织提供一个综合的解决方案,以支持从数据采集到深度分析和应用集成的整个数据生命周期。3、数据中台(1)定义数据中台是位于数据生产者(如业务系统)和数据消费者(如应用、分析师)之间的中间层,主要负责数据的集成、处理、存储和提供数据服务。数据中台强调的是标准化、服务化,目的是通过提供统一的数据服务API,促进数据的快速流通和复用,支持快速开发和迭代新的业务应用。(2)数据中台与数据平台的相同组件数据集成数据中台和数据平台都需要将来自不同源的数据集成到一个统一的平台上,便于后续的管理和分析。数据存储两者都需要有存储组件来保存处理过的数据,可能包括数据湖和数据仓库等存储解决方案。数据处理和转换(ETL/ELT)为了满足业务需求,数据中台和数据平台都会对数据进行清洗、转换和加载的处理。数据服务和API基于API实现数据的检索和分析,是数据中台和数据平台共有的组件之一。(3)数据中台的独特组件数据服务和API数据中台的API不仅限于数据访问,还通常提供更为丰富和复杂的业务逻辑集成,成为业务流程的一部分,例如自动化的数据流程(案例:订单完成后数据服务自动更新库存量)、事件驱动的数据更新等,这些都是其区别于传统数据平台的关键特征。数据产品管理和数据平台的查询和报表不同,数据中台着重于将数据封装成可复用的数据产品,以标准化的形式服务于各种业务场景,这一点是其独特的侧重点。数据管理和治理虽然数据平台也关注数据管理和治理,但数据中台更加强调数据的标准化、质量管理和元数据管理,以确保数据服务的一致性和可靠性。(4)总结数据中台和数据平台在提供数据集成、存储和处理方面有相似之处,但数据中台更加专注于数据服务的标准化和服务化,以及业务逻辑的集成。数据中台的目标是通过提供统一的数据服务API,加速数据的流通和复用,支持快速业务创新。相比之下,数据平台提供了一个更为全面的数据管理和分析环境,覆盖了从数据采集、存储到分析和可视化的整个数据生命周期,是支持数据驱动决策和深度分析的基础设施。4、数据湖(1)定义数据湖是一种存储系统,旨在存储大量的原始数据,无论其结构如何。数据可以是结构化的、半结构化的,或非结构化的,例如文本、图片、日志文件等。数据湖允许你存储所有这些数据类型而不需要事先定义数据模型,这为数据的灵活使用和探索性分析提供了可能。(2)数据湖与数据平台、数据中台的相同组件数据存储数据湖、数据平台和数据中台都涉及数据的存储。在数据湖中,数据以其原始格式存储。而数据平台和数据中台可能会包含数据湖作为其数据存储的一部分,用于存储原始数据或处理后的数据。数据处理和转换在这三者中,都需要对数据进行某种形式的处理和转换。数据湖提供原始数据,可能需要在使用前进行清洗、转换等操作。数据平台和数据中台通常提供更加成熟的工具和服务来执行ETL或ELT过程。(3)不同组件数据服务和API(数据中台特有)数据中台强调提供数据服务和API,使得数据可以被易于访问和重用。而数据湖主要关注于数据的存储,并不直接提供数据服务API。高级分析和机器学习(数据平台特有)数据平台通常包括高级分析和机器学习的能力,提供工具和环境支持数据科学家和分析师工作。数据湖本身主要作为数据存储的角色,并不直接提供这些高级分析能力。数据治理和管理数据平台和数据中台通常包含更为复杂和全面的数据治理和管理组件,如数据目录、数据质量监控等,以确保数据的一致性和可靠性。虽然数据湖也关注数据治理和管理,但其能力没有数据平台和数据中台那么强大或全面。(4)总结数据湖主要作为一种数据存储和管理的解决方案,专注于收集和保存大量原始数据。相比之下,数据平台提供了一个更全面的解决方案,包括数据存储、处理、分析和可视化等多个方面。数据中台则侧重于数据的服务化,提供易于访问和重用的数据服务,同时包含业务逻辑层以支持快速业务应用开发和迭代。每种架构在现代数据策略中扮演着独特而重要的角色。二、案例说明如果仍然觉得抽象,以下给出了针对数据仓库、数据平台、数据中台和数据湖四个案例,旨在阐明它们在现实应用中的本质区别和特定用途。1、数据仓库案例:零售公司销售分析一家大型零售公司为了提高其销售策略和库存管理效率,建立了一个数据仓库。该数据仓库集成了来自全国各地门店的销售数据、库存数据以及顾客购买行为数据。通过数据仓库,公司可以执行复杂的查询和生成报告,如:月度和季度销售报告不同区域的销售比较产品类别的库存周转率分析这些分析帮助公司制定更加精准的营销策略和库存调整,从而提升效率和利润。2、数据平台案例:金融科技创新一家金融科技公司开发了一个数据平台,以支持其多元化的金融产品,包括即时贷款审批、投资组合管理和风险评估。该数据平台包括:数据湖,存储从多种来源获取的原始交易数据、用户行为数据和外部市场数据数据仓库,支持结构化的查询和报告生成实时数据处理功能,用于即时信用评分和欺诈检测高级分析工具,支持机器学习模型的开发和部署,用于预测市场趋势和用户行为这个数据平台使公司能够快速响应市场变化,提供个性化的客户服务,并有效管理风险。3、数据中台案例:电子商务平台一家大型电子商务平台构建了数据中台来提高其业务敏捷性和市场响应速度。数据中台整合了商品、用户、交易和物流等数据,提供了一系列的数据服务和API,例如:用户购买行为的个性化推荐服务,供营销工具使用,以实现更精准的目标广告和促销活动实时库存数据更新服务,帮助供应链系统优化库存和配送交易和支付数据实时监控服务,支持财务系统的实时账务处理通过数据中台,该电商平台能够快速开发和部署新的业务应用,同时确保数据的一致性和可靠性。4、数据湖案例:生物科技研究一家生物科技公司为了支持其在基因组学和蛋白质组学领域的研究,建立了一个数据湖来存储大量的实验数据、临床试验结果和公共研究数据。虽然数据湖能够存储大量的原始数据,但公司还需使用特定的生物信息学工具和统计软件(如R、Python、Hadoop等)来从这些数据中提取有价值的科学洞察。这些分析工具不是数据湖本身的一部分,但通过与数据湖的集成,研究人员可以有效地执行数据处理和复杂分析。三、类比诠释为了进一步形象说明四个概念的区别,我这里给出一个大型图书馆的类比:1、数据仓库就像是图书馆的主题阅览室。这里的书籍(数据)都是经过精心挑选、分类和整理的,以特定主题(业务主题)组织在一起,方便读者(业务分析师)快速找到所需的资料。阅览室里还配备了各种索引目录和参考工具书(元数据),帮助读者理解和使用这些书籍。2、数据平台就像整个图书馆。除了主题阅览室(数据仓库),它还包括了更广泛的藏书和服务:有一个巨大的书库(数据湖),存储着各个学科领域的海量图书(原始数据),虽然没有经过系统整理,但对于研究人员(数据科学家)而言,这里是开展创新研究的宝库。图书馆还引进了电子图书和数字资源(实时数据流),读者可以在线访问,获得最新的信息。图书馆内设有自助复印、打印、扫描等多媒体设备(数据服务),以及学术报告厅、研讨室(数据实验室)等空间,为读者提供多样化的学习和研究支持。3、数据中台就像是连接图书馆内外的书目共享平台。它将各个阅览室、书库(业务系统)的书目信息进行整合,形成一个中央书目数据库(数据服务目录)。读者(应用开发者)可以通过统一的检索界面(API)查询和获取书籍,而不需要了解书籍的具体存放位置。这极大地方便了跨学科、跨领域的文献检索和研究(业务创新)。4、数据湖就像是图书馆的大型书库。这里存储着海量的图书(数据),既有图书馆自己收藏的,也有从其他图书馆、出版社(外部数据源)引进的。书籍按照进馆时间先后排列,并没有经过系统的分类和编目(结构化)。但对于那些善于发掘隐藏知识(数据价值)的学者(数据科学家)而言,这里是找到研究灵感和素材的好地方。这个类比突出了:数据仓库强调对数据的主题式组织和集成,以支持特定的业务分析需求。数据平台包含了数据仓库,但同时提供更多样化的大数据存储、处理和分析能力,用于支撑广泛的数据应用场景。数据中台侧重于打通数据孤岛,提供统一的数据服务目录和API,促进数据共享和复用。数据湖强调对原始、异构数据的大规模存储和探索式分析。这个图书馆的类比能更清晰地说明这四个概念的区别和联系。在实际应用中,企业需要根据自身的业务特点、数据规模和应用需求,选择适合的数据架构模式,并进行灵活组合和优化。最后,搞清楚了数据仓库、数据平台、数据中台、数据湖这四个概念的本质和区别,我们就能理解其对业务的独特的价值,从而在数据架构上做出正确的选择。希望对你有所启示。常见数据同步工具之实时同步
2024年4月15日
其他

117家!中国大模型最新备案名单和简介汇编

Model,LLM)由小冰团队独立自主研发,涵盖了多种参数规模的模型,包括预训练模型(KwaiYii-Base)和对话模型(KwaiYii-Chat)。54、宽娱数码-bilibili
2024年4月11日
其他

搞定数据治理:12招流程、2类神器、9项软技能 | DGI数据治理(六)

Institute)是我看到过的最棒的数据治理框架,这是DGI数据治理框架系列的第6篇文章,错过了前面的精彩内容?点击下面链接抓紧补课!(1)一文详解数据治理的5W1H
2024年4月8日
其他

一文读懂数据治理5大成果,让数据从“资源” 变 “资产” | DGI框架揭秘(五)

Institute)数据治理框架是屹今为止我看到过的最棒的数据治理框架,这是DGI数据治理框架系列的第5篇文章,错过了前面的精彩内容?点击下面链接抓紧补课!(1)一文详解数据治理的5W1H
2024年3月27日
其他

大企业如何推进AI

前天国资委召开会议推动AI,朋友圈里一片欢腾。但我却有点隐忧。我在大企业工作多年,经常发现一种悖论:要做成一件大事,需要领导重视。但对创新项目来说,领导越是重视,技术就越容易误入歧途、做成花架子、形象工程。前几年推进智能制造、推进工业互联网时就有这种现象。这会导致资源浪费、贻误时机,甚至会导致科技风气败坏、形式主义泛滥。从某种意义上说,战略方向和具体操作之间往往存在偏差。这种悖论是创新活动的特点决定的。创新过程总会遇到困难,遇到困难时往往就需要变通、就会与当初的想法有差异。所以,创新过程就像江河,总是在迂回中前进。创新总是和多数人的想象不一样,领导也很难想清楚。这时,如果领导强势介入、管得太细往往是有害的。打个比方:领导让你从上海到北京,大方向是朝北。但你首先要迈出办公室,而办公室的门是朝南的!要推动人工智能,应该防止这类问题的发生。那应该怎么办呢?我的答案是:要推动AI技术却不能为技术而技术、领导不要过于强调AI,而是要坚持价值驱动的原则、坚持做实用的技术、做解决实际问题的技术,在创造价值的过程中推动技术的发展。领导给出了AI的战略方向,我又希望价值驱动,二者什么关系呢?可以打一个比方:长江朝着东边流入大海,但现实中却只遵循水往低处流的原则。在这个原则下,不论经过多少次的曲折,都可以实现东流入海的目标。发展AI的战略,就像“流向东方”的大方向;“水往低处流”的原则则对应价值驱动。为此,需要找到一个合适的项目作为切入点。为了便于价值驱动,项目必须明确的业务或价值目标。比如把现场工人减少50%、缩短30%的研发时间等,而不是如何应用AI。但是,在实现这个目标的过程中,AI技术自然就进步了。应该如何选择项目和方向呢?我主张选那些意义重大,容易做成、但不容易做好的项目。意义重大意味着值得长期做,不容易做好意味着需要长期做,容易做成则意味着容易创造价值、避免把项目搞虚了。我觉得两类项目特别值得关注,它们分别针对蓝领和白领的工作。1、把远程化项目为切入点。主要服务于体力劳动者。全面实现自动化人类技术发展的终极目标之一。这种项目即便短期价值低,也会有长期的意义。过去,自动化技术的进展往往受制于机器的识别能力(视觉、嗅觉、味觉、声音)。所以,AI带动了许多自动化技术的发展。目前这方面的进展很多,但发展潜力却仍然很大,值得研究几十年。目前的困难主要是场景复杂多变的情况,所以还需要人类的介入。对自动化来说,一个变通的方法是“远程化”。远程化的一个主要技术瓶颈是信息传输。而5G通信技术的进展给最终突破这个问题带来了曙光,我国又有特殊的优势。只要通信给力,“远程化”技术是可以闭环的、是容易做成的。这就是所谓的“容易做成”。在可以预见的未来,远程化有可能成为许多行业标准的工作方式。对于那些从事危险、遥远、肮脏、细致、微小的各种工作,意义特别重大。在推动远程化的过程中推动AI,是间接的推动,却有广阔的发展空间和潜力。比如,可以通过AI技术的应用,扩大远程工作的内涵:从远程监视发展到远程操作、远程设备维修等。再如,在AI的参与下,可以逐渐减少人的干预,从而让一个人干几个人的活,直到非必要不介入,近似实现自动化;再如,通过AI技术实现远程的多方协同等等。这些都是AI技术发展的潜力空间。终极目标是通过远程化实现全面的自动化。这一点,不容易做好。2、工具化的AI有人说:未来人类不会被AI打败,却能被掌握AI工具的人打败。这句话非常有哲理,就是去发展AI的专用工具,通过人机结合的方式工作。AI技术是有短板的。例如:获取信息的方式不灵活,决策的可靠度低等。所以,AI的推荐结果未必能直接用于重要的决策,重要的决策最终是由人做出。AI的定位是一种辅助决策、辅助思考的工具。工具的改变是生产力进步最重要的方式,而人类与动物相比最大的差别之一就是善于发明工具。工具的重要性就在于此。AI工具主要给从事研发设计、销售服务等白领以及维修维护等灰领人员使用。随着生产力的发展,白领和灰领占劳动力的比例越来越高,故而技术的价值也越来越大。这类技术也是容易做成不容易做好的。所谓“不容易做好”,指的是容易做成“有它不多、没它不少”的花架子。推进的办法是针对一个个具体的场景,把每个问题做好、真正解决用户的痛点问题。不怕场景小,就怕没有真正的用途。在解决问题上积少成多,AI技术就逐步发展起来了。大企业推进AI的好处,是可以作为长期的战略任务。因为只有大企业才有这样的能力、才有足够多的场景。但是,在考核管理上,战术性的项目和战略驱动是有差别的。战术性的项目主要看短期、直接价值;而战略驱动主要是看长期、间接、潜在价值和社会价值。许多央企在考核制度上往往没有区分这两类项目,从而在现实中抑制战略性项目。推动AI要借用市场的力量。当市场足够大时,能把“项目型技术”做成“产品”,进而实现知识的复用、促进技术的持续改进。否则,各单位做的工作就会低水平重复、难以持续改进、难以变成真正的高科技。在国资委的会上,我感觉国家有意推动场景的共享。这一点,我非常高兴。14款!中国第四批大模型备案获批
2024年3月21日
其他

数据治理的真经(PPT)

数据治理直接成就业务很难,而企业数据一致性的数据治理是我认为最接近业务的一次,因此叫取了数据治理的“真经”。我们做这次企业数据一致性治理主要有四个旅程碑,体现了做企业数据治理的主要工作,分别是:1、明确工作的总体思路2、完成问题分析和汇报3、督促各部门进行整改4、做好常态化运营工作接下来,我将以PPT的形式展示这些里程碑的主要成果,呈现我们在本次数据治理中的完整历程,希望能为大家提供有益的启示。阶段一、明确工作的总体思路此次汇报旨在向领导阐明企业数据一致性工作的总体思路,包括业务背景、工作思路和具体计划等。1、业务背景此次企业数据治理需求直接源于管理层,即跨领域数据不一致所导致的经营风险。这为我们的数据治理工作奠定了高起点,获得了公司的高度重视。2、总体思路领导特别指定由数据治理团队来统筹推进此项工作,因为我们已构建起了企业级数据治理体系,无论是在顶层设计、组织保障、流程运营还是平台建设等方面,都具备了良好的基础,例如数据责任人制度等,这是一个很高的起点。我对做成这个事情是有信心的,虽然它是一个跨多个部门的课题,但只要解决了顶层设计的问题,对于学习型团队,业务、技术和数据都不是事,这与3-4年前刚开始推行数据治理时的畏难情绪已有天壤之别。3、具体举措(1)顶层设计此次数据治理工作引入了一些新的内容,因此在顶层设计方面进行了相应调整,包括增加了数据责任人相关职责。(2)组织保障要跨部门做事,一定要把工作组建立起来,理顺生产关系,这也是我最为重视的一环。仓促上马的数据治理项目往往因相关领导未达成共识,导致一线工作人员承担巨大的沟通和执行成本。我曾经较为忽视这一环节,导致许多工作推进缓慢,常会抱怨下属未提前说明,后来发现这也是自身的问题。因此,每次部署数据治理工作,我都会预判一线执行可能遇到的沟通障碍,提前与所有利益相关方进行沟通。(3)流程运营数据治理绝非一蹴而就,后续必须形成PDCA的闭环运营,每一步都要扎实推进,因此特意写了这页PPT。在问题发现环节,我们希望能形成常态化的业务问题搜集机制,大家在碰到数据一致性问题的时候,第一时间就能想到我们数据治理团队,这样业务驱动的问题就解决了。在问题诊断环节,应由数据治理团队牵头,融通各方数据,分析业务问题,协同各部门确认问题根因。这一环节对数据治理团队的业务能力要求极高,也最为耗时。在优化改进环节,就是要基于问题诊断的结果给出改进举措,这个环节主要是协同各部门确认责任,并要各方给出时间计划。这一环节往往也是向公司领导汇报的关键节点,涉及责任分配和资源需求。在运营监控环节,主要是基于前期诊断分析得出的不一致数据稽核规则,形成监控、预警和修复的闭环体系,确保建立长效机制。(4)平台支撑构建数据不一致平台旨在维护数据不一致的稽核策略和规则,实现监控、预警和修复流程的自动化,降低运营成本。4、工作计划我们要向公司表明企业数据一致性问题是个系统性问题,要做的事情很多,无法一蹴而就,因此给出了一个三年的规划,2023年解决重要而紧急的问题,包括X等关键业务的数据一致性问题,2024年扩大业务范围并自动化整个过程,2025年以后希望能带来额外的业务价值。在这次汇报中,我们还明确了先行启动公司最为关注的X业务数据一致性治理工作。阶段二、完成问题分析和汇报根据第一次会议要求,我们花了一个月时间对X业务数据不一致情况进行了分析,得到了初步的结论,这次主要汇报问题分析进展和解决建议。1、现状分析-业务发展情况我们首先对X业务本身的重要性进行说明,让领导知道做这次数据治理的价值。很多数据治理工作价值不显性化,就是选择的业务太小了,因此要尽量优先选择公司战略性、现金流业务。2、现状分析-业务流程现状跨域系统间的交互环节是产生数据不一致的高危风险点,因此一定要对跨领域的长流程先进行分析,精准的定位问题所在,而其中理解业务流程、业务活动和相关角色是最关键的。我们的团队把这个流程的细节搞清楚,花了至少2个礼拜时间,用流程图是为了让领导直观理解问题根子所在。3、现状分析-数据不一致情况为了核实问题,我们先要融通各方不一致数据,然后统一比对,给出实际差异。这种融通工作对于我们并不是难事,因为有企业级数据治理体系的保障,大家都愿意直接开放数据接口。但有些企业不一定能做到,往往是双方各自统计,自说自话,一来一回反复拉扯,没有持续性可言。整改一段时间后,问题重现。我们希望尽快给出实际差异数据,看是否跟最初暴露的问题数据相吻合。有时候业务问题暴露的时候是这个数据,但经过实际数据分析发现可能言过其实或者更加严重,这些都需要通过重新获取数据来证实的。各方须就问题涉及的不一致数据量和严重程度达成共识,这是数据分析的起点。4、原因分析-结果总览整个数据分析过程相当漫长,我们需要对不一致的清单数据逐一核实,找出每条记录不一致的原因,并对这些原因进行分门别类。仅内部汇报就多达5次,而且极度依赖相关部门的配合。报告最终给老板呈现的时候,则是非常简洁的,下图是我们经过1个月的分析后给出的根因表,包括不一致的原因,数量等等,大家看表一目了然。分析过程再曲折万分,但结果一定要是非常直接。5、原因分析-详细情况基于总分结构,需要对以上列出的每个原因给出详细描述、业务影响评估、建议优化措施及责任部门等等。业务影响评估是让老板知道由于不一致导致的收入损失或者成本提升到底有多少,这是老板决策的重要依据。优化措施则是相关责任部门给出的解决方案,往往需要经过多次研讨才能确定,有些还需要上会决策。以下示例了部分内容:6、后续工作计划最后,需要根据数据不一致原因分析结果,明确责任方和整改时间计划,如下表所示。可以看到,X业务的数据不一致主要从五个方面来进行优化:业务流程优化:主要解决由于业务处理规则不明确导致的不一致,如双方测试流程不规范。数据标准确定:主要解决双方数据标准不统一导致的不一致,如速率的计算方式不同。系统功能优化:主要解决系统功能BUG导致的不一致,如实例未及时更新订购表数据。存量数据修复:主要是明确主数据,然后对多方存量的不一致数据进行修复。取数口径统一:主要是对后续双方取数的口径进行统一,降低沟通成本。这是数据分析后最重要的工作,没有这临门一脚,数据分析的价值等于0。阶段三、督促各部门进行整改在第二次汇报完毕后,各部门需要按照汇报的结果分头开展整改工作,数据治理团队主要做好整体统筹推进,最主要的工作就是协调各方就具体方案达成共识,解决执行中的各种问题,汇总通报各方进展,并适时推动上会。下面是一个通报邮件的示例:X业务数据不一致后续涉及到业务流程优化、系统功能优化、数据修复等五大类19项优化工作,本周新增完成1项优化,累计已完成6项优化工作,具体进展情况如下:一、本周新增完成1、针对预办理业务带宽数据提前送C系统的数据进行修复:经与X部沟通,此部分数据目前修复会对客户感知造成影响,因此明确不再修复。二、本周推进中工作1、速率标准不同数据修复(责任方:A、C部门):预计X部下周提交修复清单后修复。2、针对在途工单一致性审计取数口径优化(A部门):已梳理A和C部门保持一致的口径方案,待下周发各方评审。3、建立常态化监控修复机制(A部门):常态化稽核监控和修复流程方案梳理中,待下周发各方评审。4、针对存量的A系统带宽实例未更新的数据进行修复(A部门):已完成XX条存量数据的修复,待A系统优化程序上线之后,将二次对数据进行核实和修复。各项工作的详细进展请见在线文档:https://docs.qq.com/XXXX在这之后,我们又分2次向公司领导汇报了X业务的数据一致性治理进展,直到问题基本解决。在这期间还同步推进了其他两个专题的治理,下面是针对三个专题做的总结汇报的一页。阶段四、做好常态化运营工作为确保数据一致性治理工作取得实效,我们一方面开始落实常态化运营工作,包括:建立与各系统的自动化接口构建一套监控报表指标体系对不一致情况进行监控预警督促和推动各部门持续优化通过这种循环迭代的方式,我们能够巩固数据治理成果。另一方面,我们计划将企业数据一致性治理平台纳入下一年度的投资建设计划,从而推进整个运营流程的自动化。希望于你有所启示。关于数据治理十大魔鬼问题的经典回答!2248数据治理与数据资产管理平台方案
2024年3月18日
其他

麦肯锡逻辑思考力

在我们每天的生活中、工作中,各种各样的问题总是不期而遇。为了解决这些问题,我们应该怎么做?事实上,大多数人面对这些问题时候,并没有认真地思考,而是凭经验、根据习惯、拍脑袋,单纯地把“一时的想法”称为解决的方法。解决问题的根本就是逻辑思考力。逻辑思考力不但能够让问题迎刃而解,而且我们一般常说的先见之明、直觉也是从逻辑思考中产生的。面对问题时候,表现得不知所措,缺少能够解决问题的思路,这是没有养成逻辑思考习惯的缘故,所以没有具备找出真正解决之策的思考路径。麦肯锡的逻辑思维,解决问题的方法,不仅仅适用于咨询公司的经营管理顾问。这种解决问题的方法、思路,适用于任何人、任何问题。虽然,对于我们普通“打工人”来说,遇到的问题也极少是关乎企业生死命运的,但每一家公司、每一个企业,应该都有自己的问题。如果你现在是员工,就以中层领导的立场来思考;如果你现在是中层管理者,就以高层领导者的立场来思考,应该是不无裨益的。如何写好年终总结?V4.0
2024年3月7日
其他

为什么数据治理很难直接成就业务?

数据要素正逐渐成为生产资料的一部分,这促使越来越多企业开始重视数据治理。然而,随着数据治理工作的推进,许多团队发现直接展现其价值颇为困难。有些人开始质疑数据治理的实际效用,认为它被过分夸大。为何数据治理会留下这种印象?结合自己的实践和分析,我认为主要是由数据治理的间接性、抽象性、长期性、变革性等特点导致的,同时受到业务鸿沟和利益博弈的影响。接下来,我将详细剖析原因,并探索可能的解决之道。首先、数据治理对业务的赋能具有间接性。数据治理涉及对数据相关事务的决策权和权威行使。更具体来说,数据治理是一套责任制度,通过商定的模型来执行,这些模型规定了谁可以在何时、在什么情况下、采用什么方法对哪些信息进行什么行动。数据治理实际的输出成果有五个:(1)政策与规则;指导与保障
2024年3月4日
其他

一文详解数据治理的使命和价值 | DGI数据治理(三)

https://datagovernance.com/the-dgi-data-governance-framework/数据治理与数据资产管理平台方案
2024年2月27日
其他

14款!中国第四批大模型备案获批

导读据悉,此批共有13家企业的14款国产大模型获批,人工智能企业及垂直领域厂商各有千秋。随着大模型监管进入常态化,垂直大模型的落地应用趋势也越发明显,商业化蓄势待发。全文共计9730字,预计阅读时间8分钟来源
2024年2月22日
其他

没有读不懂的书,ChatGPT让我的理解力提升了1000%!

上百个问题后,我断定ChatGPT可以重塑学习范式!》,谈了自己使用ChatGPT的初步心得,大家可以结合着一起看。为什么很多公司都被
2024年2月18日
其他

关于数据治理十大魔鬼问题的经典回答!

本文列出了我碰到过的关于数据治理最为棘手的十大问题,并且给出了回答,细品!同时,祝大家新春快乐,与数据同行伴你同行!1、我是一个IT人员,发现系统中有很多同名不同义的指标,了解到这是由于不同部门的人员定义造成的,请问该如何解决这类问题?面对系统中存在的同名不同义指标问题,作为IT人员,可以通过以下步骤来解决这个问题:(1)指标审计收集现有指标:汇总系统中所有的指标及其定义、使用场景和负责部门。识别冲突:标识出存在同名不同义问题的指标。(2)跨部门沟通召集相关部门会议:组织涉及到冲突指标的部门进行会议,说明问题的严重性和解决的必要性。如果企业成立了数据治理委员会等组织,可以依托其召集联席会议,如果没有,就推进成立它。共享信息:展示冲突指标的使用案例,说明由于定义不一致而可能导致的问题和风险。(3)建立指标标准化工作组组建团队:成立一个由IT和各相关部门代表组成的指标标准化工作组,负责指标的审查、标准化和管理工作。明确角色和责任:为工作组成员分配明确的角色和责任,比如为每个指标指定所有者,负责该指标的定义、维护和质量。(4)统一指标定义定义统一指标:在工作组中讨论并确定每个指标的统一定义、计算公式、数据源和使用场景。创建指标目录:制作一个指标目录,包括所有标准化指标的定义、责任部门和使用说明,确保易于访问和理解。(5)实施数据治理政策制定政策:制定数据治理政策,明确指标的创建、修改和废弃流程,包括必要的审批流程,确保任何新指标的创建或现有指标的修改都必须经过严格的审批流程,包括跨部门的审核,以避免同名不同义的情况发生指标版本控制:实施指标版本控制机制,确保指标更新过程的透明性和追踪性。(6)培训和宣传组织培训:为所有相关部门的人员提供培训,介绍指标标准化的重要性、指标目录的使用方法和数据治理政策。内部宣传:通过内部通信等方式,宣传指标标准化的成果和价值,提高全员的数据治理意识。(7)监督和持续改进定期审查:定期审查指标使用情况和定义的一致性,确保标准化指标的持续有效性。反馈机制:建立一个反馈机制,允许用户报告问题或提出指标改进建议,促进持续改进。(8)技术支持利用技术工具:使用数据管理和质量工具,如数据字典管理软件,来支持指标的标准化和管理工作。数据质量监控:实施数据质量监控机制,确保指标数据的准确性和一致性。通过这些步骤,可以有效地解决同名不同义的指标问题,提高数据的一致性和准确性,支持组织的数据驱动决策。2、我是一名数据治理人员,经常发现遵守数据标准和保证业务连续性会发生冲突时,请问怎么办?作为一名数据治理人员,面对遵守数据标准和业务连续性之间的冲突,需要采取平衡的方法来解决问题。以下是一些解决策略:(1)理解冲突根源深入分析:首先,需要深入理解冲突的具体情况和根本原因。分析为什么当前的数据标准会影响业务连续性,是因为标准过时、过于严格还是其他原因。(2)沟通与协调跨部门沟通:与受影响的业务部门进行沟通,了解他们的具体需求和担忧。同时,向他们解释数据标准的重要性,以及长期遵守标准对业务的潜在益处。协调利益:寻找双方的共同利益点,探讨是否存在既能满足业务需求又能符合数据标准的解决方案。(3)寻求灵活性调整数据标准:根据业务的实际需求和变化,考虑对数据标准进行必要的调整或灵活性改进,以支持业务连续性,但同时确保数据的整体质量和一致性不受损害。临时解决方案:如果必要,可以短期内采取临时措施来缓和冲突,同时制定长期解决方案。(4)制定风险管理计划评估风险:评估不遵守数据标准可能带来的风险,包括数据质量问题、合规风险等。风险缓解措施:为可能的风险制定缓解措施,确保即使暂时不完全遵守数据标准,也能最小化对业务和数据质量的影响。(5)创新解决方案技术解决方案:探索是否有新的技术或方法能够解决这一冲突,例如引入更先进的数据管理工具或自动化流程,以提高效率和数据质量。过程优化:审查和优化现有的数据处理和业务流程,找到提高效率的机会,减少对遵守数据标准的阻力。(6)建立长期策略持续改进:将这次冲突作为机会,建立持续改进数据治理和业务流程的机制。数据治理文化:加强数据治理的文化建设,提升组织内对数据标准重要性的认识和支持。(7)监控与反馈实施监控:实施监控措施,确保即使在采取临时措施的情况下,数据的质量和安全也能得到保障。收集反馈:收集来自业务部门的反馈,监控解决方案的实施效果,并根据反馈进行调整。通过上述方法,可以在确保数据治理标准的同时,支持业务连续性,最终实现业务需求和数据治理之间的平衡。这需要数据治理人员具有灵活性、创新思维和良好的沟通协调能力。3、我是一名数据治理人员,有人跟我抱怨当前公司的数据共享开放太长,严重影响了业务响应及时性,请问怎么解决?作为数据治理人员,面对公司数据共享开放流程过长、影响业务响应及时性的问题,可以采取以下步骤来解决:(1)问题识别与分析收集具体案例:收集具体的抱怨案例和业务流程,确定问题发生的频率、影响范围及严重程度。分析现有流程:分析当前数据共享和开放的流程,识别造成延迟的关键环节。(2)沟通与讨论跨部门沟通:与影响到的业务部门、IT部门以及数据管理团队进行沟通,了解他们对当前流程的看法和改进建议。共享问题认识:确保所有相关方都了解问题的严重性以及改进的必要性。(3)流程再设计简化流程:根据问题分析的结果,简化数据共享和开放的流程,去除不必要的步骤。自动化:寻找自动化工具和解决方案,减少人工干预,提高数据共享的效率。制定标准和指南:为数据共享和开放制定明确的操作标准和使用指南,减少因不确定性造成的延迟。(4)数据访问策略优化分级数据访问:实施分级数据访问控制,根据数据的敏感性和业务需求,为不同级别的数据定义不同的共享策略。权限审批优化:优化权限审批流程,设立快速通道为紧急或高优先级的业务需求提供及时响应。(5)建立数据目录创建数据目录:建立一个全面的数据目录,包含数据资产的详细信息和访问方式,使得业务部门能够快速找到并了解如何获取所需数据。(6)培训与支持组织培训:为业务用户提供关于如何高效使用数据共享和开放资源的培训。建立支持团队:设立一个数据治理支持团队,为数据共享和开放流程中遇到的问题提供及时帮助。(7)持续监控与改进监控流程效率:定期监控数据共享和开放流程的效率,收集用户反馈。建立反馈机制:鼓励业务用户提供流程使用反馈,定期评估并根据反馈进行流程优化。(8)高层支持争取管理层支持:向管理层展示改进流程的必要性和潜在益处,争取他们的支持和资源,以确保流程改进措施的实施。通过上述措施,可以有效地解决数据共享开放流程过长的问题,提高业务的响应速度和数据利用效率,进而支持业务的灵活性和竞争力。4、我是一名数据治理人员,很多一线业务人员跟我抱怨,说当前公司对一些敏感数据开放的管控非常严,导致一线无法基于这些数据进行精细化分析(不需要看到清单,但需要能基于这些清单数据进行灵活的统计分析),进而影响了业务发展,请问我该怎么办?面对一线业务人员对于敏感数据开放管控过严、影响业务发展的抱怨,作为数据治理人员,可以通过以下方法来平衡数据安全与业务需求:(1)识别和分类敏感数据详细审查:首先,需要对敏感数据进行详细的审查和分类,明确哪些数据是敏感的,敏感级别如何,以及敏感数据的具体使用限制。(2)沟通和了解需求需求收集:与抱怨的业务人员进行深入沟通,具体了解他们的需求,包括他们希望进行的分析类型、所需数据的范围,以及为何现有控制措施不能满足他们的需求。业务目标对齐:确保理解业务目标和分析需求,以便找到满足这些需求的同时保护敏感数据的方法。(3)探索数据脱敏和匿名化方案数据脱敏:探索数据脱敏技术,将敏感数据转换为去标识化或匿名化的形式,使其在不泄露个人或敏感信息的前提下,仍然可以用于统计分析。安全的数据共享:使用安全的数据共享技术,如差分隐私,以确保数据在分析时的隐私保护。(4)实施精细化的数据访问控制角色基础访问控制:通过实施基于角色的访问控制(RBAC)和最小权限原则,确保业务人员仅能访问其分析工作所必需的数据。动态数据掩码:对敏感字段实施动态数据掩码,使得业务人员在进行分析时,不能看到原始敏感数据,但仍可以执行统计分析。(5)建立数据共享平台安全的数据共享平台:建立一个安全的数据共享平台,为业务人员提供一个环境,在这里他们可以安全地访问和分析敏感数据,而不违反数据保护政策。(6)制定严格的数据使用政策和流程使用政策:制定严格的数据使用政策和流程,确保所有数据的使用都符合公司的数据治理标准和法律法规。审计和监控:实施审计和监控机制,确保数据使用遵循政策,及时发现和处理不当使用。(7)培训和教育提高意识:对业务人员进行数据保护和隐私保护的培训,提高他们对数据安全重要性的认识。技术培训:提供必要的技术培训,帮助业务人员理解如何安全地处理和分析敏感数据。(8)持续反馈和改进建立反馈机制:建立一个反馈机制,让业务人员可以报告任何数据访问或分析上的困难。定期评估:定期评估数据管控措施的有效性和业务需求的变化,适时调整策略和措施。通过上述措施,可以在确保敏感数据安全的同时,满足业务部门的分析需求,支持业务发展。这需要数据治理人员与业务人员之间的密切合作,以及对数据保护技术的深入了解。5、我是一名数据治理团队的负责人,发现公司领导忙于业务发展,难有精力关注数据治理工作,同时数据治理对于业务发展的作用比较间接,很难获得展示价值的机会,请问我该如何破局?面对公司领导对数据治理工作关注不足的挑战,作为数据治理团队的负责人,可以采取以下实际和可操作的策略来提升数据治理的可见性和认可度:(1)识别并关联业务痛点具体案例:收集和分析业务流程中存在的具体数据问题和痛点,如数据质量低下导致的决策失误或效率低下。需求对接:将数据治理工作直接对接到这些痛点上,展示如何通过改进数据治理来解决这些具体问题。(2)量化数据治理的业务价值业务影响分析:对已完成的数据治理项目进行后效分析,量化数据治理对提高数据质量、减少错误决策、节省成本和提升效率的贡献。制作案例研究:基于这些分析,制作案例研究或成功故事,用于向领导和团队展示数据治理的具体业务价值。(3)实施快速胜利策略选择小范围项目:挑选一些影响明显且可快速实施的小项目作为开始,通过这些“快速胜利”来展示数据治理的即时效益。展示成果:确保在项目完成后,有一个清晰的成果展示,向领导和全公司展示数据治理的积极影响。(4)建立数据治理沟通渠道定期报告:建立一个定期向高层汇报数据治理进展和成果的机制,如月度或季度报告。工作坊和研讨会:定期举办数据治理相关的工作坊或研讨会,邀请业务领导参与,增加互动和讨论。(5)寻找内部倡导者业务部门合作:与对数据治理有认识的业务部门领导建立合作关系,让他们成为数据治理的内部倡导者。共享成功故事:通过内部倡导者在更广泛的业务场合中分享数据治理的成功案例,提升数据治理在组织内的可见度和重要性。(6)强化数据治理团队的业务理解业务知识培训:为数据治理团队成员提供业务知识和流程的培训,提高团队对业务需求的理解和响应能力。参与业务规划:争取数据治理团队在业务规划和早期阶段的参与,从源头上解决数据问题,提升数据治理的战略地位。(7)使用技术工具提升效率引入自动化工具:利用数据治理和数据质量工具来自动化数据治理流程,提高效率,减轻手动工作负担,更快地展示成效。通过上述策略,可以有效地提升数据治理在组织中的地位和可见度,使领导层和业务部门认识到数据治理对业务发展的重要作用,从而获得更多的关注和资源支持。这些策略的关键在于将数据治理与业务目标紧密关联,展现其直接的业务价值。6、我是一名数据治理团队的负责人,公司已经成立了数据治理委员会,并且定期召集相关部门开联席会议,同时也能下发通报治理进展,但我发现各部门的配合力度有限,原因很多,比如各部门的数据管理人员有限,费用有限,认识不足,能力不够,同时数据治理工作跟各部门的本职工作有时间和精力上的冲突,我的数据治理团队又刚刚建立,对于其他部门的指导培训能力也有限,因此深感压力,请问我该怎么做?面对这样的挑战,作为数据治理团队的负责人,可以采取以下策略来提升各部门的配合力度,并有效推进数据治理工作:(1)优先级和阶段性目标明确优先级:与数据治理委员会协作,确定数据治理的重点领域和短期目标,优先解决对业务影响最大的问题。设定阶段性目标:将复杂的数据治理任务拆分为可管理的小步骤,设定阶段性目标,逐步推进。(2)资源和支持争取高层支持:积极向高层管理层展示数据治理对业务价值的直接影响,争取更多的资源和支持。共享资源:探索在部门间共享数据管理人员和其他资源的可能性,通过集中力量解决共同的数据问题。(3)培训和能力建设基础培训:组织基础的数据治理和数据管理培训,提升全员的数据治理意识和基本能力。专业发展:为有潜力的部门数据管理人员提供进一步的专业发展机会,培养部门内的数据治理专家。(4)沟通和协作机制定期沟通:定期召开数据治理进展会议,邀请各部门代表参与,分享进展、挑战和成功案例。协作平台:建立数据治理协作平台或工具,方便各部门在数据治理相关事宜上进行沟通和协作。(5)实用主义和灵活性灵活的治理策略:根据各部门的实际能力和资源情况,采取灵活的数据治理策略,避免一刀切。快速胜利:寻找可以快速实现并展示成效的小项目,以此激励团队并增强其他部门的参与度。(6)明确责任和激励责任分配:在数据治理委员会的支持下,明确各部门在数据治理中的责任和角色。激励机制:建立数据治理绩效考核和激励机制,鼓励和奖励在数据治理工作中表现突出的部门和个人。(7)展示数据治理价值成功案例分享:积极收集和分享数据治理成功案例,尤其是那些对业务产生了直接正面影响的案例。量化业务影响:尽可能量化数据治理对业务的正面影响,如提升效率、节省成本、增加收入等。(8)外部资源和专家咨询寻求外部帮助:考虑利用外部资源和专家咨询,提升团队的指导培训能力,或解决特定的数据治理难题。(9)建立反馈机制收集反馈:建立机制收集各部门对数据治理工作的反馈,及时调整治理策略和计划。(10)培养数据治理文化领导力示范:作为数据治理团队的负责人,通过以身作则,展示对数据质量和治理的承诺,树立榜样。文化宣传:通过内部沟通渠道(如新闻稿、内部社交平台、工作坊等)传播数据治理的重要性和价值,使之成为组织文化的一部分。(11)建立和维护信任透明沟通:保持数据治理过程的透明度,定期向各部门汇报进展、成果和遇到的挑战,让团队感受到进展和影响。倾听和理解:积极倾听各部门的需求和担忧,展示对他们问题的理解和尊重,共同寻找解决方案。通过这些策略,可以在资源和能力有限的情况下,逐步提升数据治理工作的效果和各部门的参与度,最终实现数据治理工作的长期成功。7、数据有哪些岗位,在职业发展前途上,数据治理相对于其它数据岗位有没有优势,为什么?数据领域内的岗位非常多样化,涵盖了从技术到管理,从分析到策略的各个方面。下面列举了一些主要的数据相关岗位,以及数据治理相对于这些岗位的潜在优势:数据相关岗位:(1)数据分析师:负责分析数据,以提供业务洞察和决策支持。(2)数据科学家:利用统计学、机器学习等方法从数据中提取知识和洞察力,通常要求较强的编程和数学技能。(3)数据工程师:专注于构建和维护支持数据分析和数据科学的架构和数据流程。(4)数据架构师:设计数据管理系统的架构,确保数据的准确性和可访问性。(5)数据库管理员(DBA):负责数据库的日常运维、性能调优和数据备份恢复等工作。(6)商业智能(BI)专家:利用数据分析和可视化工具,帮助企业理解业务数据,从而改善决策和业务流程。(7)数据产品经理:负责数据产品的规划、开发和管理,桥接技术团队和业务需求。(8)数据治理专家:负责制定和执行数据治理框架、政策和标准,确保数据的质量、安全和合规。数据治理相对于这些岗位的优势:数据治理在职业发展上被认为更有前途的原因在于其在现代企业中的核心作用和日益增长的需求。随着数据量的爆炸性增长和数据驱动决策的重要性日益凸显,组织越来越意识到高质量的数据治理对于确保数据质量、满足合规要求、提高业务效率以及实现数据安全和隐私保护的重要性。(1)战略性:数据治理专家在组织中扮演着确保数据质量、合规性和有效利用的关键角色。与其他更偏向执行层面的数据岗位相比,数据治理更加关注组织的数据战略和长期目标。(2)影响力:数据治理工作影响组织的整体数据策略,涉及到跨部门的合作与协调,其工作成效直接关系到组织的决策质量和运营效率,因此在组织中的影响力较大。(3)跨领域技能:数据治理不仅需要技术知识,还涉及法律、合规、业务流程等多个领域。这种跨领域的知识使得数据治理专家在职业发展上具有更广泛的视野和更多的机会。(4)稳定性和需求:随着数据隐私和合规要求的日益增加,数据治理变得越来越重要。企业对数据治理的需求长期而稳定,这为数据治理专家提供了良好的职业发展前景。(5)数据价值最大化:数据治理有助于优化数据管理流程,提高数据质量,从而使数据的价值最大化。在数据驱动决策日益普及的背景下,这一点对于企业竞争力至关重要。(6)合规与风险管理:随着数据保护法规(如GDPR和CCPA)的实施,组织对于遵守法律的需求越来越高。数据治理专业人员在帮助组织管理数据合规性和降低数据相关风险方面发挥着关键作用。综上所述,虽然数据治理只是数据领域中的一个岗位,但其在战略性、影响力、跨领域技能以及稳定性和需求方面相对于其他数据岗位具有一定的优势。然而,职业发展的前途也取决于个人的兴趣、技能和职业规划,因此选择适合自己的职业路径是最重要的。8、我是一名数据运维人员,我每天也在跟数据打交道,进行数据稽核和解决数据质量问题,但感觉这些工作还是比较枯燥,我不知道别人口中的有前途的数据治理工作和我当前做的工作有什么联系和区别,如果有区别,那么这些区别是什么,我应该如何做,才能转型去做数据治理?你目前的工作,即数据运维、数据稽核和解决数据质量问题,实际上是数据治理的重要组成部分,特别是在保障数据质量和数据准确性方面。数据治理工作不仅包括这些,还涉及到更广泛的内容,包括但不限于数据政策和标准的制定、数据的分类和元数据管理、数据安全与隐私保护、以及跨部门的数据共享与协作等。简而言之,数据治理着眼于组织内外的数据管理和优化,旨在提高数据的价值、减少数据相关的风险,并支持业务目标的实现。要从数据运维转型到数据治理,你可以从以下几个方面入手:(1)扩展知识面:学习数据治理的框架和最佳实践,包括数据质量管理、数据安全与隐私、数据标准化、数据生命周期管理等领域。有许多在线课程和认证可以帮助你在这些领域获得知识和技能。(2)理解业务需求:数据治理的一个重要方面是确保数据管理活动支持组织的业务目标。深入理解你的组织业务需求和目标,可以帮助你更好地定位数据治理活动的优先级和方向。(3)参与或建立跨职能团队:数据治理是一个跨职能的活动,涉及业务用户、IT专业人员、数据科学家等多个角色。试图参与或建立跨职能团队,可以帮助你获得从数据治理各个方面的经验。(4)发展沟通和影响力技能:作为数据治理专业人员,需要与组织内的不同利益相关者沟通和协作,以推动数据治理政策和标准的制定和执行。因此,强大的沟通和影响力技能是必不可少的。(5)实践项目经验:如果可能,参与或主导一些数据治理项目,如数据清洗、数据分类、数据标准化等项目。实际操作经验将是你学习和成长的宝贵财富。从你当前的工作角度出发,你已经具备了数据治理所需的一些基础技能和经验。通过进一步学习和实践,你可以逐步将自己的职业生涯定位于数据治理领域,成为这一领域的专家。数据治理是一个不断发展的领域,随着数据的重要性日益增加,数据治理专业人员的需求也会持续增长。9、很多公司开始的时候数据质量一般甚至致命,经过数据治理有了改善,但公司业务部门会认为这是理所当然要做到的,你以前没做到是你无能,请问如何应对这种观点?那些对业务有影响但不致命,又很耗精力的数据治理工作,到底做还是不做?面对公司业务部门可能认为数据治理工作的成果是理所当然,甚至之前未能达到高质量数据是无能的观点,可以采取以下策略来应对,并决定是否继续投入资源进行那些对业务有影响但不致命、又很耗精力的数据治理工作:(1)强化数据治理的价值宣传提升认识:通过教育和宣传活动提升全员对数据治理重要性的认识,解释数据治理对提高决策质量、提升业务效率和满足合规要求的作用。成功案例分享:分享数据治理带来改善的具体案例,尤其是那些直接对业务产生积极影响的例子,让业务部门了解到数据治理工作背后的努力和挑战。(2)明确数据治理与业务目标的对齐业务目标对齐:确保数据治理的目标和计划与公司的业务目标紧密对齐,使业务部门明白数据治理工作对实现其业务目标的直接贡献。参与式治理:鼓励业务部门参与到数据治理过程中来,通过让他们直接参与决策和治理活动,感受数据治理的过程和挑战,增加他们的认可和支持。(3)建立量化的成果指标量化成果:通过建立和跟踪量化的成果指标,如数据质量改善率、数据处理效率提升、业务决策改善等,向业务部门展示数据治理工作的具体成果。绩效反馈:定期向业务部门反馈数据治理工作的进展和成果,包括那些对业务有积极影响但不一定直接致命的改进工作。(4)权衡成本与效益成本效益分析:对于那些对业务有影响但不致命、又很耗精力的数据治理工作,进行详细的成本效益分析,确定是否值得投入资源。优先级排序:根据业务优先级和数据治理的长期战略目标来决定资源的分配,优先处理那些最能带来业务价值和长期收益的数据治理项目。(5)采用敏捷方法小步快跑:采用敏捷的方法来执行数据治理工作,快速实现一些小的但可见的改进,逐步积累成效,以此来增强业务部门的信心和支持。通过上述策略,可以有效地应对业务部门可能有的观点,同时合理决定哪些数据治理工作应当优先执行。重要的是要不断沟通和展示数据治理工作的价值,使其成为推动业务发展不可或缺的一部分。10、大量的数据治理工作都是碎片化的,比如源端数据提供延时,源数据格式有些问题,不需要升级,不需要跨部门,不需要制定政策和标准,对于这类小的数据治理工作,不足以展示其具体的业务价值,但又是耗精力的,如何应对这种工作?面对碎片化的数据治理工作,尤其是那些似乎难以直接展示具体业务价值、但又耗费精力的任务,采取合理的方法和策略至关重要,以确保这些工作能够有效地支持数据治理的总体目标,同时优化资源的使用。以下是一些建议:(1)优先级评估与分类评估影响:对每项碎片化的工作评估其对数据质量、业务流程和最终业务成果的潜在影响,从而确定其优先级。分类管理:将碎片化工作按类型、影响范围或紧急程度分类,便于统一管理和分配资源。(2)整合与自动化流程整合:探索将碎片化工作整合到更大的数据治理流程或项目中的可能性,以实现协同效应。自动化处理:对于重复性高的任务,比如数据格式校验,寻求技术解决方案进行自动化,以减少人力资源的消耗。(3)制定操作指南操作手册:为常见的碎片化问题制定标准操作流程和解决方案指南,提高处理这些问题的效率和一致性。知识共享:通过内部知识库共享解决方案和最佳实践,减少重复工作,提升团队整体处理能力。(4)小组协作建立专项小组:对于持续出现的碎片化问题,可以考虑组建专项小组或工作组,负责统一处理这类问题,以提高专业性和效率。跨部门协作:即使问题看似不需要跨部门合作,也可以探索与其他部门的协作机会,共享资源和解决方案,促进跨部门的沟通和合作。(5)成效跟踪与展示跟踪成效:即便是小的改进,也应该跟踪其对数据质量和业务流程的积极影响,积累案例和经验。展示价值:将碎片化工作的积极成果整合展示,向管理层和业务部门展示这些看似微小的努力如何在累积中带来显著的整体改进和价值。(6)培养文化鼓励主动性:鼓励团队成员对碎片化的数据治理工作持主动态度,作为发现和解决问题的机会,培养持续改进的文化。通过上述策略,可以有效地应对和管理碎片化的数据治理工作,不仅提高工作效率,还能在长期中展示这些工作对提升数据质量和支持业务决策的重要价值。最后,在此新春佳节之际,祝大家健康快乐,不断进步,与数据同行伴你同行!数据治理与数据资产管理平台方案
2024年2月8日
其他

数据治理与数据资产管理平台方案

宝钢集团数据治理规划(2022-2025)6462国家数据局正式揭牌4947国家数据局首次招聘启动
2024年2月2日
其他

一文详解数据治理框架图 | DGI数据治理(二)

在第一篇《读透数据治理:DGI框架全解(第一章)》中我对数据治理的六个问题进行了诠释,本篇将正式介绍DGI数据治理框架图,这是当前关于DGI数据治理框架最新最全面的解读。我们为什么需要数据治理框架呢?所有组织都需要制定关于数据管理、价值实现、成本与复杂性降低、风险管理以及遵守日益增多的法律和监管要求的决策。数据治理框架提供了一套管理数据资产的政策、程序、标准和指标,帮助组织明确复杂或不明确的概念。这种框架使来自不同领域的利益相关者能更好地合作,共同确定目标,帮助管理层和员工做出长远影响的决策,确保规则得到遵守并有效处理问题。总之,组织不仅需要管理数据,还需要一个治理系统为管理活动设定规则,就“决策的决策方式”达成共识。DGI
2024年1月30日
其他

国家统计局刚刚公布:数据造假纳入纪律处分......

让我们共同努力,为高质量的大数据发展贡献自己的力量,创造一个数据驱动发展,数据带来便捷生活的新时代。宝钢集团数据治理规划(2022-2025)6462国家数据局正式揭牌4947国家数据局首次招聘启动
2024年1月28日
其他

数据管理关键技术顶层设计

宝钢集团数据治理规划(2022-2025)6462国家数据局正式揭牌4947国家数据局首次招聘启动
2024年1月26日
其他

数据治理核心工作内容

数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁能根据什么信息,在什么时间和情况下,用什么方法,采取什么行动。数据治理专注在数据本身。数据治理的目标,是对数据质量进行提高,同时确保数据的安全性,推进数据资源的整合、共享进程数据治理是对数据实现全生命周期管理。只要是为整个数据生命期而展开的业务、技术、管理活动,都属于数据治理的范畴,包括但不限于传统数据集成和存储环节的工作(如数据采集、清洗、转换等)、数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等。任何一个企业进行实施数据环境治理都不是为了治理数据而治理数据,想要进行数据管理就要会找症状,明确目标,其背后都是通过管理和业务发展目标的驱动。有效的数据治理计划通过改进决策,降低成本,降低风险和提高安全合规,所以说数据进行治理对于确保信息数据的准确、适度分享和保护是至关重要的。最终反映增加的收入和利润,使业务具有价值。说明:本文部分文字与图片资源来自于网络,分享此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即后台留言通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意。宝钢集团数据治理规划(2022-2025)6462国家数据局正式揭牌4947国家数据局首次招聘启动
2024年1月24日
其他

读透数据治理:DGI框架全解(第一章)

数据治理的重要性不言而喻,但许多人却难以区分数据治理与数据管理的区别。这是一个严重的问题,因为这两者的使命和价值截然不同。尽管像DAMA、DCMM和《华为数据之道》这类读物都对数据治理有所论述,但客观来讲,它们在系统化方面仍显不足,更多的是关于数据管理的内容。以DAMA的经典车轮图为例,数据治理仅占其中一个章节,DAMA的中文翻译也叫数据管理框架,不少人会误将数据治理视为数据管理的一部分。《华为数据之道》的核心内容位于第二章《建立企业级数据综合治理体系》,专注于数据治理,但该书的其他章节主要讨论的还是数据管理。我们认为数据治理之所以重要,是因为它涉及数据工作的“道”,相对于数据管理这一“术”的层面。许多公司在数据方面表现不佳,根本问题不在于“术”,而是“道”的层面出现了问题。例如,自己曾长期负责数据仓库的管理,但常深陷于数据质量的泥潭,通常仓库内的数据质量问题总是可以解决的,但一旦涉及业务源头就很头痛,因为沟通成本太高了。我能做的就是在下游拼命修复和维持。那个时候的我不懂数据治理,也无从谈起用数据治理的手段来解决这种跨部门的问题。值得注意的是,很多人在日常工作中实际上已经在进行数据治理,却可能并未意识到,这可能会阻碍其做进一步的提升,因为不知其所以然。例如,公司很早就有负责数据安全的专职部门,但我从未意识到他们做的就是数据治理的工作,导致在建章立制的时候忽视了其参与的重要性。当我初次接触到DAMA(数据管理协会)时,其关于数据治理的定义让我印象深刻,却又不明觉厉,“数据治理指的是对数据资产进行管理的权力行使、控制和共享决策(包括规划、监测和执行)的活动。”这种定义比较抽象,对许多人来说晦涩难懂。例如,定义中的“行使权力”、“控制”、“规划”和“执行”等词其实每个都意味深长,如果不进行系统化的阐述,很难让人理解其真实的内涵。最近几年,我在数据治理方面进行了一些实践,才对数据治理有了进一步的认识。去年,我撰写了两篇文章《数据治理VS数据管理,ChatGPT用通俗的类比和案例终于讲清楚了本质区别!》和《数据治理的
2024年1月22日
其他

上海市数据局揭牌成立

日前,上海市数据局正式揭牌成立。据悉,此次上海市数据局的成立,将完善上海大数据管理机构的设置和职能配置,在协同联动下再次促进上海数据要素生态的创新和发展,同时对全国后续开展的市县机构改革起示范作用。数据交易“上海模式”渐成近两年,上海高度重视数据要素基础制度建设及生态体系发展,先后成立上海数据交易所、上海数据集团等多个相关单位。2021年11月,上海数据交易所正式揭牌成立。该数据交易所的设立,重点聚焦确权难、定价难、互信难、入场难、监管难等五大关键共性难题,形成系列创新安排,提出“五大首发”:一是全国首发数商体系,二是全国首发数据交易配套制度,三是全国首发全数字化数据交易系统,四是全国首发数据产品登记凭证,五是全国首发数据产品说明书。目前,上海市数据核心企业突破1200家,核心产业的规模超过3800亿元,上海数交所挂牌的数据产品达到1700多个,交易金额10亿元左右。2022年9月,上海数据集团有限公司正式成立。据国家企业信用信息公示系统(上海)显示,上海数据集团有限公司,
2024年1月20日
其他

如何写好年终总结?V4.0

你好,我是林骥。每到年底,就有很多人为怎么写好年终总结而发愁,耗费了很多脑细胞,也花了很多时间和精力,但可能还是不知道该写点什么好。看似枯燥乏味的年终总结,其实是每个人都应该重视的「必修课」。假如你辛辛苦苦、加班加点写的年终总结,却被领导说看不到重点,你会不会觉得很委屈?比委屈更严重的是,你失去了一次真正展示自己才华的机会。写好年终总结,核心就是要讲清楚两件事情:①
2024年1月11日
其他

吴恩达最新预测:关于AI,这些事未来十年不会变

分享:吴恩达等,来源:量子位在吴恩达最新的一封来信中,他认为有几件事情在接下来十年内都不会发生改变。(以下是吴恩达来信原文)亲爱的朋友们,人工智能的发展速度超过以往任何时期,这一现象令人振奋。然而,快速变化可能导致迷失方向。在这种情况下,遵循杰夫·贝佐斯(Jeff
2024年1月10日