查看原文
其他

课程实录 | 数据科学与业务融合:解锁企业增长的新密码

数字寰宇 指令者
2024-10-09

点击关注“指令者”公众号,获取更多信息


指令者导读

6月12日,数字寰宇数据资产公开课第一期上线!!


谢尔曼博士以《从“数商”谈起——数据科学和数据价值的创造逻辑》为主题带来了直播讲解,想要观看“回放”的小伙伴,点击“阅读原文”观看完整回放。


以下是直播的完整课程实录:

各位同学,今天探讨数据资产化和数据要素的价值以及价值如何产生应该如何管理这些能够产生价值的数据?同时,国家如何认识数据要素的价值?

作为企业需要了解如何利用企业内部的要素、如何引入外部要素、如何科学归类管理估值等工作。接下来,通过三个课时分享,初探数据要素的价值和产生机理我国在数据要素管理的重要举措--如何进行数据入表以及在这样的大背景下,如何做好数据资产管理。

今天要探讨数据要素产生价值的背后机理是什么?哪些场景能够产生价值?为了产生价值,我们需要完成哪些工作?


01

数据科学与数字智能


首先通过几个场景来探讨数据的价值。这也是为什么要将数据作为继土地、劳动力资产科学技术之后的第五大要素。

我们可以举例说明,上面这张图是抖音的产品图。大家用过的目前流量价值最高的几个APP,除了微信之外,抖音是极其大的一个流量主,包括今日头条,抖音,西瓜视频等等,头条叫文字化的新闻,就网页版的新闻。抖音是短视频,西瓜视频是长视频。

请大家思考这样的公司,整个生产是怎么围绕数据展开的。每个用户在平台上的所有浏览记录,包括观看了哪些视频、暂停了哪些以及在哪些地方会多看重复播放、哪些地方会快进、哪些视频会用倍速播放等都会记录下来。

记录下来的数据被分析、建模,并为每位客户打上标签。标签是比较形象的比喻,后面通过复杂的算法,进而在浏览过程中植入相应的广告。

目前广告包括硬广告和软广告,像很多up主本身就在内容上投入广告。这形成了一个庞大的生态,大家可以想象这些生态都是数据。除了数据之外,即使是平台上的视频,例如抖音上的视频也并非由抖音生产,而是由每个用户自己产生。这样就形成了一个完美的数据闭环。

在这个过程中,用户观看视频和内容享受到内容服务的同时,又贡献了自己的时间和注意力,进而吸引广告主投放广告、购买流量。Up主又能够借助生态不断创造新内容,形成完美的闭环。闭环中最重要的部分是数据驱动、智能算法、内容分发、流量分发以及增长闭环,这些都是依靠数据分析实现。

大家明白了数据的价值。再例如,在电商平台购买产品时,用户会根据浏览猜测喜欢某个商品、推荐配件等。这些看似不起眼的广告位,实际上每年产生订单的占比相当高,转化率比配置的广告还要高。

还有,在淘宝店铺网上购买产品时,可以花一个很低的价格购买运费险。同样的产品,不同用户的价格不同,定价存在差异。因此,这也是依靠数据才能够产出的产品。如果没有数据积累和分析能力,这个产品就无法产出。

例如,使用的地图,我们最近半年前后的红绿灯计算。红绿灯的计算并非与交管部门接通数据,而是根据每辆车和每个使用地图的手机上报的数据计算,包括拥堵情况也是如此,地图可以帮助我们计算需要多长时间。时间的计算也是基于用户自己的数据通过算法进行计算的。

例如,金融行业,最近几年面向小企业基于税务的贷款体量,从15年前后的0增长到现在接近10万亿的规模,促进了数百万个小微企业获得不需要抵押的信用贷款,价格也非常便宜。它依靠的是税务数据和银税互动,包括涉诉的司法裁判文书数据,以及将拍卖等一系列公开数据融合起来,产生了一个效用。它大大降低了我们获得资金的门槛和信息获取的成本,从而可以大幅度降低小企业获得贷款利息的成本。

通过这几个案例,可以明白数据的价值巨大。在过去没有信息化的时代,它们不具备产生的条件。随着数字化程度的加深,政务、企业和商业都在不断数字化,越来越多的真实世界数据被积累。在这种情况下,如何利用数据并运用科学的方法提高数据价值?

我们将其形象地比作榨油机,通过不同的方法和工艺将数据榨出油并产生价值,这就是数据科学。

在日常工作生活中,有很多关键词,例如统计、知识发现、人工智能和数据挖掘等,这些都是数据科学的不同侧面。横看成岭侧成峰,许多概念和名词其实是同一件事情。此前,这个专业被称为数据挖掘,后来又称为机器学习,再后来又称为AI。虽然一个东西名字不断更换,但是大家给我们的帽子本质上是相同的做法。

因此,如何让数据产生价值,依靠数据科学。数据科学是一门跨学科领域,它利用科学方法从结构化、非结构化的各种数据中理解现实现象,吸取知识。其本质是在数据空间中理解发现物理空间中的规律,进而改造物理空间,进一步反馈到数据空间,形成循环迭代、螺旋上升的过程。这正是我们的数据科学或者数据人需要做的事情,并且持续不断地完成这些工作。

既然在这样的理论框架下,我们的数据如何发挥价值?

我们在各行各业中进行了大量实践,包括团队和数据人。这个群体持续不断地在企业、商业和政务中发挥各种功能和作用,简而言之就是打造一个业务闭环。在智能商业的反馈闭环中,用户的每次行为都转化为数据,成为算法的养分。而算法又驱动产品不断改善,数据在流动,算法在成长,产品在迭代。

无论是早期的百度、腾讯、阿里还是现在的字节跳动,他们都在做这样的事情。用户的行为让用户在平台上产生行为,积累数据,数据成为算法的养分,不断驱动算法变得更加精准和准度更加高。

互联网企业中,传统企业和非互联网企业占据了大量数据,规模相当大。他们在信息化和线上自动化过程中积累了大量数据,逐渐实现智能化。在这个过程中,最关键的是构建业务和数据闭环。

因此,最重要的是通过数据模型生产出数据产品。基于模型产出数据产品,基于介质数据产品,在业务场景中创造价值。建模对于从业者和非从业者而言都存在神秘感,即什么模型能起作用,什么模型效果不好,怎样才能有效,从而产生价值。这背后有一套方法论。

我们的模型根据复杂程度通常分为三个部分,第一个是专家规则,这种规则也可以被视为某种模型。例如,金融行业在十几年前发行信用卡,给用户多少额度,这个过程是依靠专家规则来实现的。

第一个是统计模型,比专家规则更加精准,专家规则是逐条进行,而统计模型能够将多个因子通过一个模型进行转化。

第三个是机器学习模型,机器学习模型能够学习大量数据样本,因此其学习能力更强。

最近热门的LLM,即大语言模型,它是机器学习的一种深度神经网络。因此在解决现实问题时,我们会根据数据量和项目能调用资源的大小来选择方法。实际上,没有好坏,只有合适。

不同的模型在应用时都有相同之处,需要通过业务经验总结。这些模型通常需要经过业务解释论证和样本统计验证,不仅在某个时间段管用,还能在多个时间切片上都管用。我们使用这个模型时包括规则组、专家打分公式和打分卡等都是专家的东西。

根据具体业务要求,分为探索性建模和程式化建模,通常在经营管理中被用程式化建模,例如银行,我们经常使用尿酸IFS9和巴塞尔协议III等程式化建模。在业务一线,像精准营销,并在具体产品线上进行数据质量分析和机械故障预测等,这些都是探索性建模,没有程式可循,难度更大。

第一部主要的内容是数据的价值非常高,日常生活中越来越离不开数据带来的价值。数据价值的产生需要的核心能力是数据分析和建模。目前日常生活中使用的任何网络功能背后都有算法。无论是短视频、今日头条,还是在电商平台上推荐的产品,或者在运费险购买瞬间的定价产生,都是通过模型计算得出的结果。甚至你接到的骚扰电话也是通过模型计算得出。


02

业务数字化,到底有多难


接下来讨论业务数字化。对于一个千行百业的企业而言,他们都积累了大量数据。这些数据都能产生,类似于在互联网平台上产生的价值,但实现是比较难的,难度究竟有多大?

经常提到模型,只有模型具有有效性才能产生价值。模型之所以具有有效性,是因为模型是数据规律的凝练,是数据与物理世界的映射关系,这决定了模型的有效性。数据建模时使用的数据与物理世界的映射关系越密切,模型就越有效。

我们需要满足4个条件,即数据好、算法对、场景配以及有反馈。这4个条件,数据好即数据精准且尽量表征场景中的全部信息。算法对是算法能够很好地凝练数据规律,与数据量和特征复杂度相匹配。场景配是模型的使用与训练与物理场景的契合度很高。最后,有反馈是数据必须形成闭环,否则模型的价值一定无法持续。因为建模时数据一定在变化,例如一年前的数据样本,使用了半年,这与当时建模时的样本有偏差,由于社会发展,再使用一年或者半年偏差更大。因此,算法必须有闭环。如果模型无法有效利用,数据和算法就无法很好地反馈,数据的价值就无法充分体现。

这里罗列的4个条件或者场景,可以对比自己的工作场合,如果有数据分析或者了解业务,可以进行比较。数据、反馈或者算法不正确的问题都存在这种可能性。因此,要找到合适的业务数字化场景仍然具有一定难度。


03

业务数字化,重心是什么


算法需要对数据准确,场景需要匹配,并且需要有反馈。在最关键的条件具备之后,还需要有一个优秀的团队。这件事情确实具有难度。在过去5年的时间里,无论是装备制造还是轻工业制造,都看到了数据所产生的价值。

例如,航空发动机制造,利用这些数据可以较好地提升合格率。再例如,前几年一家很有名的企业,专注于个性化服装定制,它通过数据流的打通,实现了低成本的个性化定制西装,这些都是数据与业务结合起来产生价值。

数据人的革命理想就是在这样的范式之下。通过训练得到了一个模型,只要经过测试,这个模型就在这里。在业务场景中产生新数据后,能够进行预测。这就是模型运用的范式。所以,模型在手,天下我有。很多人认为数据价值的产生重点在于构建模型,需要掌握Python、建模以及统计学,这是必要条件,而非充要条件。

为了产生价值,仅靠抓住建模方法是远远不够的,更多需要对业务和场景的深入理解才能够实现。

我们曾经看到一些外行宣传,例如利用深度学习方法,从基础数据中提取10万维特征,建立针对企业授信的违约预测模型。数据专家一看,就认为这个数据不靠谱,因为样本量不足够,需要驱动深度学习的算法,这么多维的特征,样本量必须足够多。对公信贷,有些银行可能1年都无法放出1000个企业,所以样本肯定不够,这就闹出笑话。

例如,银行智能推荐,如何提高理财产品的营销效率。在10年前,就进行过这样的探索,发现效果不佳,原因是用户没有决策权。在所有人都在使用企业网银的情况下,出纳使用的频率最高,财务主管频率较低,老板很少使用企业网页,因此他们没有决策权等。因此在业务中遇到的问题在算法、数据、场景和反馈方面,很难构建一个现实世界,无法尽可能运用数据科学的方法产出价值。

总之,模型非常重要。在真正的业务过程中,数据人有多年的体会,如果没有理想的情况下,我们需要去做。我们的重心应该是下面这几件事。

首先,以照相为例,要掌握相机的技术非常困难,包括快门、光圈和ISO,拍一张照片技术确实非常困难。很多人虽然理解了这些技术,但是仍然拍不出非常好的照片。这是为什么?

除拍照这几个概念之外,还需要把控很多现场信息,例如构图、色彩、立意、意境等,这些都是技术之外的。如果建立不好模型,那么它也没有用处。因此对于拍照这件事情,重心是设备吗?你背了一堆设备就能拍出好照片吗?大概不是。可能更多的还是在构图、色彩、立意、意境和技术之外。

射击火炮武器操作难吗?也非常难。在打仗方面,操作武器射击是关键?更多的战场信息、理论知识和业务动作需要具备更广泛的视野。所以,武器操作只是很小的部分,需要在战略、战役层面清楚占比。

因此,在业务数字化方面,我们需要打破Gap。业务人员认为数据分析师可以胜任各种工作,只需要完成即可。然而,数据分析师的最大局限性在于,并非每个分析师或者团队都能够完全理解业务。同样在一个机构中的数据团队可能距离业务一线较远。因此业务数字化的重心不是建模。


04

业务数字化,实战怎么打


重心是什么?重心有以下几点,首先需要具备业务思维,能够看到全局并找到痛点。通常数据产品研发都是从业务调研开始摸底分析,分析的底是两个方面,一个是业务底,另一个是数据底。在这种情况下,结合业务调研的业务摸底找到一些可能的切入点进行专题分析。分析结束之后才是建模工作,而不是抓住重点。因此我们需要明确业务目标约束条件,包括过去尝试市场态势和投入资源的情况。只有在战略层面和战术层面,才能真正打好战斗层面的建模。

离开这些,建模就是无本之木、无根之木和无源之水。例如,在客户营销分析方面,闭环需要进行大量工作,每一步都需要进行细致的研究。建模仅是最后一步,甚至有些业务分析可能并不需要建模就能产出效果,这在过去的实践中屡见不鲜。

第二个要素是什么?需要“中西医结合”,既要使用统计方法,也要使用算法方法,不能仅依赖统计,直接建立高阶模型。这类比赛非常多,我们发现对业务有帮助的方法往往不一定是算法最酷炫的方法。

从这种视角,找到一个有价值的视角比算法更加难得。2019年11月,高善文经济学家进行了观察。他的观察是将转型经济与中国、日本、韩国、台湾地区进行了比较,将时间对齐到0点,0点并非具体年份,而是放在每个国家经济换挡的年份上。日本早一些,韩国晚一些,台湾晚一些,中国大陆更晚一些。因此,当将这个观点放到这里后,你就能够看到中国到达这里后的变化。

这种观察非常难得,我们并不评判他的观察是否正确。虽然这种观察并未制作任何高阶模型,但是这种视角具有很高的价值。

第三是构建闭环,以营销为例,在适当的场景和时机下选择客户,以合适的方式进行营销。当然,还包括线上和线下渠道。最关键的是必须形成闭环,任何一次动作都要形成闭环,这非常重要。

第四,在进行数据模型时必须有逻辑。许多从事数据分析工作的同事和同学在某些方面欠缺业务逻辑,这些业务逻辑指什么?不仅要理解业务场景,抓住第一性原理。因此我们经常提到数据人需要学习如何撰写文章,如何用金字塔框架精准描述业务,这样才能有助于做好分析。

第五点是要站得足够高,业务实践与理论研究紧密结合。任何业务场景都有其背后的知识。以做过的航空发动机故障预测为例,需要了解航空发动机的整个原理,它分为几个部分,传感器收集的信息以及背后有怎样的科学研究支撑,只有清楚这些信息,才能站在巨人的肩膀上,给出好的方案。

第六点是两脚沾泥。我们经常提到,不想成为将军的司机并非好厨师。对于数据这件事情,越来越多的能力需要同时兼备,要懂数据原理和业务,通晓具体的业务场景。无论是营销、机器生产流程优化、机器视觉模型、故障诊断还是计算广告等,都需要了解业务场景中的关键人物,关键业务流程产出和记载的数据,这些数据反映了怎样的业务现实,这非常关键。

你需要会建模、数据分析、编写Python等技能,并且建立各种模型,最终才能实施。需要通过信息系统工具试点使用这些模型,进而将其转化为最后的信息系统,这样就将数据产品转化为真正有效的信息系统产品。

总结:

随着各行各业信息化和数字化的深入,数据要素的价值日益提高。无论是常见的互联网平台,以数据治理和数据经营为主要业务的金融机构,还是千行百业的制造业、商业和服务业,都依靠数据创造了大量价值。

那么,数据创造价值背后的机理是什么呢?就是依靠科学的数据分析方法与建模方法。建模模型采用从难到易的规则统计到机器学习。最近几年大语言模型ChatGPT的产出,都为数据价值提供新的助力,无论是帮助我们编写代码还是理解业务,都对我们有所帮助,这是数据模型。

数据模型完成后是否能够产生业务价值?好的武器需要有好的战略设计和战术素养,最终才能打好战斗。

要产生价值,需要尽量了解业务,具备顶层思维和良好逻辑,敢于尝试,才能在业务场景中创造更好的价值。

展望未来,随着物联网、云计算和移动互联网技术的持续发展,物理空间中越来越多的经济生活细节被更加细致、全面、及时地映射量化到数据空间。

通过数据科学方法和设计有价值的数据产品,可以把握经济生活和业务场景的内在本质,在数据空间中探索新规律,构建新模型,在物理空间中拓展新场景,创造新价值,为客户提供服务,助力实体经济发展壮大。这是数据人孜孜的追求。

在数字经济时代,任何一个企业的经营者、业务负责人和骨干都应该做我们想要做的事情。在数字化或者数据要素价值产生方面,前路漫漫。让我们共同共勉,共同前进。

END


"🎉 安全界的新天地,等你来探索!🚀

👨‍💻 工作的小伙伴们,想要建设更安全的网络/数据/AI家园吗?👩‍💻 学习的小伙伴们,想要掌握最前沿的技术风向吗?🌐 无论你是谁,这里都有你想要的全球网络/数据/AI安全资讯和技术!

🎁 加入我们,你将有机会获得:

  • 独家安全建设秘籍

  • 最新技术理念大揭秘

  • 网络/数据/AI安全资讯,一手掌握

  • 还有不定期的资料包,让你惊喜连连!

想要加入这个充满智慧和乐趣的群体吗?快扫码添加小助手微信,回复「加群」,开启你的安全之旅!

微信号|HY-xiaoyu01

继续滑动看下一个
指令者
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存