智能时代的数据炼金术:从特征工程到组件化建模
导读 本文将分享智能时代的数据炼金术,从特征生产到组件化建模。
包括以下三个内容:1. 特征生产
2. 组件化建模
3. Q&A
分享嘉宾|刘国强 阿里云 高级开发工程师
编辑整理|王丽燕
内容校对|李瑶
出品社区|DataFun
特征生产
1. 特征平台介绍
2. 特征生产
捕捉时间趋势,比如在用户行为数据中,最近一段时间的行为可能对当前的状态有比较大的影响,用户最近几天的点击率可能比一个月之前的点击率更能反映当前的兴趣偏好。
降低噪音。原始数据中可能包含大量的噪音,我们通过统计变换,或者聚合操作可以减少噪音的影响。比如简单的点击次数可能受广告位的随机影响比较大,但是一段时间内的平均点击率则更稳定。
丰富特征。通过特征工程可以生成新的特征,增强模型的表达能力。比如除了阅读数特征,还可以引入阅读增长率、平均阅读时长,为模型提供更多的信息,可以让模型更好地拟合标签。
提高模型性能。通过引入一些统计特征,可以显著提高模型的预测性能,因为这些特征更稳定,在多天或更长的窗口上进行统计特征,更能准确地反映潜在的模式。
增强解释性。统计特征更加易于解释和理解,使得问题的诊断和分析更为方便,比如可通过查看一些长期和短期的统计数据推断某些行为的变化趋势和原因。
数据压缩。在某些情况下,统计特征可以有效地减少数据的维度,比如用过去一年的平均值代替每日的数据,从而简化模型的复杂度。
特征生产的实现过程比较复杂,有可能每实现一步,就要进行一些校验,然后判断逻辑实现是否正确,还需要写一些冗长的语句,会耗费较多时间。
计算过程难以优化,需要对大数据平台进行比较深入的了解,阅读文档,需要使用哪些关键字、哪些功能,也是非常耗时的。
线上线下不一致现象频出,在推荐广告、风控或者其它一些场景中都经常出现。
同一套特征生产定义。
根据定义生产出各种特征。
特征生产出来是一个执行过程,支持本地进行调试,也适配各个大数据平台运行,如果从大数据平台 a 切换到 b 大数据平台,不需要整个的定义过程,只需要改其中的某个参数,指定大数据平台就可以。比如从 MaxCompute,到 Flink,特征生产定义都是同一套,可以在多个平台运行,还包括 Spark。
保证在线和离线的一致性。
优化计算过程,节省计算资源。通过引入中间表,做中间结果的存储可以极大地节省计算时间。如果在大数据平台训练,其计算也会节省一些费用,计算时间也会更短。
统计特征的实时更新。
优化用户使用功能。支持定义多个根据不同的 group key 进行连接, 还有考虑如何让用户使用起来更方便等相关优化。
优化计算过程。特征的产出需要非常多的时间,通过存储一些中间表,把中间的结果存储下来,可以节省资源,提高运行效率。
支持同窗口的自动归并,不同窗口自动连接,比如点击数可能会定义 1 天、3 天、7 天、15 天、30 天、45 天,甚至是 60 天、90 天等长时间窗口的统计。还能定义很多别的特征,比如点赞的统计、评论的统计,使用的过程中可能会做特征变换,在变换的过程中,对于同窗口会自动的归并,不同窗口会自动地做连接,比如用 left join,把 1 天、3 天、7 天、15 天、30 天等窗口 join 起来。
同一个 group key 一起计算,不同的分组关键字自动连接,与不同窗口类似,不同的 group key 不需要放在多个 SQL 中实现,只需要放在一个 pipeline 流程里面即可实现自动连接。
类型的自动推导。用户不需要指定输出类型,会根据输入特征的类型和聚合函数,做类型的自动推导,极大方便用户使用的门槛。
内置自动扩展函数,支持特征变换自动扩展,只需要根据扩展函数输入要做的特征的一些统计,就能生成成百上千个特征,如上图左侧单个特征示例,单个特征定义比较简单,指定聚合函数、判断条件和 group key、窗口,就可以进行单个特征清晰地定义,但是如果要添加多个特征,单个特征地加比较麻烦,就可以用自动扩展函数生成成百上千个特征,比如上图右侧示例指定了要做输入的一些统计,可以生成 96 个特征,这个函数用户可以根据自己的场景来进行一些修改,生成出适配自己使用场景的函数。
类型自动推导。
支持不同的分组关键字的自动连接。
统计不同窗口特征的时候计算量很大,比较浪费计算资源,我们引入了中间临时表,将每天的计算过程临时存储下来,当计算新的一天时,只需要汇总结果即可。这个过程的优化大幅缩短了计算时间,提高计算效率。比如对 n 天的样本统计,计算完⼀次后,下⼀次不需要再重新计算 n 天,只需计算第 n + 1 天,然后汇总。执行的过程还支持第一次执行自动补全中间临时表数据。
内置自动扩展函数,支持特征的自动变换扩展。
02
组件化建模
Q&A
分享嘉宾
INTRODUCTION
刘国强
阿里云
高级开发工程师
浙江大学计算机学院硕士,目前在阿里云工作。
活动推荐
往期推荐
快手指标中台建设实践
Llama3 92页技术报告中文全文详解
大模型+企业数据=下一个时代的决胜关键
新一代实时数仓:阿里云数据库 SelectDB 版--100% 兼容 Apache Doris 的全托管云原生实时数仓
国内大模型最先支棱起来的,是落地?
AB实验的采样分流技术演进以及Sutva假设与现实挑战
DataOps+大模型促进数据工程创新
大语言模型在推荐系统中的探索与应用
从0到1:广告营销多智能体架构落地全攻略
Agent+RAG:大模型真实应用场景落地探索
点个在看你最好看
SPRING HAS ARRIVED