大数据与机器学习文摘

其他

图解最常用的 10 个机器学习算法!

作者:james_aka_yale链接:https://medium.com/在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学习的主要任务。打个比方,如果你想打扫房子,你可能会用到吸尘器、扫帚或者拖把,但你肯定不会拿把铲子开始挖坑吧。对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,便于大家更好地理解和应用,快来看看吧。01
其他

什么是BI、数据仓库、数据湖和数据中台,他们有什么差异?

随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。一、BI商务智能(BI,Business
其他

万字详解大数据架构新概念

来源:五分钟学大数据随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR
其他

数据仓库:详解维度建模之事实表

来源:五分钟学大数据每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。一、事实表基础1.
其他

Flink 流数据传输原理,你搞懂了吗?

中取数。算子间数据传输示意图下图的逻辑执行图(ExecutionGraph)和物理执行图更加直观地展示了算子之间的数据传输模型。逻辑执行图和物理执行图3.1
其他

元数据管理实践 & 数据血缘

来源:大数据技术团队什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和使用数据,另一方面是为了让平台管理人员能更加有效的做好系统的维护管理工作。出发点很好,但通常这些元数据信息是散落在平台的各个系统,各种流程之中的,而它们的管理也可能或多或少可以通过各种子系统自身的工具,方案或流程逻辑来实现。那么我们所说的元数据管理平台又是用来做什么的?是不是所有的信息都应该或者有必要收集到一个系统中来进行统一管理呢,具体又有哪些数据应该被纳入到元数据管理平台的管理范围之中呢?下面我们就来探讨一下相关的内容。元数据管理平台管什么数据治理的第一步,就是收集信息,很明显,没有数据就无从分析,也就无法有效的对平台的数据链路进行管理和改进。所以元数据管理平台很重要的一个功能就是信息的收集,至于收集哪些信息,取决于业务的需求和我们需要解决的目标问题。信息收集再多,如果不能发挥作用,那也就只是浪费存储空间而已。所以元数据管理平台还需要考虑如何以恰当的形式对这些元数据信息进行展示,进一步的,如何将这些元数据信息通过服务的形式提供给周边上下游系统使用,真正帮助大数据平台完成质量管理的闭环工作。应该收集那些信息,虽然没有绝对的标准,但是对大数据开发平台来说,常见的元数据信息包括:数据的表结构Schema信息数据的空间存储,读写记录,权限归属和其它各类统计信息数据的血缘关系信息数据的业务属性信息下面我们针对这四项内容再具体展开讨论一下数据的表结构Schema信息数据的表结构信息,这个很容易理解了,狭义的元数据信息通常多半指的就是这部分内容了,它也的确属于元数据信息管理系统中最重要的一块内容。不过,无论是SQL还是NoSQL的数据存储组件,多半自身都有管理和查询表格Schema的能力,这也很好理解如果没有这些能力的话,这些系统自身就没法良好的运转下去了不是。比如,Hive自身的表结构信息本来就存储在外部DB数据库中,Hive也提供类似
其他

数据治理体系全面指南

来源:五分钟学大数据数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。1
其他

吴恩达:机器学习的六个核心算法

独立工作,对具有两种以上可能结果的情况进行了逻辑回归。进一步的工作产生了有序逻辑回归,其中结果是有序值。为了处理稀疏或高维数据,逻辑回归可以利用与线性回归相同的正则化技术。图注:David
其他

大公司病了,这也太形象了吧!!!

成员失业关注「大数据与机器学习文摘」看精选技术文章和最新行业资讯点赞和在看就是最大的支持❤️
其他

ETL 常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle

来源:网络ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础
其他

机器学习回归模型相关重要知识点总结

不会改变较低的值,但在较高的值时则会产生非常大的差异,从而产生很大的方差差异的数据点。九、方差膨胀因子的作用是什么?方差膨胀因子(vif)用于找出使用其他自变量可预测自变量的程度。让我们以具有
其他

马斯克裁撤推特一半员工,赔 3 个月工资赶人,传机器学习团队 90% 成员失业

天的代码以供审查,又有消息说,马斯克又要求他们撕掉代码,并在电脑上默写一遍。这种行为收获了一些嘲讽,说他「不讲武德」,同时也有人表示支持,说这是贯彻了「Show
其他

综述论文:机器学习中的模型评价、模型选择与算法选择!

的最优选择的实际提示。论文展示了用于算法对比的不同统计测试,以及处理多种对比的策略(比如综合测试、多对比纠正)。最后,当数据集很小时,本文推荐替代方法(比如
自由知乎 自由微博
其他

下围棋碾压人类的 AlphaZero,开始搞数学算法了,先从矩阵乘法开始!

来源:新智元【导读】DeepMind碾压人类高手的AI围棋大师AlphaZero,下一个目标是数学算法!现已发现50年以来最快的矩阵乘法算法。下围棋碾压人类的AlphaZero,开始搞数学算法了,先从矩阵乘法开始!
其他

浅谈 Spark 在大数据开发中的一些最佳实践

:在内存中缓存并进行2次备份,如果内存不足将写入磁盘MEMORY_AND_DISK_SER:在内存中缓存并序列化,如果内存不足将写入磁盘MEMORY_AND_DISK_SER_2
其他

数据仓库指标体系搭建实战

点击标题可跳转1、数据仓库分层你清楚了吗2、漫谈数据仓库的分层架构与演进3、一文理解实时数据仓库的演进关注「大数据与机器学习文摘」看精选技术文章和最新行业资讯点赞和在看就是最大的支持❤️
其他

你的 Flink 数据重分区又设置错了?Flink 重分区算子详细解析

channels.rebalance()算子是真正意义上的轮询操作,上游数据轮询下发到下游算子,注意与broadcast()算子的区别,上图颜色点代表两者数据分发的区别。private
其他

Datax3.0 + DataX - Web 打造分布式可视化 ETL 系统

./modules/{module_name}/bin/env.properties找到SERVER_PORT配置项,改变它的值即可。当然也可以单一地启动某一模块服务:./bin/start.sh
其他

神经网络可视化有 3D 版本了,美到沦陷!

做计算机视觉,离不开CNN。可是,卷积、池化、Softmax……究竟长啥样,是怎样相互连接在一起的?对着代码凭空想象,多少让人有点头皮微凉。于是,有人干脆用Unity给它完整3D可视化了出来。还不光是有个架子,训练过程也都呈现得明明白白。比如随着epoch(迭代次数)的变化,训练过程中各层出现的实时变化。为了能更清楚地展示网络细节,用户还可以在其中自由地折叠、扩展每个层。比如将特征图在线性布局和网格布局之间转换。折叠卷积层的特征图输出。对全连接层进行边绑定(edge
其他

机器学习必知必会 10 大算法!

的选择很关键:较小的值可能会得到大量的噪声和不准确的结果,而较大的值是不可行的。它最常用于分类,但也适用于回归问题。用于评估实例之间相似性的距离可以是欧几里得距离(Euclidean
其他

永远退出机器学习界

网友pruby表示,我太懂这种无聊的感觉了,但你应该换一个工作方向,而不是离开。思考下一步的方向可能需要几个月或几年才能彻底确定下来,所以最好不要「裸辞」。
其他

万字长文 + 图解,带你轻松学习 Spark

提供了对实时数据进行流式计算的API,支持Kafka、Flume、TCP等多种流式数据源。此外,还提供了基于时间窗口的批量流操作,用于对一定时间周期内的流数据执行批量处理。5)MLlibSpark
其他

吴恩达:机器学习的六个核心算法

独立工作,对具有两种以上可能结果的情况进行了逻辑回归。进一步的工作产生了有序逻辑回归,其中结果是有序值。为了处理稀疏或高维数据,逻辑回归可以利用与线性回归相同的正则化技术。图注:David
其他

机器学习 11 种特征选择策略总结!

本文与你分享可应用于特征选择的各种技术的有用指南。太多的特征会增加模型的复杂性和过拟合,而太少的特征会导致模型的拟合不足。将模型优化为足够复杂以使其性能可推广,但又足够简单易于训练、维护和解释是特征选择的主要工作。“特征选择”意味着可以保留一些特征并放弃其他一些特征。本文的目的是概述一些特征选择策略:删除未使用的列删除具有缺失值的列不相关的特征低方差特征多重共线性特征系数p
其他

大规模深度学习框架 DeepSpeed 使用指南

最常见的深度学习框架应该是TensorFlow、Pytorch、Keras,但是这些框架在面向大规模模型的时候都不是很方便。比如Pytorch的分布式并行计算框架(Distributed
其他

全网最全系列 | Flink 原理+知识点总结(4 万字、41 知识点,66 张图)

Trigger,Trigger上会有定时器,用来决定一个窗口何时能够被计算或清除。每当有元素加入到该窗口,或者之前注册的定时器超时了,那么Trigger都会被调用。Trigger的返回结果可以是
其他

DataX 秀起来: 从 MySQL 同步数据到 Doris

id,user_id,group_type,group_id,event_type,event_name,event_time,created_time,updated_time
其他

基于阿里(OneData)的数仓体系建设

一、指导思想首先,要进行充分的业务调研和需求分析。其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵,抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。最后,是代码研发和运维。其实施流程主要分为:数据调研、架构设计、规范定义和模型设计。二、数据调研1.
其他

字节跳动大数据架构面经(超详细答案总结)

前后的分区不同,如果分区数太少,那么每个分区处理的数据大小可能非常大,导致大分区处理时需要落盘,查询效率太低,如果分区过多,导致每个分区处理数据较少,这也会导致
其他

Spark SQL 底层执行流程详解(好文收藏)

SQL的执行流程,那么理解Catalyst的工作流程是非常有必要的。一条SQL语句生成执行引擎可识别的程序,就离不开解析(Parser)、优化(Optimizer)、执行(Execution)
其他

Flink 在米哈游的落地实践

Service开发和维护方面Executor主要涉及到Jar和Sql任务解析提交部分。一开始的方案为了解决跨地区传输效率问题,特别是大的jar包传输,由后端进行任务解析,最后传输job
其他

又一机器学习模型解释神器:Shapash

Feet的要素。我们可以看到一个表格,其中显示了我们的训练和测试数据集的多种统计数据,例如平均值、最大值、最小值、标准偏差、中位数等等。在右侧图中可以看到训练和测试数据集的分布图。Shapash
其他

数据仓库分层你清楚了吗

漫谈数据仓库的分层架构与演进为什么要分层在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道数据的整个声明周期。优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。合理的分层概括就是:清晰的数据结构与依赖,提高开发效率,合理的数据权限。具体具有以下优点:数据结构与依赖关系:如果没有清晰的分层,可能会做出一套表依赖结构混乱,且出现循环依赖的数据体系,让流程越走越越死。减少重复开发的成本:建立一个或者多个模型,可以为支业务撑建立多个指标。规范数据分层,开发通用的中间层,可以极大地减少重复计算的工作。统一数据口径:通过数据分层,提供统一的数据出口,统一输出口径。数据一致性:对于公共下沉数据,下游使用的时候不再重新计算,可以保证一定是数据一致性问题。数据权限:通过分层,可以更方便地对不同层,不同的数据模型进行权限管理,特定业务场景下,对不同的开发人员和业务人员屏蔽一些敏感的数据。怎么分层ODS(原始数据层)存放最原始的数据,结构和源系统保持一致,减少对业务系统的影响。DWD(明细数据层)在维度建模的理论上进行构建,存放维度模型中的事实表,保存各业务过程最小粒度的操作记录。有时候,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联。DIM(公共维度层)在维度建模的理论上进行构建,存放维度模型中的维度表,保存一致性维度信息。维度类分两种类型(自己概括的):大维度数据:比如用户维度等等小维度数据:比如配置表,日期表,地区表等等DWS(汇总数据层)基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表。该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称该层的表为宽表。主要作用就是提升指标的复用性,减少重复加工。单维度下的轻度汇总表维度单一,统计指标丰富,迭代更灵活;多维度的轻度汇总表,维度丰富,统计指标有限,迭代相对复杂。ADS(数据应用层)存放各项统计指标结果。分层的误区数仓层内部的划分不是为了分层而分层,分层是为了解决数据
其他

从感知机到 Transformer,一文概述深度学习简史

是一种通用编程模型,这意味着它基本上可以应用于任何编程任务(尽管结果可能会有所不同)。我们已经成功地将它用于编译、解释代码和重构代码。但我们知道,我们只触及了可以做的事情的皮毛。”
其他

漫谈数据仓库的分层架构与演进

今天跟大家分享一下怎么理解建模方法和分层架构?分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了。接下来,我们会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义。
其他

网易数帆数据生产力方法论

导读:2021年,网易数帆大数据团队正式提出数据生产力的理念,数据生产力从广义上讲,是指“通过使用数据,带来组织生产力的提升”;从狭义上讲,是指“数据采集、清洗、加工、可视化等数据处理和数据治理的软件生产能力以及持续运营能力”。数据生产力的愿景是构建“人人用数据,时时用数据”的企业数据文化,愿景代表的是目标和方向,支撑这个目标的达成,必然需要一系列的方法论。方法论,是以解决问题为目标,通过对具体方法的分析和总结,提出的一般性原则。方法论可以指引技术的发展方向。很多从事数据分析的人,容易沉溺于技术实现,而忽视技术背后的方法论。在数据分析的历史上,其实诞生过很多优秀的方法论,这些方法论指导了数据分析技术的不断演进和迭代。1历史上出现过的方法论1970年,IBM的研究员,有“关系数据库之父”之称的埃德加·弗兰克·科德(Edgar
其他

Spark 内存管理详解(好文收藏)

扫描和回收,提升了处理性能。堆外内存可以被精确地申请和释放,而且序列化的数据占用的空间可以被精确计算,所以相比堆内内存来说降低了管理的难度,也降低了误差。在默认情况下堆外内存并不启用,可通过配置
其他

一文彻底掌握自动机器学习 AutoML:PyCaret

对于在时间紧迫的情况下快速生成结果非常有用。练习在不同类型的数据集上使用它——你使用得越多,你就会真正掌握它的实用性!它甚至支持在云服务上进行模型部署,也只需一行代码。参考资料[1]PyCaret:
其他

Flink CDC 2.0 原理详解和生产实践

headers=ConnectHeaders(headers=)}SourceRecord{sourcePartition={server=mysql_binlog_source},
其他

3D 可视化卷积、池化!终于能看懂神经网络到底在干啥了...

Engine支持ONNX、Keras(.h5)以及ZTN三种模型文件。Z字按钮旁边两个按钮依次是启动模型和清除模型:如果手头上还没有模型也没关系,点击界面右上角的Z形图标可以到Zetane
其他

HiveSQL 技术原理、优化与面试

0.11版本之前,如果想在Map阶段完成join操作,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小。如将a表放到Map端内存中执行,在Hive
其他

万字长文+图解,带你轻松学习 Spark

提供了对实时数据进行流式计算的API,支持Kafka、Flume、TCP等多种流式数据源。此外,还提供了基于时间窗口的批量流操作,用于对一定时间周期内的流数据执行批量处理。5)MLlibSpark
其他

关于数仓建设及数据治理的超全概括

本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!在谈数仓之前,先来看下面几个问题:数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。数据仓库之父
其他

综述 : 应用于时间序列中的 Transformer

最近Transformer在统一建模方面表现出了很大的威力,是否可以将Transformer应用到时序异常检测上引起了很多学者的研究兴趣。最近来自阿里达摩院、上海交通大学的几位学者就近年来针对时间序列场景中的Transformer模型进行了汇总,在Arxiv上发表了一篇综述。综述涵盖了Transformer针对时序问题下的具体设计,包含预测、异常检测、分类等诸多工业界常用场景,并开源了代码,是非常不错的学习资料。本期文章将为大家简要分享这篇文章中的精华要点,供广大研究者开发者们参考。论文地址:https://arxiv.org/abs/2202.07125论文源码:https://github.com/qingsongedu/time-series-transformers-review概述在NLP的许多任务中Transformer取得了很优异的效果,这引发了时间序列社区对其极大兴趣。Transformer捕捉长期依赖和彼此交互的突出能力对于时间序列建模特别有吸引力,能在各种时间序列应用程序中取得令人兴奋的进展。本文总结了Tansformer在时间序列方面应用的最近进展,从网络架构创新和使用场景两方面进行了分析。网络架构方面创新主要包括增加位置编码,注意力模块修改和架构层面创新。应用方面主要是预测,异常检测和分类三种任务。模型设计01Positional
其他

搞数仓也得懂几个常用机器学习算法

X_price.head()Y_price=house_df['price']Y_price.head()LR_reg=LinearRegression()LR_reg.fit(X_price,
其他

Flink 8 大主题,50 个知识点,2 万字助力面试准备

中的任务被分为多个并行任务来执行,其中每个并行的实例处理一部分数据。这些并行实例的数量被称为并行度。设置并行度一般在四个层面设置(优先级由高到低)操作算子层面执行环境层面客户端层面系统层面10.
其他

Spark 单 value,key-value 类型 21 个算子(图解与源码)

b),CompactBuffer(4)))(2,(CompactBuffer(),CompactBuffer(5)))(3,(CompactBuffer(c),CompactBuffer(6)))-
其他

Transformer 总结-2022 版

句子中做随机采样,或者随机删除一些token,又或是打乱句子顺序,目标是恢复之前的输入Contrastive
其他

Hive SQL 参数与性能调优

Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive参数与性能调优的一些方法及技巧。1.
其他

Flink 常见维表 Join 方案,收藏学习开发很有用!

前言实时数仓,难免会遇到join维表的业务。现总结几种方案,供各位看官选择:查找关联(同步,异步)状态编程,预加载数据到状态中,按需取冷热数据广播维表Temporal