大数据与人工智能

其他

推荐系统的UI交互与视觉展示

由于每个标的物展示区域是有限的(特别是在手机中,由于屏幕较小,可展示的面积更小),视觉要素不是越多越好,而是要保持足够的信息,多而不乱、多而不杂,并且需要有主次之分,越重要的信息越容易让用户看到。
2020年1月22日
其他

YouTube基于多任务学习的视频排序推荐系统

deep框架(参考文献4),该模型增加一个整合了偏差信息(位置偏差等)的浅层塔结构来解决选择偏差问题。最终通过在YouTube上做在线AB测试验证,发现该模型确实可以显著提升多种排序目标的推荐质量。
2019年10月30日
其他

深度学习在推荐系统中的应用

Search),可以自动学习大规模深度推荐模型中每个类别特征最优化的词典大小以及嵌入向量维度大小。目的就是为了在节省性能的同时尽可能地最大化深度模型的效果。并且,他们发现传统的Single-size
2019年10月16日
其他

大数据分析工程师入门19-支撑体系

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨凯凯连编辑丨Zandy导语前面4篇文章,我们分别介绍了数据收集、ETL工程、数据仓库基础、元数据中心等4个重要组件,这些也是数据分析基础架构中比较核心的部分,今天这篇文章我们来介绍下剩余的几个组件,主要围绕他们的作用、与其他组件的关系及常用技术来展开讲解。接下来要讲解的这些组件都是支撑型的组件,各个公司会根据自己的具体业务进行选择使用,每个公司的方案会各不相同,因此本文讲解的内容不一定具备普遍适用性,但是也可以给大家当做一个参考,相信对你理解数据分析整体结构还是有一定帮助的。所以,本文的目标是通过对这些组件的讲解,让大家对数据分析的基础架构有更深入的理解。话不多说,让我们直接进入正文吧。×××以下为正文
2019年9月20日
被用户删除
其他

基于朴素ML思想的协同过滤推荐算法

本公众号作者来自电视猫MoreTV大数据与人工智能团队,持续关注业内大数据与人工智能技术、行业动态,每周输出2篇以上大数据、推荐系统、算法、机器学习、AI相关原创文章!
2019年9月18日
其他

大数据分析工程师面试集锦6-HDFS

所以不能在同一个块上写入。9HDFS写程序?1)客户端向NameNode发出写文件请求。2)检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。
2019年9月13日
其他

大数据分析工程师入门18-元数据中心

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨凯凯连编辑丨Zandy导语上一篇文章,我们简单讲解了数据仓库的概念,并介绍了它的分层架构设计,相信大家对数据仓库体系已经有一定的了解了。那么,这篇文章,我们将再进一步探讨一下数据仓库治理的问题,一起探究下庞大的数据仓库体系是如何进行数据管理的。
其他

因子分解机

本公众号作者来自电视猫MoreTV大数据与人工智能团队,持续关注业内大数据与人工智能技术、行业动态,每周输出2篇以上大数据、推荐系统、算法、机器学习、AI相关原创文章!
其他

大数据分析工程师面试集锦5--Spark面试指南

如何防止内存溢出,作者:老子天下最美Samhttps://blog.csdn.net/Sunshine_2211468152/article/details/83050337[6]
2019年8月30日
其他

大数据分析工程师入门17-数据仓库基础

Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time
2019年8月26日
其他

矩阵分解推荐算法

本公众号作者来自电视猫MoreTV大数据与人工智能团队,持续关注业内大数据与人工智能技术、行业动态,每周输出2篇以上大数据、推荐系统、算法、机器学习、AI相关原创文章!
2019年8月21日
其他

大数据分析工程师面试集锦4-Hive

2什么是数据仓库数据仓库的概念是在20世纪90年代被提出来,初衷是专门为业务分析建立一个数据中心,解决因为数据太多查询效率低下的问题。一个被广泛接受的定义是:数据仓库(Data
2019年8月16日
其他

特征工程(下)—特征评估

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC编辑丨Zandy这是作者的第15篇文章本文是特征工程系列的第3篇,也是最后一篇。作者会在本文中结合自己在视频推荐方面的工作经验,着重从工程实现方面,讲述如何对特征进行评估的问题。下文中,我们首先会厘清“特征评估”的概念,然后讲述特征评估的标准,最后是问题的反向排查。
2019年8月14日
自由知乎 自由微博
其他

大数据分析工程师入门16-ETL工程

导语上一篇文章,我们简单介绍了数据收集的基础知识,那么数据收集到之后,我们该怎么去做下一步的处理呢?本篇文章,我们将来重点介绍下ETL工程的作用、原理和实现过程,期望能对大家理解数据分析体系架构有所帮助。1.
2019年8月12日
其他

大数据分析工程师面试集锦3-SQL/SparkSql/HiveQL

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容为什么考察SQL?大数据分析工程师80%的时间都在与SQL打交道,通过SQL完成业务方的各种临时性需求分析和常规性报表统计。熟练的SQL技能能够大大提高工作效率。本文将SQL/SparkSql/HiveQL放在一起来梳理一份常见题型的面试题库。面试题库01SQL基础知识考察对于面试初级数据分析师来说,SQL的面试重点会放在基础知识的考察,如果最基本的基础概念和语法都不能熟练回答出来的话,通过面试的几率就会很低。下面两张图是SQL基础概念和基础语法的考题大纲图,接下来围绕图中提到的概念来列举几个常见面试题。图1
其他

协同过滤推荐算法

本篇文章作者会详细讲解协同过滤推荐算法的方方面面,这里所讲的也是作者基于多年推荐系统研究及工程实践经验的基础上总结而成,希望对大家学习协同过滤推荐算法有所帮助,提供一些借鉴。
其他

大数据分析工程师面试集锦2-Scala

collection.JavaConversions._这里引入的是scala与java集合的隐式转换,就不需要特意进行asJava和asScala的转换,直接使用Java或者Scala的方法。
其他

特征工程(中)-特征表达

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC这是作者的第14篇文章在上一篇《特征工程(上)—特征选择》中,我们解决了从哪些维度去刻画一个对象的问题。在本篇中我们聊一下特征表达(或者说特征编码)的问题,即从这些选定的维度,如何去刻画特定的对象。
2019年7月31日
其他

大数据分析工程师入门15-数据收集

导语上一篇文章我们简单介绍了下大数据的基础架构的模块组成和功能以及各模块间是如何协作的。本文开始,我们将对其中比较重要的几个模块来做一个详细的介绍,希望对大家的面试和工作有所帮助。1.为什么要讲数据收集数据收集是一切分析的源头。对于大数据分析来说,没有数量足够多,质量足够好的数据,一切分析都是空谈。因为基于统计学大数定律的结论,只有数据量足够大,才能更加接近真相。另外,数据的丰富性也是一个重要的考量指标,因为不同的数据之间可以相互辅助论证、验证,从而确保结论的正确性。因此,数据收集承担着,为数据分析工作,收集到数量足够多、质量够好、种类够丰富的数据的重任。2.本文的课程目标本文的主要目标是给大家介绍下数据收集系统的功能目标、运行形式和各种实现方案,并会举一个实际的案例,让大家对数据收集系统有个初步的了解,一来方便大家在面试过程中,知道和面试官如何聊这块的内容,二来让大家对其工作方式有所理解,知道数据是怎么来的,或许对理解自己的工作内容有所帮助。3.本文的讲解思路第一部分,我们会简单介绍下什么是数据收集系统,它的作用和目标是什么。第二部分,我们会针对不同的数据源,讲解下如何对他们进行数据收集。第三部分,我们以一个实际的实现案例来讲下数据收集系统是如何运转的。
2019年7月29日
其他

大数据分析工程师面试集锦1-Java

为什么要考察Java?作为稳居编程语言排行榜前三的Java语言,具有非常多的优秀特性,同时拥有庞大的类库生态和大量的开发者。Java语言在大数据生态体系中地位也是无可撼动,目前流行的大数据生态组件,很多都是用Java语言或基于JVM的语言(如Scala)开发的。因此,要想玩转大数据,或多或少需要对Java有所了解。重点考题集锦1程序设计基本概念考察对于一个初级岗求职者或者应届毕业生来说,公司除了对项目经验有所问询之外,最好的考察办法就是检查基本功,包括编程风格,以及程序结构,数据类型,赋值语句,类型转换,运算符,异常处理等程序设计基本概念的理解。因此面试之前,一定要对自己所掌握的基本概念知识较为熟悉,尤其是对各种细致的考点要加以重视。Java程序设计基本概念考察中,对类型转换和异常处理的考察最为常见,有以下原因:1.在Java程序中,不同的基本类型的值经常需要进行互相转换,实际工作中因为对它们的掌握不够熟练写出错误代码的情况经常发生。2.异常处理机制在实际工作中会经常被用来实现将程序的异常处理代码和正常业务代码分离,异常处理代码的错误要么高调抛出以让开发者定位处理或低调捕获从而不影响代码的正常执行,从而提高程序的健壮性,现在异常机制已经成为判断一门编程语言是否成熟的标准。考题模拟:面试例题1Java基本类型的类型转换有几种方式,你能简单阐述一下吗?解析:有两种类型转换方式:自动类型转换和强制类型转换,低级数据类型到高级数据类型的转换称为自动类型转换,高级数据类型到低级数据类型的转换称为强制类型转换。这些类型由低级到高级分别为(byte,short,char)-->int-->long-->float-->double。以上回答基本就是这道考题的标准答案,不过如果你能就此考题回答出更为展现你基本功底的以下扩展知识点和举出具体示例,将会给面试大大加分。加分答法:基本类型的转换首先要分为简单数据类型之间的转换和其他数据类型到字符串的转换。1.简单数据类型之间的转换可以分为:低级到高级的自动类型转换、高级到低级的强制类型转换、通过包装类过渡类型进行转换。自动类型转换示例:char
2019年7月26日
其他

基于标签的实时短视频推荐系统

上面只是给出了一种最直观简单的排序策略,根据不同的产品形态及业务形式还有其他各种不同的排序和合并策略。比如,可以给不同的队列不同的权重,采用一定的概率选择一个队列,不同队列也可以选择不同数量的节目。
2019年7月24日
其他

特征工程(上)—特征选择

相关系数取值在-1到1之间,表征的是两个随机变量之间的线性相关关系。相关系数为0,表明两个变量之间线性无关;相关系数大于0,说明两个变量之间是正相关;相关系数小于0,代表两个变量之间负相关。
2019年7月17日
其他

大数据分析工程师入门14-数据分析架构

导语前面13篇文章,我们主要从技术框架的角度,给大家讲解了作为一名初级大数据工程师需要重点掌握的技术技能。那么,从这篇文章开始,我们将从业务的角度,来给大家讲一下,工作中需要了解的一些业务知识。
2019年7月15日
其他

大数据分析工程师入门13-Azkaban调度系统

导语通过前面12篇文章的学习,相信大家对于数据分析工作中所有可能用到的基础技能点有了一个较全面的了解。日常工作中,需求一般分两种,一种是临时需求,比如为了评估某个特定功能的统计,可以理解为一次性需求。还有一种就是一些常规性的指标统计,业务方需要随时查看最新数据的需求,这样的需求就需要借助任务调度平台的帮助了。本文将会给大家从如何使用的角度讲解任务调度平台Azkaban。所谓任务调度平台,可以简单理解为,就是支持上传目标任务,支持设置定时,并按定时设置周期性运行统计任务的平台。当然,它还有很多其他功能,比如支持作业编排,支持设置作业依赖,支持进行监控预警等,本文也会提及到部分相关概念,但不会深入讲解,感兴趣的小伙伴可自行查阅有关文档了解一下。01常用的调度框架及其对比常用的调度平台框架有Oozie、Airflow、Zeus、Rundeck、Azkaban
2019年7月12日
其他

基于Erlang语言的视频相似推荐系统

前面对相似视频的算法实现细节及Erlang的特性做了完整的介绍,在本节我们就来详细讲解怎么基于Erlang的一些特性从工程上实现一个高效的分布式的Master/Slaver架构的相似视频推荐系统。
2019年7月10日
其他

大数据分析工程师入门12-Tableau数据可视化

〈导语〉大数据分析工程师除了要知道如何处理数据、进行分析,对于分析的结果进行可视化呈现也是必备的技能。本文就来介绍一下可视化分析平台-Tableau。可视化的重要性想象一下你辛辛苦苦做了一堆分析,得出来的数据却没有人看得懂,你该怎么办?这个时候你需要借助可视化来展示你的结果,俗话说,有图有真相,一图胜千言。数据可视化主要旨在借助于图形化手段,清晰有效地传达信息,同样的结果不同的展现方式给人不同的信息体验。决策者需要的是快速直观准确读懂数据中蕴含的信息
其他

大数据分析工程师入门11-Hue&Zeppelin

日常数据分析工作中,很多时候都在处理临时性的需求,这种需求要求快速响应和很快得出结果,如果每一个需求都需要写在代码文件中,然后编译打包上传再执行,就会非常浪费时间,尤其是写出来的查询语句频繁出错,需要不断改正再重复打包上传的时候。所以继上一篇Linux常用命令工具篇讲解完成以后,本文讲解另外两个非常重要的数据分析工作中会使用到的工具:Hue和Zeppelin。它们都提供了非常方便的数据查询UI界面,能够很方便的进行多次查询并且能够很快地查询出结果。那么,为什么要将两种工具都跟大家介绍一下呢?那是因为它们都有着属于自己的特性和优势,小伙伴们需要根据不同使用场景择优选择。考虑到有的小伙伴对这两种工具目前还没有很丰富的使用经验,在本文开头不对它们的异同之处介绍说明,待大家阅读完本文正文,在文章的最后跟大家一起来总结对比一下它们的差别,这样大家理解起来会更容易一些。(本文分为上下两段,分别由本人撰写Hue部分,同组小伙伴凯凯连撰写Zeppelin部分,所以阅读起来会感觉行文风格和知识输出方式略有差异,先就此提前说明一下。)01Hue为什么要讲Hue?Hue是一个Web应用,设计初衷是简化用户和Hadoop集群间的交互。大数据的框架很多,通常在解决一个问题的时候,会用到多种框架,这个时候有一个统一的web
其他

基于内容的推荐算法

可以基于标的物的信息将标的物嵌入到向量空间中,利用向量来表示标的物,我们会在后面讲解嵌入的算法实现方案。有了标的物的向量化表示,用户的兴趣向量就可以用他操作过的标的物的向量的平均向量来表示了。
2019年6月26日
其他

误差反向传播

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC这是作者的第11篇文章前馈网络是神经网络中最为基础的一种,对网络结构的修改可以延伸出其他的网络类型。前馈网络模型的训练,通常基于模型参数的导数。而误差反向传播,就是其中最为高效的一种求解导数的算法。
2019年6月19日
其他

大数据分析入门课程8--Spark基础

本文为《大数据分析师入门课程》系列的第8篇,主要讲解大数据分析师必须了解的Spark基础知识,前7篇分别是JAVA基础、SCALA基础、SQL基础、SQL进阶、HIVE基础、HIVE进阶、HDFS&YARN基础。依照惯例,首先,我们就以下三个问题进行简单说明。为什么讲Spark?本文的主要目标是什么?本文的讲解思路是什么?为什么讲Spark?随着并行数据分析变得越来越流行,各行各业的使用者们迫切需要更好的数据分析工具,Spark
2019年6月17日
其他

大数据分析工程师入门7--HDFS&YARN基础

导语HDFS和YARN是大数据生态的基础组件,不过,因为其处于数据分析架构体系的底层,通常我们很少能感受到它们的存在。但是我们必须要了解它们,因为在某些场景下,我们依然会接触到它们。了解他们并熟悉怎么使用,是大数据分析师必备的技能之一。首先,还是让我们来回答经典的三个问题:为什么要讲HDFS和YARN?本节课程的目标是什么?本文的讲解思路是?为什么要讲HDFS和YARN?作为大数据生态的基石,HDFS和YARN支撑着所有上层的组件,其重要性不言而喻。HDFS作为分布式存储的基础解决方案,为所有的其他组件提供高可用、稳定而高效的数据存储服务。而YARN作为资源的管理与调度框架,负责整个分布式集群资源的分配、动态调整、资源调度等,从而实现资源的高利用率。鉴于这两大组件如此重要,我们必须要了解其基本原理和概念,一方面可以对工作中排查问题有比较大的帮助,另一方面方便我们与他人沟通交流。
2019年6月14日
其他

推荐系统产品与算法概述

构建完用户画像后,我们可以构建出标签与标的物的倒排索引查询表(熟悉搜索的同学应该不难理解)。基于该反向索引表及用户的兴趣画像,我们就可以为用户做个性化推荐了。该类算法其实就是基于标签的召回算法。
2019年6月12日
其他

大数据分析师入门6-HIVE进阶

序列序列中的两个窗口函数cume_dist和percent_rank,通过实例来看看它们是怎么使用的。1)统计小于等于当前售价的产品数,所占总产品数的比例具体代码如下:SELECT
其他

指数分布族

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC这是作者的第10篇文章在《Pattern
其他

大数据分析工程师入门5-HIVE基础

本文为《大数据分析师入门课程》系列的第5篇,主要讲解大数据分析师必须了解的Hive基础知识,前4篇分别是JAVA基础、SCALA基础、SQL基础和SQL进阶。依照惯例,首先,我们就以下三个问题进行简单说明。为什么讲Hive?本文的主要目标是什么?本文的讲解思路是什么?为什么讲Hive对于初级分析师来说,最日常的工作之一就是通过写SQL提取数据进行分析。在大数据框架中,提供类SQL语言支持的就是Hive,简称为HiveQL。首先,想要通过HiveQL进行数据提取和处理,前提是至少需要对HiveQL的基本语法、语句结构、数据类型、常用数据处理方法等掌握清楚,也就是至少要知道怎么用。其次,要想用好Hive这个数据分析工具,就要对它有一个全面了解,才能提高工作效率和问题排查效率。最后,Hive不仅作为数据分析工具,还普遍被用来进行数仓构建,学好Hive基础知识,有利于更深入地开展数据分析工作。本文的主要目标是什么?通过这篇文章,希望能够帮助稍微有一点点Hive或者SQL基础的读者快速了解Hive。另外,对Hive曾进行过全面学习但大部分知识点稍有遗忘的读者,本文将带你一起回顾一下。文章内容主要围绕作者认为数据分析工作中需要重点掌握的Hive基础知识进行讲解,每章节将围绕章节主题展开,章节内容中如有提及到读者以前没了解过的专业词汇,为避免讲解重心偏移,将不会进行专门的展开介绍,读者可自行百度补充了解一下。本文的讲解思路是什么?围绕数据分析工作中最常使用到的hive基础知识点进行展开,主要分为以下几个部分:第1部分:主要介绍下Hive可作为数据分析工具和数仓构建工具。第2部分:为什么要有Hive,主要是对于Hive的优势进行总结归纳。第3部分:Hive支持的常用数据类型和文件格式。第4部分:DDL,内外部表的区别,表的创建、修改、删除和数据的导入导出。第5部分:常用Hive函数,包括函数语法、含义、示例等。第6部分:如何添加UDF,将通过一个简单示例给出创建一个UDF的完整步骤,以及对每一步所需注意问题点进行说明。第7部分:表关联,包括内连接(INNER
其他

大数据分析工程师入门4-SQL进阶

上篇《大数据分析工程师入门3--SQL基础》以近1万字的篇幅给大家将SQL的基础内容系统性的讲解了一遍。本文将在其基础之上稍作补充,主要讲讲数据分析工作中可能会用到的SQL进阶知识点。主要讲解思路如下:第1部分:DDL。主要讲解MySQL中针对库、表、表字段的创建、修改和删除等相关操作。第2部分:索引。内容包括为何要建立索引,如何建立不同的索引,索引的查看和删除,以及索引的注意事项和建立原则。第3部分:explain。内容包括explain的作用,和对其所返回信息的讲解。第4部分:主从同步。主要讲一下主从同步的意义,让大家知道有这么个概念。第5部分:show
2019年5月31日
其他

构建可解释的推荐系统

在现实生活中,我们经常会为朋友做推荐或者让别人帮我们推荐,比如推荐旅游地、推荐电影、推荐书籍、推荐餐厅等。现实生活中的推荐,大家都会给出推荐原因的,比如推荐餐厅,我们会说这家环境好、好吃、卫生等等。
2019年5月29日
其他

大数据分析工程师入门3--SQL基础

导语本文为《大数据分析师入门课程》系列的第3篇,主要讲解大数据分析师必须了解的SQL基础知识。如果对本课程不了解的,建议可以先读一下《大数据分析工程师入门--0.开篇词》一文,了解下课程的设计思路和目标。这样再来读本文,就更容易理解本文的内容和目标了。❖
2019年5月24日
其他

机器学习中常用的几个概率不等式及证明

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC这是作者的第9篇文章马尔科夫不等式、霍夫丁不等式和詹森不等式,是机器学习中经常遇到的几个概率不等式。本文对它们进行简单介绍,并加以证明,然后对它们在机器学中的应用进行举例说明。主要内容包括:马尔科夫不等式(Markov’s
2019年5月22日
其他

大数据分析工程师入门2--Scala基础

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容导读:作为大数据分析工程师入门的第二节课,我们来学习Scala基础。可以这样说,Scala源于Java,但又高于Java,正所谓青出于蓝而胜于蓝。本篇文章,不会全面铺开Scala所有知识点,而是将大数据分析工程师工作中需要经常使用到的知识点筛选出来,有的放矢的梳理关键知识点,为大数据分析工程师入门做铺路石。首先,你可能会有疑惑,Scala为什么会如此重要,作者觉得主要有以下三点原因:1、因为spark
2019年5月20日
其他

大数据分析工程师入门--1.Java基础

举例:老师是java中的一个类,一位24岁的、性别女、名字叫马冬梅的老师就是老师这个类别里对应的一个具体对象。我们来看一下创建一个具体的java类和对象的代码框架是什么样子的:public
2019年5月17日
其他

从零开始入门推荐算法工程师

经过近10年的学习成长,我发现自己还是非常喜欢这个职业的,并且自认为做得还可以。那么是不是推荐算法就没有门槛,所有人都适合从事推荐算法呢?其实是不一定的,要想在这个方向上做得好,是有一定前提条件的。
2019年5月15日
其他

稀疏核机(下)—稀疏性

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC这是作者的第8篇文章本文是“稀疏核机”这个专题的第三篇,也是最后一篇。在《稀疏核机(上)—SVM回顾》中,我们简单回顾了SVM的导出;在《稀疏核机(中)—核方法》中,我们从SVM的基函数扩展,引出了核方法。至此,准备工作已经完成,我们在本篇重点讨论核机的稀疏性。主要内容包括:稀疏核机的正式概念
其他

大数据分析工程师入门--0.开篇词

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨凯凯连这是作者的第8篇文章导读:Hi,欢迎来到数据的世界!经过团队多次讨论,我们决定输出一份礼物,送给关注我们公众号的朋友们!那就是,【大数据分析工程师入门课】——TA是一份凝聚心血的果实,我们将会用21堂课来带领想入门大数据的你走进数据分析的大门。这是一篇开篇词,主要目的是介绍这门课程的发布背景、课程大纲和发布计划,希望能帮助大家系统的认识大数据!重点的重点,这份匠心礼物,我们将【免费】送给大家,这是一份输出的承诺,也是一个价值社交的尝试!看完开篇词如果你感受到了我们的诚意,希望你可以分享给同样想进入大数据领域或想交流大数据技术的朋友!大数据时代已经到来▲▲▲最近几十年,高速发展的互联网,渗透进了我们生活的方方面面,整个人类社会都已经被互联网连接为一体。身处互联网之中,我们无时无刻不在产生大量数据,如浏览商品的记录、成交订单记录、观看视频的数据、浏览过的网页、搜索过的关键词、点击过的广告、朋友圈的自拍和状态等。这些数据,既是我们行为留下的痕迹,同时也是描述我们自身最佳的证据。2014年3月,马云曾经在北京的一次演讲中说道:“人类正从IT时代走向DT时代”。5年过去了,正如马云预想的那样,大数据时代已经到来了。任何互联网企业都会产生大量数据,而对这些数据的分析处理显得越来越重要,因此企业对大数据工程师的需求量越来越大。从国家在大数据上的政策、大量高校开设大数据学院或者专业、火爆的大数据培训市场、漫天飞舞的大数据招聘信息,就可以感受到社会和企业对大数据分析工程师的需求有多大!大数据时代背景下,企业的运营策略会有什么变化呢?▲▲▲大数据时代的到来,给企业的发展提供了新的机遇和挑战。在过去,企业通常是根据主观经验和想象力去创造产品,满足用户当前需求,精雕细琢后生产出来,然后让市场去检验成功与否,周期很长,成本很高。在互联网时代,在此模式的基础上向前推进一步,企业尽早让创意落地,之后结合用户反馈通过快速迭代的方式去不断完善产品,满足用户新的需求。而大数据时代背景下,又向前推进一步,企业需要利用用户的各种数据,去理解每一个独立的用户,通过精细化运营,在产品框架内满足每一个用户的独特需求。为什么要用大数据分析?▲▲▲新时代背景下,企业精细化运营的需求,需要对应的专业工具和专业人才来完成。所谓精细化运营,就是要从多种角度去理解用户,结合不同的业务场景,对用户进行适当的分级,去满足每种分级用户的不同需求,提升客户满意度和忠诚度,提高客户价值转化,最终达到降低运营成本、提高公司盈利的的目的。要想做到精细化运营,以下几个方面的事情是必须要做的:1.尽可能收集到足够多的数据;
其他

AB测试平台的工程实现

如果某个业务或者功能点用户极少使用,并且也不是核心功能点,比如视频软件的调整亮度,这个是一个很小众的需求,只要功能具备就可以了,好用和不好用对用户体验影响不大,这时花大力气对它进行优化就是没必要的。
其他

Hive窗口函数进阶指南

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨斌迪这是作者的第4篇文章作为一名数据小哥,在写SQL的漫漫路上,窗口函数犹如一把披荆斩棘的利剑,帮助作者解决了很多繁琐复杂的需求,在此对窗口函数表示感谢。本文在介绍了窗口函数的同时,着重介绍Hive窗口函数的使用,希望读者在看完本篇文章之后,对窗口函数的使用能够有所掌握。值得注意的是本文中的例子使用的是HQL(Hive
2019年4月29日
其他

稀疏核机(中)—核方法

2.罗素的理发师和奥卡姆剃刀3.机器学习中的维度灾难4.集成学习之如何由弱变强5.极大似然估计、极大后验估计和贝叶斯估计6.
2019年4月24日
其他

数据分析师之快速掌握SQL基础

本文将从一道数据分析师的SQL面试题开始分析讲解,期间,会涉及到SQL的基础操作和分析函数的使用等知识点,然后为大家总结出了一份快速掌握SQL基础的指南,希望能够帮助到SQL初学者。
2019年4月15日
其他

稀疏核机(上)—SVM回顾

点击上方“大数据与人工智能”,“星标或置顶公众号”第一时间获取好内容作者丨stephenDC这是作者的第6篇文章本文想讨论的是稀疏核机,包括稀疏性和核方法两个方面。提起机器学习中模型的稀疏性,估计很多人第一时间想到的是L1正则。但这里说的稀疏性,不是指L1产生的稀疏特征,而是指有些模型的预测推断只依赖于训练集中少量的样本点。核方法,和基函数方法一样,是对线性模型进行容量扩展的重要手段,但核方法通用性更好且会带来计算上的优势。
2019年4月10日
其他

常见数据分析误区:不要让数据误导你!

听上去非常合理,但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户。这批用户在这些指标上,本来表现就是优于一般用户的,因此指标数据更高并不能说明更好。