数据指象 | 自由微信 | FreeWeChat

周其仁：停止改革，我们将面临三大麻烦

周其仁：越来越多的人另起炉灶，不和你玩了，那才是最大的失败

网红参哥：4年赚10亿，只割有钱人

郑树森院士被国际期刊终身禁稿

冯优偌炮轰赵丽颖真假难辨沈南鹏无端中枪

数据指象

一目了然：用excel模拟Adaboost的计算

在二分类的情景中，Adaboost为了实现高精准的分类器，采取了集思广益，博取众长的集成的策略，集中群众智慧，成就英雄之举。实现了1+1大于2的分类效果。今天我们用excel实现Adaboost全链路的计算模拟，在计算的过程中更清晰的了解Adaboot，从未达到知其然亦知其所以然的程度。例如：根据X值判别Y值的二分类数据表：用直角坐标系清楚的表达：用曲线模型H(x)可以轻松的完成精准率100%的分类，我们可想而知这样的模型就像诸葛亮一样难得；但是用了Adaboot算法，能轻易将三个简单的分类模型H1(x),H2(x),H3(x)合成一个超强的模型。第一步：确定一组弱模型，弱模型要求对x样本必须是有拆分的，如上我们在Y值变换的节点中切割了三个弱模型：H1(x),H2(x),H3(x)。第二步，基于初始的样本权重d1（1/N=1/10）来计算出误差最小的模型，记住模型的误差等于误判X样本值的权重值之和。H1(x)误判了6，7，8对应的误差值=0.3；H2(x)误判了0，1，2，9对应的误差值=0.4；H3(x)误判了3，4，5对应的误差值=0.3；确定最有模型为H1(x)。第三步，基于上一步确定的最有模型对应的模型误差e重新分配样本权限，让最有模型误判的权重变高，以凸显处理误判样本能力强的模型。样本权重重新分配的公式：基于当前最优模型H1(x)的误差e=0.3，来重新确定样本权重，错误分类的样本，权重值更新为：d2=

2021年7月3日

十大经典挖掘算法，一个都不少

关联算法联系是普遍存在的，关联的存在本身是有价值的，在电商推荐中关联推荐是最简单最直接有效的。关联推荐的核心有三个度量：支持度，置信度，提升度.案例1：啤酒怎么爱上尿布？NO.05：EM

2021年6月11日

民主算法：PageRank

了解Google公司，多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来，到群众中去”的民主算法。1，PR的计算原理：网络世界由万万千千，千千万万的网页链接而成的，一个网页通过出链和入链链接着一个或多个网页。出链指的是网页中可以跳转出去的链接，入链指的是跳进网页的链接。从图中我们很容易看出，网页Page1的出链有4个，网页Page1的入链有2个。用拓扑图来描述网页之间的关系，复杂交错的链接构建了一个庞大的互联系统，简称为“互联网”。一个网页的影响力是所有入链集合的网页影响力加权之和，用公式可以表示为：注:L(v)

2021年5月30日

一蛙之见“贝叶斯”

和大多数初学初见者一样，看到“贝叶斯”，脑海里只想到“概率”二字然而贝叶斯绝对不是简单的“概率”，如何概率能够涵盖“贝叶斯”的哲学深意，先驱大贤何必多此一举？“太阳东起西落”是必然而然的事；“瓜熟蒂落”同样是无需多疑的事。明天股票的涨跌，每个人心中却有不同的度量

2021年1月17日

动态规划“遇见”图像检索

两个对象的相似度的多少，统计学上常用的方法是对象在多维属性空间的距离来量化。同样图像也是对象的一种；它是有RGB三基色的像素点组合合成；RGB本身就是一张图像的属性；[0~255]是属性值域值。但是同一张图像经过裁剪、旋转、光线的调节、滤镜是图像的像素值发生巨大的变化，所以如何简单粗暴的匹配两张图像的像素的精准确率就会大打折扣。利用时间序列+动态规划的弹性匹配是一个稳定匹配相似图像的方法。1，构造图像的时间序列。将图像的RGB值，首尾拼接成一个一维数组；以索引下标作为横轴，RGB值作为纵轴，我们可以绘制出一个时间序列的折线图。2，两个图像时序距离计算方法统计中我们了解到了很多距离计算的方法，比如：欧式距离、曼哈顿距离、欧几里得距离等，距离方法的选择要适合场景需要，选择最优的就行；可以尝试多种距离计算对比效果。3，最优路径的查找两个图像距离的计算，其实就是两个时间序列的二位矩阵中找到最优的路径。动态规划是数据挖掘中常用的计算距离的方法。图中简单做了一个实例：同一张图片的两个序列段（方便比较），这里的距离计算简单的使用了两点相减的绝对值。绿色标记出了最优的滤镜，最优路径的累积值越小，可以判断两个图像的相似度越高。这里我们也选择使用动态规划来找最优路径。

2021年1月3日

小妙招：让图像会说话，字字清晰

人对图像的感知能力很强，所以图文很多，但是我们的认知却更多的用文字去传达；所以我们常常苦恼：如何将pdf文字转成Word文本如何快速破解验证码如何从图片中找到自己想要的关键信息今天我们一起用一个简单的小程序，破解我们日常中的小难题；天不助人，人自助。1，工欲善其事，必先利其器本文的实验环境：Mac计算机、Python3、当然更离不开Tesseract-OCR引擎#

2020年12月13日

ggplot2:让图表更顺滑

知道绘图的原理，找到关键路径-绘图就会变的很简单，加上日积月累的练习，就会绘制出亮眼的图形。1，图是什么？图形就是从数据到几何对象（geometric

2020年11月28日

SQL无处不在，无所不能

数据分析领域常常听说SQL，相信很多数据分析师或多或少都接触过SQL。但我可以肯定的是，我们一直低估了SQL的存在，低估了SQL的应用场景。SQL无处不在，多场景多应用：数仓，BI，实时，搜索等SQL-on-关系型数据库：不止于关系数据库SQL

2020年10月14日

宁缺毋滥：数据质量第一

“先问是什么，再问怎么做”，有的放矢：什么是标靶，怎么做是箭弩。保证数据质量之前首先要知道怎么判断数据质量的高低，或者说什么样的数据是高质量数据。引用质量管理之父J.M.Juran的定义：“如果根据这些数据做出的操作、决策和规划，符合之前的预期，那么这些数据就是高质量的”Data

2020年10月4日

最优路径：SQL基本功

看到本文，你就赚；看完本文，你就赢了；看懂本文，你很了不起！最优的学习路径，更快的成为熟练的数据开发工程师：1，认识SQLSQL是结构化查询语言，SQL也是一个标准，每个数据库服务器都在标准的基础上进行了相应的调整和扩展，相应的，每个数据库对数据的各种操作语言的语法就会做出相应的调整示例：（数据开发重点关注）DQL：SELECT等DML：INSERT、UPDATE、DELETE增删改查DPL：BEGIN

2020年9月23日

数说《三国》

三国：全书120回，近60万字，涉及人物3000人，地方1200个，可谓是鸿篇巨作，作者真是苦心孤诣。今天我们一起从人物/城池来数说“三国”。数据来源：下载三国TXT文件，运用Python解析，结巴分词，处理出人物姓名，城池地名；字段：章节，标题，行号，字数，人物姓名：出现频次，城池地名：次数三国是

2020年8月31日

数据大师们的纷争

温馨提示本公众号名称由趣味数据周刊更名为：数据指向。指象：谓天以景象示意，出自于《汉书》，希望以数据指象为言语，得一类而达之。感谢一路走路，不离不弃的你们，谢谢。正文-数据大师的纷争世上两条路一条是自己脚下的路，另一条是不在自己脚下的路。同样关于数据管理的建仓方法论也有两个：一个是Bill

2020年7月25日

时序过关：平稳检验

时序是用时间线串联的一维的数据，时序每一个时间变量对于一个唯一的值带了的问题是：随机变量对应的样本是唯一。时序多变量带来了复杂性，样本单一包含信息又太少，这就需要运用特殊的方法挖掘辅助信息来分析这种结构的数据。辅助信息：就是剔除时间影响的部分信息，找到平稳可靠的信息，这就需要我们首先判断序列是否存在平稳性，还是只是纯随机的。平稳性是基于时间维上的一种随机性（不是纯随机），时间的无影响性。平稳性统计特征的分析方法有很多，比如概率分析，统计量（均值，方差，自相关性）

2020年7月5日

基于统计数据-分析我国消费结构的变动

本文将以“国家统计局”网站的统计数据，用统计描述的基础方法分析：消费主体结构，居民消费需求结构；同时也运用推断统计的线性回归方法：判定消费需求结构的趋势。从而更好的发现消费结构的变动规律。1，数据溯源数据来自：国家数据-国家统计局

2020年6月26日

三言小文，道尽相关性

相关性是描述客观事物相互间的联系，联系是普遍存在的，这种联系决定了事物间的相关性必然束缚在时间与空间之中，纠缠在事物运动之间；不必吃惊：冰淇淋的销量与意外溺水死亡率成正比，因为夏天来了。不必吃惊：啤酒与尿布的组合销售销量更好，因为人物关系有纠缠。发现相关性不是一件坏事，发现相关性可以帮助我们预测未来，而发现因果关系意味着我们可以改变未来。1，画点-看分布从数据点的分布情况可以发现，自变量x和因变量y有着相同的变化趋势，当广告支出的增加后，销售收入也随之增加。二者存在正向的相关性2，画线-看走势对于有明显时间维度的数据，我们选择使用折线图。销售收入与广告支出的走势趋势涨跌一致，可以看出广告支出的增加，销售收入也增加了；这是很明细的相关性。3，回归-看拟合我们可以借助excel对广告支出与销售收入，做各种拟合，比如线性拟合，指数，对数，多项式等。这里简单做了一个线性拟合，从线性拟合函数及R方判定系数：0.8782

2020年5月3日

谈经论典：细说AB实验

1，追古溯源王充在《论衡-遭虎篇》驳论"老虎吃人是功曹官员为非作歹造成的"文章结尾的点睛之笔"等类众多，行事比肩，略举较著，以定实验也。"引出实验二字实验用实际的显著示例，定是非辨黑白有着很独特的说服力；众多实验中AB实验如鹤立鸡群应用深广。AB实验在生物医学又名为"双盲实验"。双盲实验中病人被随机分成两组，在不知情的情况下分别给予安慰剂和测试用药，经过一段时间的实验后再来比较这两组病人的表现是否具有显著的差异，从而决定测试用药是否有效。2，我怎么理解AB实验常把AB组两组类别虽简洁而不能名义，如果把A（After）变化后，B（Before）变化前；AB实验本质就是用实例去检验“变化”带来的某种更有倾向性的结果；变化本质是一种道，道生一，一生二，二生三，三生万物。由此推之，变化产生AB，AB的组合变化产生三种结果：A好于B，AB难分伯仲，A劣于B；3，AB实验三性

2020年5月1日

人口普查里的秘密

基于第六次人口普查数据1，70年男人的河东，70年后女神的河西我们人为的选择男性（重男轻女的观念），使男性的出生人口比女性多；但是上天却更偏爱女性，她们活到最后/笑的更久，多享受“黄发垂髫，并怡然自乐”。随着年龄的增长，男女比例趋向平衡，感叹大自然的力量。手动狗头：男同胞们

2020年4月25日

美女 “十八” 变，服装看到见

人靠衣装，马靠鞍；鲁迅说：“好看的姑娘有两种：一种是长的好看，一种是穿的好看”。年龄的差异与气质变化，在服装选择上可以显而易见。基于2万多条女性用户的服装购买记录，一起探索女性年龄与服装选择的别样色彩。一生中我们选择的服装类型，大部分都在下图中可以找到。结尾的结论也是很亮眼；对女性来说，岁月无情，愿美丽仍在。下图是部分数据预览：女性服装的商业交易数据，其中包含年龄，标题，评分，服装类型等一些数据，这里只显示部分列名。这里选择

2020年4月13日

美英澳印的痴心：借“疫”索赔？

作者：chenqin链接：左下角“阅读”查看原文来源：知乎索赔这个事儿，也不是不能讨论，但要把逻辑理顺。问：为什么要因为疫情索赔？答：因为某个国家没有有效控制疫情，导致疫情扩散到别的国家，使得他国因为疫情而产生生命损失和经济损失。问：导致疫情扩散到其他国家的具体形式是什么？答：病例通过国际人口流动输送到其他国家。那么答案就很明确了，因为疫情而索赔的话，必须有一个索赔的标准，这个标准自然只能是「向全球其他国家输送的病例数」。那么，世界上的每个国家都向其他地区输送了多少病例呢？首先解决一个问题，中国向外输出病例时，全世界每个国家都把病例一个个记录了下来，详细公布了每个病例的流行病史和接触史。但目前公布病例流行病史的国家（地区）已经寥寥无几，其中就包括中国大陆、香港特别行政区、中国台湾地区和新加坡。我手动统计了每天这四个地区的病例来源，前20名可以画出下表：其他国家虽然也会调查病例来源，但病例太多，已经不可能每日公布，只是在某些汇总报告里会出现，比如澳大利亚：可以看到，在澳大利亚，海外输入病例中欧洲占三分之一，美国占了近四分之一，游轮占四分之一，其他地区加起来占六分之一。还有挪威：690个病例来自奥地利，329个来自西班牙，170个来自意大利，102个来自英国。瑞士、美国、法国、德国各有48、42、36、23个病例。所以，要计算每个国家对外输出的病例，我们要做一个转换：

2020年4月8日

数据分析的“六字决”

数据包裹着我们每一个人，推攘着向前，向前，向前；我们也不断的需要在数据中发现知识，快速成长。怎么更好的完成数据分析呢？发现问题，认识问题，解决问题。看过万卷书，走过万里的路。发现数据分析也是一件有门有道，有章有法的事。简单而言六个字：“构成，对比，趋势”构成是数据内部的组合分布，主要描述“我”是谁？知道“我”是谁是最为关键的一步，正如一句古语：“知己知彼，百战不殆”。对比是组成部分的对比知道我最重要的是什么；现在“我”与过去“我”的对比知道成长了多少；同类的对比知道“我”与“他”的不同，显现“我”的优劣不足，这样才能有的放矢。趋势是变化走向的描述，主要掌握“我”要到哪里去，有迹可循，有踪可跟，我们才能把握未知，不偏不倚的驶向好的未来。1，构成构成主要的方法，拆分构成数据的成分，一般多按照自然维度，偶有人为定义（三分法，四分法，多分法）：比如：用户分为年轻，中年，老年的三种年龄构成；产品分为通过价格和质量分为四象限；最常用的是多维度细分，因为一定程度的汇总，会掩盖数据的真实情况而出现辛普森悖论。假设维度：有（A，B，C，D）将会产生的组合为：15=

2020年4月7日

从无到有的“糗事百科”分析

（页面结构可能变了）抓取字段：用户昵称，性别，年龄，糗事内容，是否有图，点赞数，喜欢数。3，我们认识了：糗事百科：写糗事百科的男性占比高于女性年龄段集中分布在20到30岁

2020年4月6日

被冒犯了：6个实验报告满天飞了

温故6年前做的信息计量学的实验报告，有一些疑问，当我打开搜索知道一下，我有点吃惊了。TOP3的结果都是自己的实验报告，开心也有点害怕，网络平台转载文章，作者却一无所知，有点尴尬了。与其被搬运，不如自己主动分享；实验中我们验证前辈们的经验所得，可以深刻的理解原理，学以致用，站在巨人的肩膀上登高望远。一、实验目的

2020年3月29日

玩转数据：长宽变换

120）。3，十八般武艺既然我们知道了什么是长数据和宽数据，接下来我们一起学习一样长宽变换的十八般武艺吧。数据我们就用这个上图的数据。data

2020年3月28日

鹤岗哭诉：一个鬼城的诞生

不一样的美四十四天，看见中国力量窦娥：平均数，比我冤枉！文章底部点个「在看」，坚持为你创作！

2020年3月21日

各美其美：统计.分析.挖掘不一样的美

最重要的是均值和方差；数据的分布：卡方分布，二项式分布，正态分布；假设检验的方法；---是什么？分析:

2020年3月14日

四十四天，看见中国力量

datetime温馨提示：指定国内源下载更快。处理图表中的中文字符。plt.rcParams['font.sans-serif']=['SimHei','Times

2020年3月8日

C与Python之争：互联网大门的金钥匙

“趣味数据周刊”

2020年2月28日

寻常概率的惊叹号！

各项平方和：最后我们可以近似的估计出醉汉走了多远。就这样概率，能让我们更快的找到那个你挂念的醉汉了。3，色盲：染色体X的概率选择？概率统计可以的得知：色盲在男性远多于女性

2020年2月22日

关联推荐：啤酒怎么爱上尿布？

“趣味数据周刊”

2020年2月2日

疫情之下：“数据分析” 之路的柳暗花明？

受疫情影响，大家的上班时间已经一而再，再而三往后拖。朋友圈也出现了好多喊着“生意难做”“救救企业”的文章。于是有同学陆续问：当前疫情是不是会对经济有影响？会不会影响到年后找工作，今天系统解答一下。

2020年2月1日

小试牛刀：用SQL玩转R数据框

“趣味数据周刊”

2020年1月29日

数据十问，问十道百

目录：1，度量数据中心趋势与离散趋势的统计量？2，刻画相异性的度量？3，什么是高数据质量的数据？4，规范化变换数据的方法？5，什么是数据仓库？6，什么是数据立方体？7，OLAP的操作用哪些？8，OLAP的服务器结构有哪些？9，常用的属性选择度量有哪些？10，评估分类器性能的度量？通过细微的十个小问题，以点画线，画出数据相关的知识面，直观把握知识，形成一个体系。1，度量数据中心趋势与离散趋势的统计量？中心趋势度量：均值，中位数，中列数，众数；离散趋势度量：极差，四分位数，方差，标准差，四分位数极差；分布形态度量：峰度，偏度，一个标准正态分布数据偏度为0，峰度为32，刻画相异性的度量？欧几里得距离（绿色），曼哈顿距离（红蓝黄），闵可斯夫基距离，上确界距离等等。3，什么是高数据质量的数据？准确性，完整性，一致性，时效性，可信性和可解释性。数据预处理过程：数据清理，数据集成，数据归约。4，规范化变换数据的方法？最小-最大规范化：将原始数据投射到指定的空间[min,max]。可用公式表示为：Z分数(z-score)规范化（或零均值规范化）：属性的值基于A的均值（即平均值）和标准差规范化小数定标规范化：通过移动属性A的值的小数点未知进行规范化。小数点的移动位数依赖于A的最大绝对值。还有scaling

2020年1月21日

一种另辟蹊径的聚类：EM聚类

趣味数据周刊

2019年12月29日

大数据开发，一定要关注小细节

第六步，提交审核，生产数据（回溯数据很慢）。其实在大数据量面前，生产数据的过程是漫长的，需要花费很多时间去等待。第五步的测试极为重要

2019年12月21日

R绘图：美且有价值

Visualisation

2019年12月20日

简文短述：决策树

趣味数据周刊

2019年11月30日

窦娥：平均数，比我冤枉！

简单的几何意义谈起平均数的几何意义，我们一定会想到毕达哥拉斯，这位出色的数学家发现了三种平均数：算术平均数，几何平均数，调和平均数。下图中

2019年11月20日

数据运营：白话“增收控费降成本”

点击上方“趣味数据周刊”关注公众号文章期号：201901029数据分析：增收,控费,降成本作者：李曜曦

2019年10月29日

抽样入门：舍得之道

点击上方“趣味数据周刊”关注公众号文章期号：201901014选择决定后续的果统计推断需要样本，模型的训练需要样本，预测决断的也需要样本；这里一而再再而三的提到样本，因为样本是我们一眼可得的宏观世界的缩影，是探取自然，人类社会能量的探针，更是我们一叶之秋的信息索引。那么

2019年10月15日

ARIMA时间序列与LSTM神经网络的PK

点击上方“趣味数据周刊”关注公众号文章期号：201901007方法对比显优劣前言：时间序列算是我接触的第一个统计学实践项目，也是它把我带进了机器学习的大门。当时的我的工作是根据过往投资和赎回量，每天预估一个需要留的钱，有点类似银行准备金。我本想自己写个代码，无奈能力不足，最后让算法工程师帮我写了一套，每天预测准确率大约90%。回头过了1年多我现在都不会，当时肯定写不出来了。正好这周末学习统计预测，上课老师讲的是ARIMA模型为主，不过老师也说了目前要更高的准确率推荐神经网络。正好我也查到了神经网络相关代码，尝试做一个ARIMA与神经网络结果比对。同时也是为了十月有一个预测比赛打基础。一、ARIMA模型ARIMA模型于1982年提出，是时间序列预测分析方法之一。ARIMA（p，d，q）中，AR是"自回归"，p为自回归项数；MA为"滑动平均"，q为滑动平均项数，d为使之成为平稳序列所做的差分次数（阶数）。后面ARIMA模型我是用R语言来实现的。第一步：安装包；主要用到forecast需要下载以便预测。第二步：下载导入数据这里以最近两年ICBC的的历史股票行情为例。数据是2017年4月5日至2019年9月20日每天股票最高价。根据以往数据预测9月23日至9月27日ICBC股价（最高价），下载数据可见后文lstm模型开头有下载办法。#导入下载的数据w

2019年10月7日

揭秘：时间序列的盘根错节

点击上方“趣味数据周刊”关注公众号文章期号：201901006一文写尽时间序列的小历史明义：按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察,研究，寻找它变化发展的规律，预测它将来的走势，就是时间序列分析。1，技术扩展时间序列分析早期的时序分析通常都是直观的数据比较或绘图观测，寻找序列中蕴涵的发展规律，这种分析方法就成为描述性时序分析。20世纪20年代开始，学术界利用数理统计学原理来分析时间序列。研究的重心从总结表面现象（描述性时序分析）转移到分析序列值内在的相关关系上（统计时序分析），由此开辟来一门应用统计学学科——时间序列分析。范蠡

2019年10月6日

说好不哭：十二生肖，你们配吗？

点击上方“趣味数据周刊”关注公众号文章期号：201909015品味成语，解读十二生肖找对象，难，难于上青天。男女比例失调的客观挑战，还有四柱八字，十二生肖等传统观念的束缚。喜欢都已经够难了，还有这么多条条框框，真是太难了。众人皆说十二生肖，成之于语。今天从十二生肖的成语开始，一起探索十二生肖的恩怨情仇。批判继承传统文化，听而不盲从是智慧，思而敢突破是勇气，看山不是山是格局。有感于此文，结下良缘是你们的福分，我的小功德。

2019年9月19日

必知必会：统计学的智慧七柱

点击上方“趣味数据周刊”关注公众号文章期号：201909015从智慧七柱，看统计学的苍宇《旧约.箴言》写道：“智慧建造了房屋，雕琢了七根柱子。”建造智慧的房屋欢迎寻求知识的人一起庐舍谈天，阐明统计推理的核心思想及其七个原则。01均值均值（聚合）【定向减少或压缩数据的价值】，最小二乘法及其衍生方法的本质都是均值，它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。把数据集中的个体值进行统计汇总，概括出的信息可以超越个体。甚至核密度估计和各类现代平化器在本质上也是均值。例如：古老合法木棒的长度

2019年9月15日

秋收：回首过往，微笑前行

“在看”这里推荐一个公众号：演员的自我修养，从典籍中品读人生道理扫码，关注看看，也许你喜欢推荐阅读：《哪吒之魔童降世》：异化让人成魔一个公式缓解

2019年9月1日

一个公式缓解你99%的蕉绿

有毛线关系吗？有，没有无缘无故的恨，也没有无缘无故的爱。可以说二项式是骑着飞火轮的追求这美丽的e。一起看看这一段爱恨。二项式和美丽的e

2019年8月22日

见山之门：神经网络

network）。许多复杂的应用（比如模式识别、自动控制）和高级模型（比如深度学习）都基于它。学习人工智能，一定是从它开始。什么是神经网络呢？网上似乎缺乏通俗的解释。前两天，我读到

2019年8月14日

《哪吒之魔童降世》：异化让人成魔

点上方

2019年8月5日

K近邻，最简单的预判“你买了吗？”

点上方

2019年7月24日

小统计，牵出“徽州丝绢大案”

去欣赏我的私域小站，可以先点个“在看”吗？推荐阅读：客户分类是精细化运营的第一步戏谈《长安十二时辰》的大案牍术大浪淘沙，让数据发光是一种能力

2019年7月20日

戏谈《长安十二时辰》的大案牍术

再走吧！推荐阅读：客户分类是精细化运营的第一步大浪淘沙，让数据发光是一种能力一个知乎回答，引发的思考

2019年7月9日