数据派THU

Python实现 8 个概率分布公式及可视化

是分布的平均值。要注意的是，在正态分布中，均值、众数和中位数都是相等的。当我们绘制正态分布的随机变量时，曲线围绕均值对称——一半的值在中心的左侧，一半在中心的右侧。并且，曲线下的总面积为

2024年4月1日

来源：我不爱机器学习本文约1200字，建议阅读5分钟本文为你介绍用statsmodels写的向前逐步回归的工具。Python的statsmodels包含了一些R风格的统计模型和工具。在内部实现上，statsmodels使用patsy包将数据转化为矩阵并建立线性模型，具体信息参见pasty主页http://patsy.readthedocs.io/en/latest/overview.html。但是，Python的statsmodels工具中没有向前逐步回归算法。逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的（https://baike.baidu.com/item/%E9%80%90%E6%AD%A5%E5%9B%9E%E5%BD%92/585832?fr=aladdin）。网上有人用statsmodels写了一个向前逐步回归的工具，具体网址见https://planspace.org/20150423-forward_selection_with_statsmodels/。我试了一下，速度还不错，比我用sklearn写的要好。具体代码如下：import

2024年3月26日

其他

傅里叶变换算法和Python代码实现

g）为这些积分进行数值计算是可行的，但通常是棘手的——特别是在更高维度上。所以必须采用某种离散化的方法。在Numpy文档中关于傅立叶变换如下，实现这一点的关键是离散傅立叶变换（DFT）：

2024年3月25日

其他

R语言实现LASSO回归——自己编写LASSO回归算法

pmax(abs(x)-a,0)}要解决我们的优化问题，设置这样就可以等效地写出优化问题因此一个得到同样，如果有权重ω=（ωi），则按坐标更新将变为计算此分量下降的代码是：lasso

2024年3月19日

其他

数据异常如何检验？本文给出14种检验方法！

LOF，进而判断该数据点是否为离群点。它的好处在于可以量化每个数据点的异常程度（outlierness）。图3：LOF异常检测数据点P的局部相对密度（局部异常因子）=点P邻域内点的平均局部可达密度

2024年3月19日

其他

彻底理解傅里叶变换！

来源：机器学习实战本文约3100字，建议阅读10分钟本文为你清晰通俗地介绍傅里叶变换，通过大量的动画不但告诉你傅里叶变换是什么以及能干什么。今天分享一篇关于傅立叶变换理解的文章，开局一张图。这篇文章可以说是介绍傅里叶变换最清晰通俗的，没有之一，直接把你当做小学生来讲，通过大量的动画不但告诉你傅里叶变换是什么，还告诉你傅里叶变换能干什么。难能可贵的是，你可以通过手动绘制图案和拖动滑块来加深读傅里叶变换的理解。动画链接：https://www.jezzamon.com/fourier/index.html傅里叶变换是一种在各个领域都经常使用的数学工具。这个网站将为你介绍傅里叶变换能干什么，为什么傅里叶变换非常有用，以及你如何利用傅里叶变换干漂亮的事。就像下面这样：我将为你解释这个动画是如何工作的，沿途为你详细地解释傅里叶变换！这次旅途结束后，你将会掌握下面这些知识：什么是傅里叶变换；傅里叶变换的一些实际用途；傅立叶变换的一些很酷的用法（虽然有些没有实际意义）。我们现在暂时不提那些复杂的数学公式。傅里叶背后的数学原理十分有趣，但最好还是先从它的实际应用开始，以及为什么要使用它。如果你想了解更多，下面提供了一些进一步的阅读建议！一、傅里叶变换是什么简而言之，傅里叶变换把一个输入信号分解成一堆正弦波的叠加。就像大多数数学方法一样，这个名字来自一个名叫傅立叶的人。让我们从一些简单的例子开始，然后继续前进。首先，我们来看看什么是波

2024年3月17日

其他

原创 | 一文读懂高斯过程

Process）。简单来说，高斯过程是一个无限维的高斯分布。无限维，对于未接触过随机过程的读者们来说可能还是难以理解，我们可以先从一维的高斯分布说起。一维的高斯分布，即：对于一个随机变量

2024年3月15日

其他

一文搞定【数据分析】协方差和相关系数

来源：爱数据LoveData本文约1800字，建议阅读5分钟本文为你讲解协方差和相关系数两个概念。协方差和相关系数是两个比较接近的概念，今天这一篇就来一起讲讲这两个概念。方差之前介绍了方差是用来刻画数据波动性的统计量，那么协方差就是描述两个变量之间的变动关系。通俗地理解为：两个变量是同向变化？还是反向变化？同向或反向程度有多少？X变大，Y也变大，说明两个变量是同向变化的，这时协方差就是正的。X变大，Y变小，说明两个变量是反向变化的，这时协方差就是负的。并且从数值大小来看，协方差的绝对值越大，则两个变量同向或反向的程度也越大，即有较强的相关。公式的计算很简单，每个X与其均值之差乘以Y与其均值之差得到一个乘积，再将其都加起来求个均值即可。比如有两个变量X,Y，观察7个样本，画出他们的变化情况，并且很明显是同向变化的。可以发现每一时刻的值与的值的正负号相同（比如t1时刻，他们同为正，t2时刻他们同为负）：于是当他们同向变化时，与的乘积为正。这样，当你把7个时刻的乘积加在一起，求平均后也就是正数了。如果反向运动：很明显，的值与的值的正负号相反，于是其乘积就是负值，计算出来的协方差也就是负数了。上面说的两种情况比较特殊，很多时候XY两个变量的变动没有规律，比如：这种情况下某些的值与的值乘积为正，某些的值与的值乘积为负。加在一起后，其中的一些正负项就会抵消掉，最后平均得出的值就是协方差，通过协方差的数值大小，就可以判断这两个变量同向或反向的程度了。所以，在7个样本中，与的乘积为正的越多，说明同向变化的次数越多，亦即同向程度越高，反之亦然。总而言之，若协方差为正，则X和Y同向变化；反之协方差为负，则反向变化；协方差绝对值越大表示同向或反向的程度越深。其实方差也是一种特殊的协方差，只不过是X和X之间的协方差。相关系数相关系数的公式为：其实就是用X、Y的协方差除以X和Y的标准差。所以相关系数可以看成剔除了两个变量单位的影响、标准化后的特殊协方差。它可以反映两个变量变化是同向还是反向的，同向为正，反向为负。并且它又是标准化后的协方差，则它出现最重要的目的来了，就是消除两个变量单位的影响，使得不同变量的相关系数之间具有可比性。比如下面两种情况，关注一下纵轴的刻度：很容易可以看出两种情况下X和Y都是同向变化的，并且它们变化的方式都大致相同，在特定的样本点同为正或同为负，那么它们理应具有相同的相关关系。于是可以计算一下他们的协方差：第一种情况下：[(100-0)×(70-0)+(-100-0)×(-70-0)+(-200-0)×(-200-0)…]÷7≈15428.57第二种情况下：[(0.01-0)×(70-0)+(-0.01-0)×(-70-0)+(-0.02-0)×(-200-0)…]÷7≈1.542857协方差差了一万倍，只能看出两种情况都是正相关的，但是我们能说第一种情况就相关性更强吗？在上面两种情况中，虽然X和Y的变化方向都相同，但是每次变化的幅度不相同，主要原因是单位的不一致引起的。所以，为了能准确比较两个变量的相关程度，我们就要把变化幅度对协方差的影响中剔除掉，也就是要去掉单位的影响，于是就要使用相关系数。那么如何剔除变量变化幅度的影响呢？很自然的就应该使用前面提到的方差和标准差了！相关系数是协方差除以标准差，当X或Y的波动变大的时候，它们的协方差会变大，标准差也会变大，这样相关系数的分子分母都变大，相互抵消，变小时也亦然。于是相关系数不像协方差一样可以在实数域上取值，它只能在＋1到－1之间变化，具体为什么是+1和-1，可以自行Google柯西-斯瓦茨不等式。总之，对于两个变量X、Y，当他们的相关系数为1时，说明两个变量线性相关程度最大，两个变量存在线性关系。随着相关系数减小，两个变量相关程度也变小。当相关系数为0时，两个变量的线性无关，但要注意，无关不一定独立。当相关系数继续变小，小于0时，两个变量开始出现反向相关。当相关系数为－1时，说明两个变量线性相关程度也最强，不过是相反的线性相关，反相变化。让我们再回到前面X和Y的例子，用相关系数来衡量相关程度：X的标准差为：Y的标准差为：于是相关系数为：说明第一种情况下，X和Y有极强的相关性，几乎是线性相关。那第二种情况：X的标准差为：Y的标准差为：于是相关系数为：在第二种情况下，X的标准差较第一种小了10000倍，即变化幅度小了，但是并不改变X和Y线性高度相关的事实。两种情况的相关系数相等，X和Y具有相同的相关性，故而使用相关系数来衡量和比较相关性，要比协方差合适很多。编辑：于腾凯校对：梁锦程

2024年3月5日

科技

【机器学习】数据维度爆炸怎么办？详解5大常用的特征选择方法

来源：机器学习算法与Python实战本文约9800字，建议阅读15+分钟本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题。在许多机器学习相关的书里，很难找到关于特征选择的内容，因为特征选择要解决的问题往往被视为机器学习的一个子模块，一般不会单独拿出来讨论。但特征选择是一个重要的数据预处理过程，特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题。本文目录如下：一、去掉取值变化小的特征

2024年2月13日

其他

图灵和冯·诺依曼的遗产：生命计算机的架构

在证明判定问题无解的过程中，图灵表明，无论多么强大的计算机程序，都无法预测另一个程序的命运。用冯·诺依曼的话来说就是“你无法构建一个能预测任意自动机行为的自动机”。斯蒂芬·沃尔夫勒姆（Stephen

2023年11月30日

其他

10种顶流聚类算法Python实现

中如何实现、适配和使用顶级聚类算法。文章内容本教程分为三部分：聚类聚类算法聚类算法示例库安装；聚类数据集；亲和力传播；聚合聚类；BIRCH；DBSCAN；K-均值；Mini-Batch

2023年10月28日

其他

【干货书】无穷维统计模型的数学基础

来源：专知本文为书籍介绍，建议阅读5分钟这本书对无限维参数空间中的统计理论提供了一个连贯的描述。在非参数和高维统计模型中，经典的高斯-费舍尔-勒卡姆关于最大似然度和贝叶斯后验推断的最优性理论并不适用，过去的几十年里已经发展出了新的基础和理念。这本书对无限维参数空间中的统计理论提供了一个连贯的描述。数学基础包括对高斯过程和经验过程理论、近似与小波理论以及函数空间基础理论的自足的"迷你课程"。在此模型中的统计推断理论

2023年10月28日

其他

独家｜ 17个可以用于工作自动化的最佳Python脚本（下集）

tools```说明：构建测试自动化框架需要仔细的规划和组织。该脚本是一个创建自定义的、适合您的特定项目需求的测试自动化框架的起点。它涉及定义架构、选择合适的工具和库以及创建可重用的测试函数。15.

2023年10月26日

其他

独家｜ 17个可以用于工作自动化的最佳Python脚本（上集）

result```说明：此Python脚本是在数据库上执行SQL查询的通用函数。您可以将查询作为参数与数据库连接对象一起传递给函数，它将返回查询结果。6.3数据备份与恢复```import

2023年10月25日

其他

常用的相似度度量总结：余弦相似度，点积，L1，L2

1.0)在二维嵌入空间中距离很近。当计算余弦相似度时，得到0.948的值也可以确认两个向量非常相似。当较点A(1.5,

2023年10月23日

其他

常用距离算法 (原理、使用场景、Python实现代码)

plt.show()2、内置特征重要性(coef_或feature_importances_)一些模型，如线性回归和随机森林，可以直接输出特征重要性分数。这些显示了每个特征对最终预测的贡献。

2023年10月21日

其他

漫谈度量学习（Distance Metric Learning）

的，也就是说得等产品完成很多工序直到质检工序时才被发现，而某些产品质量可能在其中某一个工序就出问题了，可这些有问题的产品依旧经过了后续的很多工序加工，这造成了很大的资源和成本浪费。所以我们需要一个

2023年10月20日

其他

贝叶斯定理，不信看完这篇还不懂！

来源：图灵新知本文约3800字，建议阅读10分钟本文教你如何分析条件概率，即事件的概率不是独立的，而是取决于特定事件的结果。当一个事件的结果不影响另一个事件的结果时，这两个事件就是独立事件。例如，掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多，但独立事件往往并不能反映现实生活。例如，闹钟不响和上班迟到就不是独立事件。如果闹钟没有响，你上班迟到的可能性就要比其他时候大得多。来源

2023年10月18日

其他

处理不平衡数据的十大Python库（附代码）

y)总结处理不平衡数据对于建立准确的机器学习模型至关重要。这些Python库提供了各种技术来应对这一问题。根据你的数据集和问题，可以选择最合适的方法来有效地平衡数据。编辑：于腾凯校对：林亦霖

2023年10月15日

其他

以3D视角洞悉矩阵乘法，这就是AI思考的样子

轴，通过对向量外积逐点求和来计算矩阵乘法结果。这里我们可以看到外积平面「从后到前」扫过立方体，累积到结果中：使用随机初始化的矩阵进行此分解，我们不仅可以看到值，还可以看到结果中的秩累积，因为每个秩为

2023年10月14日

其他

16,8和4位浮点数是如何工作的（附代码）

dim=1)我们使用MNIST数据集，数据集分为6万张训练图像和1万张测试图像；可以使用参数train=True|False在DataLoader中指定选择。

2023年10月14日

其他

21 句话入门机器学习！

开头的是模块内置的小型数据集；函数名以fetch开头，是需要从外部数据源下载的大型数据集。datasets.load_boston([return_X_y])

2023年10月13日

其他

Jupyter Lab 十大高效生产力插件！

https://blog.jupyter.org/a-visual-debugger-for-jupyter-914e61716559[2]JupyterLab-TOC

2023年10月12日

其他

制作莫比乌斯环，最少需要多长纸带？50年来的谜题被解开了

来源：机器之心本文约1400字，建议阅读5分钟自己动手做过莫比乌斯带吗？莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单，即使是小孩子也可以轻松完成。你只需要取一张纸带，扭曲一次，然后将两端粘在一起。然而，这样容易制作的莫比乌斯带却有着复杂的性质，长期吸引着数学家们的兴趣。最近，研究人员一直被一个看似简单的问题困扰着，那就是关于制作莫比乌斯带所需纸带的最短长度？布朗大学

2023年10月12日

其他

机器学习模型可解释性的综述

来源：算法进阶本文约15000字，建议阅读20分钟本文对机器学习模型可解释性相关资料汇总。模型可解释性方面的研究，在近两年的科研会议上成为关注热点，因为大家不仅仅满足于模型的效果，更对模型效果的原因产生更多的思考，这样的思考有助于模型和特征的优化，更能够帮助更好的理解模型本身和提升模型服务质量。综述机器学习业务应用以输出决策判断为目标。可解释性是指人类能够理解决策原因的程度。机器学习模型的可解释性越高，人们就越容易理解为什么做出某些决定或预测。模型可解释性指对模型内部机制的理解以及对模型结果的理解。其重要性体现在：建模阶段，辅助开发人员理解模型，进行模型的对比选择，必要时优化调整模型；在投入运行阶段，向业务方解释模型的内部机制，对模型结果进行解释。比如基金推荐模型，需要解释：为何为这个用户推荐某支基金。机器学习流程步骤：收集数据、清洗数据、训练模型、基于验证或测试错误或其他评价指标选择最好的模型。第一步，选择比较小的错误率和比较高的准确率的高精度的模型。第二步，面临准确率和模型复杂度之间的权衡，但一个模型越复杂就越难以解释。一个简单的线性回归非常好解释，因为它只考虑了自变量与因变量之间的线性相关关系，但是也正因为如此，它无法处理更复杂的关系，模型在测试集上的预测精度也更有可能比较低。而深度神经网络处于另一个极端，因为它们能够在多个层次进行抽象推断，所以他们可以处理因变量与自变量之间非常复杂的关系，并且达到非常高的精度。但是这种复杂性也使模型成为黑箱，我们无法获知所有产生模型预测结果的这些特征之间的关系，所以我们只能用准确率、错误率这样的评价标准来代替，来评估模型的可信性。事实上，每个分类问题的机器学习流程中都应该包括模型理解和模型解释，下面是几个原因：❶

2023年10月12日

其他

6 种在 Python 中创建相关系数矩阵的方法

sns.pairplot(df[['mpg','weight','horsepower','acceleration']])所以我们这里介绍如何使用Matplotlib来实现：

2023年10月11日

其他

从贝叶斯定理到概率分布：详解概率论基本定义

的概率分布函数为：泊松分布的概率分布图示如下，其中µ为泊松分布的参数：下图展示了均值增加时的分布曲线的变化情况：如上所示，当均值增加时，曲线向右移动。泊松分布的均值和方差为：均值：E(X)

2023年10月11日

其他

特征选择的通俗讲解！

的准确率。在下面的每个示例中，每个模型的训练时间都将打印在每个片段的第一行，供你参考。一旦我们的随机森林分类器得到训练，我们就可以创建一个特征重要性图，看看哪些特征对我们的模型预测来说是最重要的（图

2023年10月8日

其他

15个基本且常用Pandas代码片段

来源：数据STUDIO本文约2100字，建议阅读5分钟在本文中，我们将介绍最常用的15个Pandas代码片段。Pandas提供了强大的数据操作和分析功能，是数据科学的日常基本工具。在本文中，我们将介绍最常用的15个Pandas代码片段。这些片段将帮助简化数据分析任务，从数据集中提取有价值的见解。1、过滤数据Pandas提供了多种方法来过滤数据。import

2023年10月8日

其他

统计学知识大梳理！

来源：深夜努力写Python本文约3100字，建议阅读7分钟本文介绍了统计学知识。今天继续来聊聊统计学的知识~关于“小样本”预测“大总体”现实生活中，总体的数量如果过于庞大我们无法获取总体中每个数据的数值，进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。1.

2023年10月6日

其他

大模型的最大bug，回答正确率几乎为零，GPT到Llama无一幸免

A」。如果一个人知道了「奥拉夫・朔尔茨是联邦德国第九任总理」这一事实，他们就可以正确回答「谁是德国第九任总理？」这个问题。这是一种基本的泛化形式，看起来平平无奇。然而研究表明，当前

2023年10月5日

其他

时间序列数据的预处理方法总结

来源：深度学习初学者本文约2600字，建议阅读5分钟时间序列数据随处可见，要进行时间序列分析，我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中，我们将主要讨论以下几点：时间序列数据的定义及其重要性。时间序列数据的预处理步骤。构建时间序列数据，查找缺失值，对特征进行去噪，并查找数据集中存在的异常值。首先，让我们先了解时间序列的定义：时间序列是在特定时间间隔内记录的一系列均匀分布的观测值。时间序列的一个例子是黄金价格。在这种情况下，我们的观察是在固定时间间隔后一段时间内收集的黄金价格。时间单位可以是分钟、小时、天、年等。但是任何两个连续样本之间的时间差是相同的。在本文中，我们将看到在深入研究数据建模部分之前应执行的常见时间序列预处理步骤和与时间序列数据相关的常见问题。时间序列数据预处理时间序列数据包含大量信息，但通常是不可见的。与时间序列相关的常见问题是无序时间戳、缺失值（或时间戳）、异常值和数据中的噪声。在所有提到的问题中，处理缺失值是最困难的一个，因为传统的插补（一种通过替换缺失值来保留大部分信息来处理缺失数据的技术）方法在处理时间序列数据时不适用。为了分析这个预处理的实时分析，我们将使用

2023年10月5日

其他

一文让你通俗理解奇异值分解

来源：深度学习初学者本文约3800字，建议阅读10+分钟本文和大家分享一道关于推荐系统相关的面试题，如何通俗理解奇异值分解？特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样，给别人描述说这个人长得浓眉大眼，方脸，络腮胡，而且带个黑框的眼镜，这样寥寥的几个特征，就让别人脑海里面就有一个较为清楚的认识，实际上，人脸上的特征是有着无数种的，之所以能这么描述，是因为人天生就有着非常好的抽取重要特征的能力，让机器学会抽取重要的特征，SVD是一个重要的方法。在机器学习领域，有相当多的应用与奇异值都可以扯上关系，比如做feature

2023年10月5日

其他

图神经网络的底层数学原理总结

'为嵌入维数。使用邻接矩阵到目前为止，我们通过单个节点i的视角观察了整个GNN正向传递，当给定整个邻接矩阵a和X⊆RN×d中所有N=∥V∥节点特征时，知道如何实现GNN正向传递也很重要。在

2023年10月4日

其他

神经网络与傅立叶变换有何关系？

(DFT)。使用DFT我们可以得到一个相同长度等间隔的样本序列，这个函数是由一组等间隔的样本序列组成的。上面给出的函数f(t)的系数可以由下面的函数得到。a

2023年10月4日

教育

【EPFL博士论文】统计学习问题的基本限制:块模型和神经网络

来源：专知本文为论文介绍，建议阅读5分钟本论文聚焦于两个选定的学习问题：1）图模型上的统计推断；2）神经网络上的梯度下降，共同的目标是定义和分析表征基本限制的度量。在论文的第一部分，我们考虑了图上的自旋同步问题，该问题包括基于图边缘上它们的交互的噪声观察来重构图顶点上的n个独立自旋的向量。特别是，我们考虑了带擦除（BEC）边信息的同步模型，在这些模型中，一小部分节点的自旋被揭示，并研究了这样的边信息如何影响远距离位点上的自旋的相关性。我们表明，在树上，当边缘观察给出的远距离位点上的自旋几乎是独立的时，那么给出边缘观察和边信息的自旋仍然几乎是独立的。我们推测这对任何图都适用。另一方面，（Kanade等人，2014）推测，在正规树和Galton-Watson树上，只要揭示了任何小部分节点标签，无穷深度处的边界就无法检测到根位，即使在重构范围内也是如此。我们解释了这如何用于计算具有两个对称社区的稀疏随机块模型（SBM）的极限熵。最后，我们表明，后一推测不适用于每一棵树。在论文的第二部分，我们考虑了用全连接神经网络上的梯度下降（GD）学习布尔目标函数的问题。我们引入了一个概念，即神经网络在初始化时与目标函数之间的“初始对齐”（INAL），并证明如果网络和目标在初始时没有显著的INAL，那么在具有i.i.d.

2023年10月3日

其他

机器学习可视化技术概览(Python)

本文约6700字，建议阅读5分钟本文介绍通过机器学习的可视化技术以解释和理解模型这个"黑盒子"的开发与运作。机器学习的可视化（VIS4ML）是利用可视化技术来解释和理解机器学习模型的过程。由于数据质量极大地影响了机器模型的性能，如图1，本文从数据出发，介绍了机器学习模型输入常见的五种数据类型，并介绍了六个以数据为中心的任务应用于来自机器学习流程不同阶段的三种类型的操作数据及机器学习可视化工具与技术，帮助大家更好地理解、诊断和完善机器学习模型。图1

2023年10月2日

其他

基于对数谱图的深度学习心音分类

Spectrogramhttps://link.springer.com/content/pdf/10.1007/s00034-022-02124-1.pdf编辑：于腾凯校对：林亦霖

2023年10月1日

其他

【机器学习】一个完整的K-means聚类算法指南！

来源：海豚数据科学实验室

2023年10月1日

其他

机器学习面试的 12 个基础问题

等评估指标。对训练数据集进行重新采样：除了使用不同的评估指标外，人们还可以通过某些技术来获得不同的数据集。基于不平衡的数据集创建平衡的数据集的方法有两种：欠采样和过采样，具体技术包括重复、自举或

2023年10月1日

其他

独家 | 对Fisher信息量的直观解读

λ。所以，我们可以对这个等式做一点小小的改变，就像下面这样：图：由y和λ共同构成的泊松分布的概率质量函数（图片来源：作者）假设我们开了上帝视角，知道总体的人流量平均速率的真值为λ0=16。令

2023年9月30日

其他

R语言：混合效应模型分析基于随机对照试验的重复测量资料（结局为连续型变量）

本文约3000字，建议阅读5分钟本文介绍了利用R语言混合效应模型分析基于随机对照试验的重复测量资料。重复测量资料在临床数据中非常普遍，常用重复测量的方差分析进行统计分析，但是经常面临的问题有：①临床资料又常常含有缺失值，例如采用某新药治疗疾病，分别在治疗前，治疗后1月，治疗后3月测量Y指标，但由于病人依从性等原因，导致治疗3月后缺失几例数据。②Y不满足正态性、方差齐性，且样本量不是很大。怎么办？推荐分析神器之一：混合效应模型。本文结合文献，分享基于R语言实现混合效应分析的方法，主要采用nlme包中lme函数。主要内容：1.可视化不同组Hb随时间的变化趋势2.时间作为分类变量，构建混合效应模型3.时间作为连续变量，构建混合效应模型4.模型1和模型2对比和选择5.模型残差检验

2023年9月30日

其他

深度学习中的图论

来源：我得学城本文约4000字，建议阅读10+分钟理解图学习所需的两个先决条件就在其名称中：图论和深度学习。文章来源：https://towardsdatascience.com/graph-theory-and-deep-learning-know-hows-6556b0e9891b1.

2023年9月30日

其他

常用Python数据科学库（附代码）

plt.yticks([])plt.subplot(224),plt.imshow(blur_1[:,:,::-1]),plt.title('Bilateral')plt.xticks([]),

2023年9月29日

其他

干货 | 2023大数据挑战赛技术分享：从“解一道题”到“用户桌面”技术落地的实践思考

以下内容整理自2023中国高校计算机大赛大数据挑战赛技术分享环节——云智慧CTO张博讲座内容。今天想跟大家一起聊一个很有趣的话题，如何做才能将从

2023年9月28日

其他

独家 | 为什么埃隆·马斯克说Rust是AGI的语言？

Musk）指出，Rust将成为AGI的语言。让它沉沦吧！https://twitter.com/elonmusk/status/1649603943033450496Rust

2023年9月27日

其他

独家 | 新的ChatGPT提示工程技术：程序模拟

“程序”在这种情况下会如何表现这样一个有趣的问题。你可能没有注意到，在我们互动的早期，这个程序实际上在征求用户输入想法扩展选择时使用了索引技术。让我们继续研究我们的培育建筑理念。

2023年9月26日

其他

向量数据库简介和5个常用的开源项目介绍

模型和点云处理：在计算机图形学和计算机视觉中，3D

2023年9月23日

其他

干货 | 基于深度学习的生态保护红线和生态空间管控区域内开发建设活动识别

以下内容整理自2023年夏季学期大数据能力提升项目《大数据实践课》同学们所做的期末答辩汇报。一、背景需求本研究主要针对江苏省典型生态保护区域，通过计算机语义分割和变化检测的技术方法，以实现生态保护区内违法违规开发建设活动的智能监控。项目的核心需求是实现两时相遥感图像变化检测，即能够有效地比较两个不同时间点的遥感图像，自动检测出其中的变化。这种变化通常包括土地利用和土地覆盖的变化、建筑物的增加或减少、自然灾害的影响、植被的生长或衰退等。我们的交付需求是开发一个系统，能够自动化地、高效地检测这些变化，以替代传统的人工目译方法。二、技术路线技术路线核心是两种深度学习模型方法和配套的前后端开发，同时配合传统的土地利用类型，变化识别方法的对比。三、传统方法传统方法主要考虑卫星，针对不同种光谱的响应，有三个方面的方法：第一类，基于GEE实现自动化近实时像素级的土地利用和覆盖类型的分类计算；第二类，基于Google

2023年9月23日

其他

一拖一拽，玫瑰复活了！谷歌提出生成图像动力学，从此万物皆有灵

来源：新智元本文约4500字，建议阅读9分钟谷歌团队最新提出的「生成图像动力学」。[

2023年9月22日

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

数据派THU

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡