Python开发者

其他

中国第一篇《Nature》论文

Group创刊于1869年,是世界上最早的国际性、综合性科学技术期刊,也是现在全世界最顶尖的综合性学术期刊这篇《考证律吕说》登载于《格致汇编》1878年第7卷,后由《格致汇编》的主编傅兰雅(John
2024年4月8日
其他

出乎意料:怎么中文也属于字母?

最近在使用一个第三方库,叫做RapidFuzz。它有一个工具函数,叫做utils.default_process,在官方文档里面,是这样介绍的:红色方框里面说,这个函数可以移除所有的非alphanumeric字符。如果我们使用翻译软件,会发现alphanumeric的意思是字母和数字。如下图所示:因此,我想当然觉得,这个功能函数,只会保留26个英文字母的大小写加上10个数字,一共62个字符。把除此之外的所有其他字符都移除掉。但我经过测试,它竟然没有办法过滤掉中文字符,如下图所示。难道终于也属于字母?于是我到Github上面去给这个项目提Issue。但作者却说这个函数没有问题,并且使用Python的.isalnum()来做测试,发现Python也会认为中文也是alphanumeric。如下图所示:这就非常奇怪了,于是我找到Python官方文档,发现它是这样说的:str.isalnum()[1]Return
2024年4月3日
其他

为什么我们公司还在用 Python 开发项目?

Python,好处就是可以在电脑上开发然后直接放到设备上运行,也不需要专门招嵌入式工程师,基本上对硬件调用部分封装之后就可以让公司任何一个后端去开发了。在一些图片处理识别、爬虫、自动化测试、CICD
2024年4月3日
其他

Python爬虫高手必备的8大技巧!

转自:网络想要快速学习爬虫,最值得学习的语言一定是Python,Python应用场景比较多,比如:Web快速开发、爬虫、自动化运维等等,可以做简单网站、自动发帖脚本、收发邮件脚本、简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程,今天就总结一下必备的8大技巧,以后也能省时省力,高效完成任务。1
2024年4月2日
其他

这个“临时方案” Windows 用了 30 年,网友:段子源于现实

的资源编辑器快速搭建了一个简单的纵向列表界面。他表示选择垂直布局是为了让用户可以按照大致正确的顺序勾选所有选项。Dave
2024年4月1日
其他

27个Python Data Science库 (实战代码)

plt.yticks([])plt.subplot(224),plt.imshow(blur_1[:,:,::-1]),plt.title('Bilateral')plt.xticks([]),
2024年4月1日
其他

你知道 Python 如何解压缩数据吗

点击标题可跳转1、常见统计概率分布实现(代码)2、Python自动化操作Excel、Word、PPT、PDF工具3、汇总17个工作必备的Python自动化代码
2024年3月28日
其他

字节游戏大裁员后,轮到飞书了,或将 1000 个“同学毕业”了

状态”。谢欣简洁明了地概括出了三个目标,方向更聚焦、组织更高效、团队也要更有战斗力。一位前飞书员工透露,裁撤的“重灾区”或在产研部门。裁员在本月上旬已有端倪。上述受访者提到,其劳动合同在今年
2024年3月28日
其他

详解Python 66 个内置函数!附代码

点击标题可跳转1、常见统计概率分布实现(代码)2、常用Python爬虫库汇总3、NumPy、Pandas中若干高效函数!
2024年3月26日
其他

敲了17年代码,我现在连个面试机会都得不到

人才的确只是一厢情愿,至少没有任何客观数据作为支持。更加合理的解释是,企业这一波裁员是在为疫情三年间的过度招聘买单;此外,当前资本市场的利息仍然很高,华尔街希望企业能多实施降本增效策略。至于整体转向
2024年3月25日
其他

如何检验数据异常?

LOF,进而判断该数据点是否为离群点。它的好处在于可以量化每个数据点的异常程度(outlierness)。图3:LOF异常检测数据点P的局部相对密度(局部异常因子)=点P邻域内点的平均局部可达密度
2024年3月22日
其他

我在技​​术面试中用 ChatGPT 作弊,没人知道

问题相同:找到两个数字,它们的和等于给定的目标值。输入和输出都一样;这个问题唯一的“自定义”之处就是给问题加上了故事。既然与已知问题相同,那么对于输入和输出都与现有已知问题相同的问题,ChatGPT
2024年3月22日
其他

深度学习的四个学习阶段!

来源:Coggle数据科学转自:pythonic生物人机器学习领域是巨大的,为了学习不迷路,可以从以下列表帮助学习。它概述深度学习的一些学习细节。阶段1:入门级入门级能够掌握以下技能:能够处理小型数据集理解经典机器学习技术的关键概念理解经典网络DNN、CNN和RNN数据处理在入门级使用的数据集很小,可以放入主内存中。只需几行代码即可应用此类操作。在此阶段数据包括Audio、Image、Time-series和Text等类型。经典机器学习在深入研究深度学习之前,学习基本机器学习技术是一个不错的选择,其包括回归、聚类、SVM和树模型。网络掌握常见的网络层,以及相应的神经网络;GAN、AE、VAE、DNN、CNN、RNN
2024年3月21日
自由知乎 自由微博
其他

是谁还在坚持用 QQ?腾讯回应:好冷漠...

转自:电脑报近日,“仍有5亿人坚持用QQ”的话题登上微博热搜,引发网友热议。根据腾讯财报,截至2023年第三季度,QQ智能终端月活跃用户数为5.58亿,仅占微信四成。但换个角度看,作为一款25岁的元老级社交应用,QQ破5亿的月活仍然是很多社交App羡慕的存在,超过了微博和知乎总和。只是在用户增量上,QQ对腾讯的贡献越发小了。DT商业观察报道称,因为功能丰富,不少人对QQ的喜爱甚至多于微信。比如抖音最近爆火的“养火花”,就和QQ早前备受喜爱的“续火花”有异曲同工之意。的确如此,QQ在娱乐、个性化等方面备受年轻人的青睐,年轻人依旧选择在
2024年3月21日
其他

GitHub 标星 15w,如何用 Python 实现所有算法?

Adleman)一起提出的。当时他们三人都在麻省理工学院工作。RSA就是他们三人姓氏开头字母拼在一起组成的。1973年,在英国政府通讯总部工作的数学家克利福德·柯克斯(Clifford
2024年3月13日
其他

7个底层数据结构,几乎撑起了整个上层数字世界!

转自:网络在编程的世界里,数据结构是构建信息框架的骨架。就像现实生活中的建筑需要精心设计的结构一样,我们的数据也需要合适的结构来保证程序的高效和稳定。今天,我们就像探险家一样,一起去探索七大数据结构的奥秘,并揭开它们的应用场景、优势和缺陷的神秘面纱。1.
2024年3月13日
其他

用 Rust 开发的 Python 包管理工具,可替换 pip、pip-tools 和 virtualenv

的交流中,我们清楚地认识到我们的愿景非常接近,但实现这些愿景需要在基础工具上作大量投入。例如:构建这样的工具需要一个非常快速的、端到端集成的、跨平台的解析器和安装器。在
2024年3月11日
其他

Nature发布2024年值得关注的七项技术

算法的爆炸式增长使得合成令人信服但完全是人工的图像、音频和视频变得简单。但结果可能会让人担心,随着持续的地缘政治冲突和美国总统大选的临近,媒体操纵的机会很多。纽约布法罗大学(University
2024年3月11日
其他

Python制作进度条,原来有这么多方法!

来源:机器之心https://towardsdatascience.com/learning-to-use-progress-bars-in-python-2dc436de81e5如果你之前没用过进度条,八成是觉得它会增加不必要的复杂性或者很难维护,其实不然。要加一个进度条其实只需要几行代码。在这几行代码中,我们可以看看如何在命令行脚本以及
2024年3月9日
其他

嫌邻居放歌太吵,开发者偷用「树莓派+AI」黑进音箱:干扰音频,使其不得不关

Gone(雷鬼消失)。它主要负责监控房间内的音频,通过机器学习识别雷鬼音乐,一旦识别就向蓝牙音箱触发通信请求和数据包。简而言之,Reggaeton
2024年2月28日
其他

Python自动化操作Excel、Word、PPT、PDF工具

今天给大家分享一下,花费2周时间整理的Python自动化办公库。本次内容涵盖了Excel、Word、PPT、ODF、PDF、邮件、微信、文件处理等所有能在办公场景实现自动化的库,希望能够对大家有所帮助。PythonExcel自动化库//
2024年2月28日
其他

总结了90条简单实用的Python编程技巧!

解释器内部的定义(2)在解释器中直接输入变量,默认调用repr函数,而print(var)默认调用str函数(3)repr函数的返回值一般可以用eval函数来还原对象(4)两者分别调用对象的内建函数
2024年2月26日
其他

汇总17个工作必备的Python自动化代码

tools```说明:构建测试自动化框架需要仔细的规划和组织。该脚本是一个创建自定义的、适合您的特定项目需求的测试自动化框架的起点。它涉及定义架构、选择合适的工具和库以及创建可重用的测试函数。15.
2024年2月23日
其他

常见统计概率分布实现(代码)

ylabel='freq')二项式分布伯努利分布是针对单个观测结果的。多个伯努利观测结果会产生二项式分布。例如,连续抛掷硬币。试验是相互独立的。一个尝试的结果不会影响下一个。二项式分布可以表示为。
2024年2月23日
其他

常用Python爬虫库汇总

转自:pythonic生物人很多人学Python,都是从爬虫开始的,毕竟网上类似的资源很丰富,开源项目也非常多。Python学习网络爬虫主要分3个大的版块:
2024年2月21日
其他

Python 命令补全工具 argcomplete

语句后面,比如一些import语句,常常比较耗时,可以往后放。希望这个程序能让你的Python开发变得舒服一些。参考资料[1]argcomplete:
2024年2月19日
其他

13张动图快速理解马尔科夫链、PCA、贝叶斯!

转自:网络本文用可视化的方式来解释抽象的理论概念,使这些抽象概念变得生动而立体!马尔科夫链、主成分分析以及条件概率等概念,是计算机学生必学的知识点,然而理论的抽象性往往让学生很难深入地去体会和理解。而本文,将这些抽象的理论概念,用可视化的方式来解释,还可调节相应参数来改变结果,使这些抽象概念变得生动而立体!计算机相关概念太难、太抽象?别怕,往下看!人类对视觉信息的记忆要远远大于文字信息。使用图表等形式的可视化,可以让抽象、难懂的概念一目了然;在此基础之上,添加可控的参数调节器,将更有助于对概念的深入学习与理解。马尔科夫链马尔科夫链是指数学中具有马尔科夫性质的离散事件随机过程。在其每一步中,系统根据概率分布可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。这概念是不是看着有点晕?没关系,我们来看下面这张图:2种状态的马尔科夫链在状态空间中有两种状态,A和B。共有4种可能的转换。如果我们在A,接下来可以过渡到B或留在A。如果我们在B,可以过渡到A或者留在B。在这张图中,从任意状态到任意状态的转移概率是0.5。当然,真正的建模工作者不会总是就画一张马尔科夫链图。相反,他们会使用“转移矩阵”来计算转移概率。状态空间中的每个状态都会出现在表格中的一列或者一行中。矩阵中的每个单元格都告诉你从行状态转换到列状态的概率。因此,在矩阵中,单元格做的工作和图中的箭头所示是一样。如果状态空间添加了一个状态,我们将添加一行和一列,向每个现有的列和行添加一个单元格。这意味着当我们向马尔可夫链添加状态时,单元格的数量会呈二次方增长。因此,转换矩阵就起到了很大的作用(除非你想把法尔科夫链图画的跟丛林一样)。马尔科夫链的一个作用是用计算机模拟现实世界中的现象。例如,可以用来检测一个新建的水坝溢流的频率(取决于连续下雨的天数)。为建立这个模型,可以从下面的雨天(R)和晴天(S)开始:表述这种模拟天气的方法就是:“有一半的天数是下雨天。所以模拟中的每一天都有50%的概率是下雨的。”这个规则在模拟中所产生的序列如下:你注意到上面的序列和原来的不太一样了吗?第二个序列似乎具有跳跃性,而第一个(真实数据)似乎具有“粘性”。在真实的数据中,如果某一天是晴天,那么第二天也很可能是晴天。可以通过两个状态的马尔可夫链来消除这种“粘性”。当马尔科夫链处于状态“R”时,它保持在该状态的概率是0.9,状态改变的概率是0.1。同样,“S”状态保持不变的概率是0.9,过渡到“R”状态的概率是0.1。在许多需要对大规模的现象做研究的工作人员手中,马尔科夫链的作用可以变得非常强大。例如,谷歌用于确定搜索结果顺序的算法,称为PageRank,就是一种马尔可夫链。主成分分析(PCA)主成分分析,是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。PCA是最重要的降维方法之一,在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。2D示例首先,只考虑两个维度的数据集,比如高度和重量。这个数据集可以绘制成平面上的点。但如果想要整理出变量,PCA会找到一个新的坐标系,其中每个点都有一个新的(x,y)值。坐标轴实际上没有任何物理意义。它们是高度和重量的组合,被称为“主分量”。拖动原始数据集中的点,可以看到PC坐标系统正在调整PCA对于降维很有用。下面,我们将数据绘制成两条直线:一条由x值组成,另一条由y值组成。但是,如果我们只打算沿一个维度查看数据,那么将该维度作为具有最大变化的主成分可能会更好。通过减少PC2,不会造成太大损失,因为它对数据集的变化贡献最小。3D示例看透一个数据云是非常困难的,因此,在3D空间中,PCA显得更为重要。在下面的示例中,原始数据以3D的形式绘制,但可以通过不同的视角,将其投射到2D空间。确定好角度之后,点击“显示PCA”按钮,即可呈现2D的结果。在本例中,PCA变换确保水平轴PC1的变化量最大,垂直轴PC2的变化量次之,第三轴PC3的变化量最少。显然,PC3是丢弃的。应用:吃喝在英国如果数据集不仅仅是三维的,而是17个维度的呢?!如下表所示:表中是英国每个地区平均每人每周17种食物的消费量,单位为克。这张表显示了不同食物类型之间存在的一些有趣的差异,但总体差异并不显著。让我们看看PCA是否可以通过降维来强地区家之间的差异。下图是第一个主成分的数据图。我们可以看到一些有关北爱尔兰的情况已经发生了变化。现在,看看第一和第二主成分,可以看到北爱尔兰是一个主要的异常值。一旦回过头来看看表格中的数据,这就显得很有道理了:北爱尔兰人吃的新鲜土豆要很多,吃的新鲜水果、奶酪、鱼和酒精饮料较少。这是一个很好的迹象,我们所看到的结构反映了现实世界地理的一个重要事实北爱尔兰是四个国家中唯一一个不在大不列颠岛上的。条件概率条件概率是指一个事件在另外一个事件已经发生条件下的发生概率。一个落下来的球可能落在红色的架子上(称之为A事件),或者落在蓝色架子上(称之为B事件),或者两者兼而有之。那么给定一个球,它击中了红色架子(A事件),而后击中蓝色架子(B事件)的概率会是多少呢?可以通过给定A的条件概率,即P(B
2024年2月16日
其他

Python爬虫库推荐,建议收藏留用

SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。网络爬虫框架1.功能齐全的爬虫•grab
2024年2月15日
其他

人类为什么活得这么累?Nature论文解开谜底!

来源:iNature想象一座由乐高积木制成的桥。一侧有三个支撑件,另外两个。你将如何稳定这座桥?一项新的研究表明,大多数人会添加一块,这样每边都有三个支撑。但是为什么不移除一块,让每一侧都有两个支撑呢?研究人员2021年4月7日在Nature
2024年2月15日
其他

替代for循环,让Python代码更pythonic !

Generators上述两种方法是很好的处理更简单的逻辑。更复杂的逻辑怎么样?作为程序员,我们编写函数来抽离出复杂的业务。相同的想法适用于此。如果你是这样写的:results
2024年2月7日
其他

决策树、随机森林可视化

分享一个Python可视化工具pybaobabdt,轻松对决策树、随机森林可视化,例如,随机森林可视化图怎么看:每一种颜色代表一个class,link的宽度表示从一个节点流向另一个节点的items数量。安装依赖pygraphviz,pip
2024年2月4日
其他

sklearn 1.4发布:引入重要新功能

object通过将categorical_features参数设置为"from_dtype",梯度提升分类器会将具有分类数据类型的列视为算法中的分类特征。下面是一个使用这一特性的示例代码:from
2024年1月30日
其他

事半功倍,必看这4个Pandas神器!

widgets集成到Python中的JavaScript库,允许用户直接从DataFrame数据创建交互式和灵活的汇总报表。可以进行高效、清晰的数据分析和表示,帮助将数据从Pandas
2024年1月26日
其他

Pandas表格样式设置,超好看!

Store应用程序数据集来探索数据透视表的创建和表格样式的自定义。数据集涵盖从应用程序名称到大小、价格和评级等细节的各个方面。我们的目标是有效地分解信息,同时应用有效增强数据呈现和理解的风格。
2024年1月24日
其他

5个Python自动化EDA库

Dabl。这个库在执行时需要确定一个目标变量,将目标列作为y轴进行绘图。虽然这个库仍在开发中,但是它可以直接帮你进行双变量分析,这通常是我们真正想看到的。每个变量相对于目标变量的表现。
2024年1月24日
其他

用 Python 优雅地编写 LaTeX

latexifylatexify.__version__'0.4.2'案例演示我们需要以装饰器的形式进行使用,下面以求根公式为例:def
2024年1月22日
其他

详解常用机器学习算法优缺点

来源:Abner说AI1.逻辑回归二项logistic回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的logistic分布。这里随机变量X取值为实数,随机变量Y取值为1或0。可以通过有监督的方法来估计模型参数。优点:1.
2024年1月19日
其他

加速Python循环的12种方法,最高可以提速900倍

2.00x可以看到使用列表推导式可以得到2倍速的提高2、在外部计算长度如果需要依靠列表的长度进行迭代,请在for循环之外进行计算。
2024年1月19日
其他

解密 SSE,用 Python 像 ChatGPT 一样返回流式响应

中,服务端会保持一个开放的连接,只要有新数据可用,就会直接发送给客户端。所以服务端会将响应以流的形式发送给客户端,每次发送的消息都是响应流的一部分,而不是独立的
2024年1月15日
其他

5个Python自动化探索性数据分析库

Dabl。这个库在执行时需要确定一个目标变量,将目标列作为y轴进行绘图。虽然这个库仍在开发中,但是它可以直接帮你进行双变量分析,这通常是我们真正想看到的。每个变量相对于目标变量的表现。
2024年1月15日
其他

神经网络是如何学习预测的?

是一种基于神经网络的自然语言处理(NLP)模型,使用大量数据输入神经网络对模型进行训练,直到模型的输出在一定程度上符合我们的预期,训练成熟的模型就可以接收用户的输入,并针对输入中的关键信息给出经过
2024年1月12日
其他

Polars (最强Pandas平替)

转自:数据studioPolars是一个用于操作结构化数据的高性能DataFrame库,可以说是平替pandas最有潜质的包。Polars其核心部分是用Rust编写的,但该库也提供了Python接口。它的主要特点包括:快速:
2024年1月10日
其他

大厂是如何防止订单重复支付的?三分钟彻底搞懂!

来源:cnblogs.com/cjsblog/p/14516909.html如图是一个简化的下单流程,首先是提交订单,然后是支付。支付的话,一般是走支付网关(支付中心),然后支付中心与第三方支付渠道(微信、支付宝、银联)交互。支付成功以后,异步通知支付中心,支付中心更新自身支付订单状态,再通知业务应用,各业务再更新各自订单状态。这个过程中经常可能遇到的问题是掉单,无论是超时未收到回调通知也好,还是程序自身报错也好。总之由于各种各样的原因,没有如期收到通知并正确的处理后续逻辑等等,都会造成用户支付成功了,但是服务端这边订单状态没更新。这个时候有可能产生投诉,或者用户重复支付。由于③⑤造成的掉单称之为外部掉单,由④⑥造成的掉单我们称之为内部掉单为了防止掉单,这里可以这样处理:支付订单增加一个中间状态“支付中”,当同一个订单去支付的时候,先检查有没有状态为“支付中”的支付流水,当然支付(prepay)的时候要加个锁。支付完成以后更新支付流水状态的时候再讲其改成“支付成功”状态。支付中心这边要自己定义一个超时时间(比如:30秒),在此时间范围内如果没有收到支付成功回调,则应调用接口主动查询支付结果,比如10s、20s、30s查一次,如果在最大查询次数内没有查到结果,应做异常处理支付中心收到支付结果以后,将结果同步给业务系统,可以发MQ,也可以直接调用,直接调用的话要加重试(比如:SpringBoot
2024年1月10日
其他

小白看得懂的 Transformer (图解)

announcement:https://ai.googleblog.com/2017/06/accelerating-deep-learning-research.htmlŁukasz
2024年1月8日
其他

机器学习常用十大算法的优缺点!

有大量的核函数可以使用,从而可以很灵活的来解决各种非线性的分类回归问题。4)样本量不是海量数据的时候,分类准确率高,泛化能力强。SVM算法的主要缺点有:1)
2024年1月8日
其他

放弃使用UUID,ULID才是更好的选择!

1))根据现有的随机数创建一个新的ULID。支持随机值类型有int,float,str,bytes,bytearray,memoryview,Randomness,和ULID。>>>
2024年1月4日
其他

用Python实现十大经典排序算法(附动图)

作者:hustcc链接:https://github.com/hustcc/JS-Sorting-Algorith排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括:关于时间复杂度平方阶
2024年1月2日
其他

大模型训练为什么用 A100 不用 4090

数之间也有个比例关系,这也很容易理解,只要把模型想象成数据的压缩版本就行了,压缩比总是有极限的。模型的参数量太小,就吃不下训练数据里面所有的知识;模型的参数量如果大于训练数据的
2024年1月2日
其他

贝叶斯网络的因果关系检测(Python)

本文来自:https://towardsdatascience.com/a-step-by-step-guide-in-detecting-causal-relationships-using-bayesian-structure-learning-in-python-c20c6b31cee5作者:Erdogan
2023年12月29日
其他

一张照片,抖音小姐姐就都能跳舞了

已经发布。论文地址:https://arxiv.org/pdf/2311.16498.pdf项目地址:https://showlab.github.io/magicanimate/GitHub
2023年12月29日