数据Seminar

其他

Python 实战 | 利用 Python 做长宽面板转换(附数据&代码)

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、处理思路浅析三、处理代码
4月19日 下午 6:01
其他

数据治理 | 江小涓:构建数据的经济学分析框架

▍本文转载自公众号:清华大学互联网产业研究院中国是首个把数据作为生产要素的国家,这在国际上是没有先例的。对于数据的研究,从经济学的角度需要一个很好的分析框架。从经济学视角思考,数据研究涉及非常多的学术问题。比如数据作为要素,要研究确权、交易和收益的制度安排,最终希望配置的效率最高;数据作为产业,需要研究具体经济主体的行为及其市场影响;数据作为市场,要研究数据市场的规则、行为和结构,特别是
4月15日 下午 6:01
其他

软件应用 | 客观对比Python所有的依赖环境管理工具

或其他索引(包发布)。下面我们将更详细地了解每个类别,包括简短的定义、动机和可用的工具。我将在最后的单独部分中更详细地介绍一些单一用途工具和一些多用途工具。我们先从第一类开始:Python
4月5日 下午 6:01
其他

数据可视化 | sjvisualizer,一个超强的Python数据可视化动画库

今天给大家介绍一个非常棒的数据可视化库,sjvisualizer。根据时间序列数据制作动态图表,包含条形图、饼图、堆叠条形图、折线图、堆叠面积图。可以先看一下官方的示例~只需几行代码,就可以制作电脑浏览器发展史的动态图表。GitHub地址:https://github.com/SjoerdTilmans/sjvisualizer使用pip进行该库的安装。#
3月29日 下午 6:08
其他

软件应用 | 没有思考过 Embedding,不足以谈 AI

的关键是一个重要的洞察、一个极具启发性的角度:一个词的意义,可以被它所出现的上下文定义。这句话换一种说法又可以表述为:上下文相似的词在词义上也一定存在相似性。想一想是不是很有道理?这个观点是语言学家
3月22日 下午 6:00
其他

Python教学 | 有备无患!详解 Python 异常处理(try-except)

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录引言一、关于异常二、try-except
3月15日 下午 6:05
其他

文献笔记 | 使用AI大模型助力文献阅读

实证设计:为了解决HRS在不同省份和县份逐步推行的问题,作者采用了两种实证设计策略。首先,利用省级HRS推行的时间差异,采用断点回归设计(difference-in-discontinuities
3月14日 下午 6:01
其他

数据可视化 | Python数据可视化,无法绕过的matplotlib基础知识!

的主要任务之一,就是提供一套表示和操作图形对象(主要对象)以及它的内部对象的函数和工具。其不仅可以处理图形,还提供事件处理工具,具有为图形添加动画效果的能力。有了这些附加功能,matplotlib
3月8日 下午 6:00
其他

《管理世界》|| 张征宇 等:双重差分设计下固定效应估计量何时可信?——若干有用的建议

双重差分设计下固定效应估计量何时可信?——若干有用的建议文章来源作者:张征宇(上海财经大学经济学院)林丽花(江西财经大学经济学院)曹思力(浙江财经大学经济学院)周亚虹(上海财经大学经济学院)文章刊发:《管理世界》2024年第1期文章主要内容摘要:过去十年间,国内经济学期刊发表了大量使用双重差分法(DiD)评估经济政策效果的研究成果。然而,在条件平行趋势假设下双向固定效应估计量(FE)能否一致地估计平均政策效应?为此,本文建立了一个新的FE分解定理,并指出在这一假设下FE估计量的经济学含义。研究表明:除政策效应之外,FE估计量还包含了两项偏误:处理组个体对政策实施的提前反应和控制变量对潜因变量随时间而变化的影响。这就意味着,在最简单的两期DiD模型中,FE估计量依然可能有偏。本文也将理论结果推广到了多期DiD模型中。在理论分析的基础上,本文提出多个诊断检验以判断FE估计量是否存在严重偏误。本文还提出了一个基于OLS的简便纠偏估计量。该估计量可以估计政策的动态效应,同时确保估计量不受政策效应异质性以及控制变量的干扰。最后,本文分别以国家级高新技术开发区对于地区经济及个税减免对个体劳动供给的影响为例,说明了本文所提出的检验及估计方法在科学评估中国经济政策方面的现实价值。关键词:双重差分法
3月7日 下午 6:00
其他

机器学习 | 吴恩达:机器学习的六个核心算法

独立工作,对具有两种以上可能结果的情况进行了逻辑回归。进一步的工作产生了有序逻辑回归,其中结果是有序值。为了处理稀疏或高维数据,逻辑回归可以利用与线性回归相同的正则化技术。图注:David
3月1日 下午 6:21
其他

加入我们 | 中国公共政策与绿色发展数据库 (CPPGD) 研究助理 (实习) 招聘公告

本文转载自公众号社科大数据项目名称:CPPGD数据库2024扩充提升项目项目简介:中国公共政策与绿色发展数据库(China
3月1日 下午 6:21
其他

全国硕士研究生招生考试初试成绩查询时间

人与像素:连接遥感与社会科学数据Seminar这里是大数据、分析技术与学术研究的三叉路口
2月26日 上午 9:47
其他

Python 实战 | 从 PDF 中提取(框线不全的)表格

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、引言二、camelot-py
2月23日 下午 6:00
自由知乎 自由微博
其他

质量检测 | 对一份中国工商企业注册数据库的质量考察

Part1前言在当前这个信息泛滥的时代,及时、可靠和尽量精准的数据对我们获取知识、理解现实和解决问题变得越来越关键。这催生了一批面对政商学、产学研各个领域专业数据服务公司。企研数据专注社科领域的专业数据库研发和建设服务,是国内较早将全量工商注册企业数据应用于科研领域的专业公司。团队对全量工商注册数据的应用可以追溯到创始人在北京大学从事博士后研究工作期间所参与的朗润-龙信创新创业指数项目。公司于2018年正式成立之后,我们尝试用这份理论上包含中国所有企业基本信息的数据库,深度探索了其在规模以上工业企业数据库、海关数据库、专利数据库等的纵向和横向匹配方面的应用价值,形成的研究报告免费分享在公众号上,读者可以在企研·学习专区下载工作论文形式的pdf文件(网址为:xue.qiyandata.com,以下是截图)。图源“企研·学习专区”,网址:xue.qiyandata.com公司正式成立之后,始终坚持边干边学,努力加深对中国全量工商注册企业数据库的研究,不仅在此基础上探索了其在三农、绿色发展和数字经济等领域的科研应用,还持续为有关部委、大型国企提供相关数据服务。我们深知这份数据的复杂程度,以及数据安全的重要性,5年来团队始终保持清醒的头脑,坚持从应用层面去开发和销售相关数据产品,而拒绝落地售卖全量的基础数据。尽管我们知道,在金融领域,一份全量工商注册数据库+更新服务,动辄大几十万,甚至数百万。近期,销售部门得到一些客户反馈,认为通过云桌面账号的方式使用这个数据库并不合理,因为“市面上”已经有不少数据服务商公开售卖这份数据,并且价格极为便宜。我们深知,只有通过对数据有细致的前期处理和谨慎分析,才能确保其准确性和完整性,从而得出可靠的数据分析结果。为了一探究竟,企研数据·研发部抱着“学习使人进步”的态度,对买到的其中一份数据进行了质量分析,正如我们之前曾经分析互联网上流传的2014、2015年规模以上工业企业数据库那样(传送门:2014年工业企业数据库质量调查报告、2015年工业企业数据库质量调查报告),形成了这份质量考察报告。具体来说,本文试图利用企研数据掌握并运营多年的全量工商企业注册数据库(我们接下来称之为“企研版”)以及一些国家市场监管部门公开发布的统计数据,对这份原始出处不明的中国全量工商企业数据集(我们接下来称呼其为“A版”)的质量进行考察。主要将从数据量和数据质量两个方面展开,以期帮助读者更好地选择和使用数据。Part2从数据量上看,企研版市场主体数量明显高于A版,且更接近于国家统计局公布的官方统计值。我们通过A版数据的“企业类型”指标发现,该数据集不仅包含“企业”的登记注册信息,还包含“个体工商户”的注册信息。为分别对比不同类别经营主体(企业和个体工商户)的数量,我们尝试对A版数据的经营主体类型进行划分。然而遗憾的是,该数据集的“企业类型”指标缺失率高达53.15%,导致无法简单根据该指标对经营主体类型进行划分。随后,我们尝试通过“统一社会信用代码”指标,来辅助识别“企业类型”指标缺失记录的经营主体类型。然而统计发现,A版数据约有7655万条记录(占比约为51%)的“统一社会信用代码”和“企业类型”指标均为缺失状态。总之,根据当前A版数据集的已有的指标和指标缺失情况,我们暂时无法对企业和个体工商户两类经营主体进行区分。🎨小知识:我们可通过“统一社会信用代码”前两位为“92”,对个体工商户经营主体进行识别(关于统一社会信用代码更为详细的说明可见往期推文
2月18日 下午 6:00
其他

政策精选 | 哲学社会科学实验室政策脉络

本文转载自公众号数智社科前言人类在认识世界、理解世界的过程中,不断提出各类哲学、经济和社会问题,并试图通过理性思考和实证研究来回答这些问题,于是社会学、经济学、政治学等社会科学学科应运而生。随着经济全球化和信息技术的发展,哲学社会科学面临新的机遇和挑战。于是人们开始讨论原有的学科分类体系与科研组织方式能否适用于进一步推动该领域的学术研究,进而更好地服务社会。哲学社会科学实验室是一个服务国家战略、教学科研、共建共享的学术平台,它聚焦经济社会和哲学社会科学发展的前瞻性、综合性、复杂性问题,运用大数据、云计算、人工智能等新兴技术手段,采用实验研究方法开展哲学社会科学研究。在新技术赋能社会科学的“新文科”背景下,这一“新型”科研平台的提出试图改变“孤立、静止、还原”的社会科学研究思维,促进社会科学与自然科学交叉渗透和融合创新,产出新的哲学社会科学研究成果。我国政府部门也持续加强顶层设计,为哲学社会科学实验室建设保驾护航。那么国家与地方出台了哪些政策,让我们一起来看看。正文图1
2月17日 下午 6:00
其他

大数据应用 | 经济学中,我们该使用什么样的夜间灯光数据?

Li共同撰写。文章探讨了在经济学研究中应使用哪种夜间灯光数据以及在哪些地区使用它们。是上一篇文章非常好的补充。系列回顾大数据应用
2月16日 下午 6:00
其他

大数据应用 | 夜间灯光数据在经济学中的应用与挑战

前两期,【数据seminar】介绍了关于卫星遥感数据在经济学中的应用情况(详见下方系列回顾)。而其中,最受欢迎的,要数夜间灯光数据。学者们使用夜间灯光数据进行了多种多样的研究,但随着夜间灯光数据在经济学研究中的使用越来越广泛,其局限性也逐渐被学者所认识。本周【数据seminar】要推介的这篇文章Night
2月12日 下午 6:00
其他

大数据应用 | 人与像素:连接遥感与社会科学

[设为星标]不迷路!上一期,数据seminar转发了计量经济圈的推文,推介了一篇关于卫星遥感数据在经济学中应用情况的推文(点击查看>>>“大数据应用
2月6日 下午 6:00
其他

软件应用 | 30个Python函数,解决99%的数据处理任务!

属性来实现此目的,它提供了许多用于格式化和显示数据框的选项。例如,我们可以突出显示最小值或最大值。它还允许应用自定义样式函数。df_new.style.highlight_max(axis=0,
2月2日 下午 6:00
其他

大数据应用 | 前沿:卫星数据在实证研究中的应用,用其开展因果推断的好处!

正文关于下方文字内容,作者:李文琦,加拿大英属哥伦比亚大学经济学,通信邮箱:liwenqiapp@126.com今天,我们主要介绍一下"卫星数据在实证研究中的应用,
1月26日 下午 6:01
其他

大数据应用 | 谭海华:探究数据质量在人工智能大模型中的重要性

本文转载自公众号DQMIS数据质量管理智库【演讲嘉宾】【主论坛主旨演讲】【关键字:数据质量、人工智能、大模型、数据集建设、数据驱动创新】【演讲摘要】非常高兴今天在这里和大家一起交流数据质量与人工智能及大模型的关系。我们一直在致力于数据质量技术研究十多年,刚开始在做这个的时候大家几乎没有任何意识,没有任何数据质量的问题。现在数据质量包括刚才范会长讲到数据这也是人工智能其中一个底座,数据已经成为人工智能的重要组成部分,我们再回过头来看数据质量为什么会在整个人工智能包括大模型里面起到的价值,这也是我们今年论坛的核心主题词,串起了有关AI和大模型,甚至是数据要素、数据入表关键的主线,因为这几个环节都离不开数据质量。所以我今天是用这个机会跟各位汇报下我们在这个领域的一些看法、实践及研究。我今天要讲的这几个事情,首先是关于人工智能和大模型,关于大模型和数据质量,我相信刚才已经讲了很多大模型的概念,他们之间有什么关系。我们先看一张图,这是网上流传的比较,有百度来的同事不要见怪,我确实从今日头条里看到了两幅对比画,这两幅对比的画,一个是文心一言一个是OpenAI的,这里讲的有关车水马龙的图片。我相信大家看到这张图片的时候能感觉有差距,具体差距在哪里?这两张照片给了我们很大的冲击力。其实我们在谈这个大模型的时候,当OPENAI出来的时候最震撼的是并不是他所呈现的方式,其实这种方式在很多年前都已经有了,这是属于知识图谱的领域,并没有新鲜的东西,但是它对于语义的理解,对人的理解,已经让我们能够跟正常人的一样交流了,这是我们比较惊讶的事情,ChatGPT主要是两个大突破,一个是数据一个是算法,算法方面当然有它的独特之处,但是数据是土壤,从数据质量这个领域去看这个问题的时候,如果没有这个土壤,没有好的数据质量,是无法达到现在ChatGPT呈现的效果的。我觉得我们做大模型这个路很长,没有一定的基础是没有办法培养土壤的,尤其是高质量的数据,他不是靠一个工具就能解决的。这是大模型的前世今生,其实这里大家都很清楚,这是最早的机器翻译、神经网络,我相信这里很多学校都是在研究,但是问题是为什么OPENAI一出来之后大家有点震撼。我们回顾下整个数据的发展过程,互联网时代,我们讲互联网BAT,为什么BAT能够攻城略地,是因为有数据,即使没有高质量的数据,也可以攻城略地,有流量就可以了,那个时候能抓流量就足够了,流量有没有好和坏,其实在那个时候遍地都是机会,不需要关注数据质量,有流量就行了,为什么有那么多衍生商业模式出来,因为有流量。有流量时代的已经孵化出那么多公司,这就是我们第一代,我们要理解数据对社会的影响,这个不用讲从百度、阿里巴巴跟腾讯所覆盖的地方基本上全部占掉,因为我有流量、数据。这个时代是这样的。当然现在互联网时代正在转变,刚才讲到许多高管因为技能问题,马上就下课了,因为时代变了,可能所有技术都不一样了。早期,数据对整个经济的影响,对整个业态的影响,第一时代就是流量为王,有流量就够了,这个时代我管它有没有质量,因为没办法辨别质量,有流量就行了,你在衡量它的价值的时候,拿流量做衡量标准,因为没有质量,有流量就行了,其次,第二代我们叫精准营销1.0,已经有些客户开始说有流量不行,我还是要做精准营销,但是精准营销的话,大家知道很多都是单向输出的,单向告诉你,我可以帮你触达什么,但是你能不能有效果给我。有触达已经不错了,你还想要什么,能触达就好了,你拍个广告牌在高速公路里面,你看到,你不知道是谁看,但我还告诉你我能够发到你的IP地址,我已经触达了,你就应该给我钱。接着,我们看到在金融界大量开始使用数据,这就是信用与风控,信用与风控是我们在利用大数据时代最典型的一个场景,我知道很多数据分析师,专业的人才都是来自于金融界,因为信用与风控在金融界先开始做起来。精准营销,可以说我们数据用的场景都在这里,包括我们昨天为什么讨论智能制造,没有讨论商业上的数据怎么用,因为大数据的应用已经下沉到智能制造这个更深的蓝海里面去了。我们能看到数据权利转移,今天我看傅院长讲了这个,就是权利的转移,其实这个图5年前的时候在一次演讲里面讲到的,大家可以看一下我们整个数据发展演变的过程。开始数据1.0,我有票证就行了,大家说我有票证已经很满足了,因为有票证就可以无纸化,信息化就是无纸化嘛,我有票证了,我有电子的东西,所有IT技术发展第一代的思维方法都是这样子的,这也就是IBM为什么会成为霸主的时候,为什么IBM会成为当时那个时代的霸主,因为他能把这个事情做好,完整正确管理内部数据,这是第一代。到了第二代的时候,我们需要的是数据2.0,那就是流量经济了,这个时候谷歌起来了,百度起来了,为什么?我有流量,我有触达。这个时候我们关心的是海量的存储和海量的导流,包括我们数据颗粒度的分解,结构的分解,我们现在开始关注用户画像、场景分析,我们要去做数据分析,要开始考虑数据质量。也就是说我们在数据2.0的时候,数据质量已经开始变成越来越重要。到数据3.0的时候,现在我们怎么去看人工智能,这也是今天我们引入的话题,数据质量在人工智能里面是怎样跟我们人工智能去结合,怎么去驱动整个业务的变化,这是其中一个点。在这里面我们就看大数据时代的质量与挑战,我们不重视它不代表它不存在,你不知道,但不代表它不存在,我们要有更多的认知。这是一张图,大家可以看这张图,大家其实对数据质量的问题有很大的不同理解,什么叫数据质量,昨天我们在讨论的时候也提到这个问题,我们谈数据是有边界的,我们可以归纳为数据空间的问题(Data
1月22日 下午 6:01
其他

机器学习 | 陶旭辉、郭峰——异质性政策效应评估与机器学习方法:研究进展与未来方向

异质性政策效应评估的价值和传统方法介绍:“关于异质性政策效应评估的研究很多,譬如低技能者相比高技能者在求职培训中可能获益更多(克瑙斯
1月19日 下午 6:01
其他

加入我们 | 遥感与GIS数据分析师(实习)招聘公告

岗位职责:收集、整理和处理遥感与GIS类数据,包括卫星图像、地理信息数据等;运用统计和分析工具,对数据进行深入分析,提供相关报告和洞察;与团队合作,为客户提供专业的数据支持和解决方案;跟踪行业动态和新技术,不断提升自身专业能力。任职要求:本科及以上;土地管理、人文地理与城乡规划、生态学、地理信息、测绘、环境工程或环境科学相关专业;熟悉GIS相关概念,熟练使用相关制图软件(如ArcGIS、QGIS等)进行数据处理、图层编辑、数据格式转换、属性录入和数据导入导出等;掌握Python、Oracle等工具、对经济学等社会科学领域有一定了解者优先考虑;具备较强的统计分析能力和问题解决能力;具备良好的沟通能力和团队合作意识。岗位待遇💡
1月18日 下午 6:00
其他

Python 教学 | 解密 Windows 中的 Path 环境变量

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、引言二、Path
1月12日 下午 6:05
其他

数据伦理 | 如何合规使用开源数据和软件?这几种常见协议你得知道!

(BY-ND):只要在使用、公开时进行署名,并且对创作不加任何改动,那么使用者可以使用本创作,包括将其运用于商业目的。该协议下的数据他人在公开时不能改动,但可以转卖。署名-非商业性使用-禁止演绎
1月5日 下午 6:25
其他

Python实战 | 酷炫,Python实现交通数据可视化!

生成栅格的几何图形grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)#
2023年12月29日
其他

机器学习 | 刘景江、郑畅然、洪永淼:机器学习如何赋能管理学研究?国内外前沿综述和未来展望

工商管理研究领域采用机器学习进行事件预测和理论构建的代表性文献例如,蒂德尔和艾森哈特(2020)综合运用机器学习和多案例理论构建等方法,提出了一个高性能收益模式—活动系统配置的框架。具体地,他们对
2023年12月22日
其他

大数据分析 | 文本方法衡量技术革新

对此本文重新构建了一个包含时间权重的BIDFw指标,定义为申请年t之前申请的任何专利中包含w的文件的对数频次。于是TFBIDF就变成了这些都被安排在一个W向量TFBIDFi,t中,其中W是对(i,
2023年12月15日
其他

Python实战 | 文本文件编码问题的 Python 解决方案

编码正常读取,则会改用国际标准化组织(ISO)定义的字符编码标准ISO-8859-1(latin1)进行读取,这样读取后就会得到一个中文乱码的结果,就像下面这样:此时我们可以使用
2023年12月8日
其他

免费申请 | 赋能乡村研究—中国乡村创新创业指数对外开放!

遥感与GIS数据分析师(实习)招聘公告一文带你了解什么是数据科学?企研数据处理工作论文系列集锦公告
2023年12月1日
其他

加入我们 | 遥感与GIS数据分析师(实习)招聘公告

联系HR:长按扫码,添加HR星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!点击搜索你感兴趣的内容吧往期推荐一文带你了解什么是数据科学?企研数据处理工作论文系列集锦Python
2023年11月28日
其他

一文带你了解什么是数据科学?

数据科学专业人员需要的具体技能和技术因所处岗位和场景而异。如果数据科学家希望进入数据科学中更专业的领域(例如深度学习、神经网络和自然语言处理),则需要学习一些技能和技术,比如:编程使用
2023年11月24日
其他

企研数据处理工作论文系列集锦

xue.qiyandata.comPart1数据质量检测2014年中国工业企业数据库质量调查报告摘要:目前,在学界广为流传的中国工业统计数据库时间跨度为
2023年11月22日
其他

Python 教学 | Python 学习路线+经验分享,新手必看!

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、为什么学Python?三、Python
2023年11月17日
其他

公告 | 【数据Seminar】Python原创推文更新频率调整

文本分析工具之HanLP入门数据Seminar这里是大数据、分析技术与学术研究的三叉路口文
2023年11月17日
其他

数据可视化 | 用 Python 制作动感十足的动态柱状图

动画优化上一节中的动画虽然制作简单,但整体看来还是缺乏美感,下面我们将使用更多的代码来对动画的细节进行优化,各个部分代码的功能尽数写在注释中,记得多看注释哦~(向右滑动查看完整代码)1###
2023年11月10日
其他

Python 实战 | 文本分析工具之HanLP入门

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、HanLP简介三、安装HanLP四、轻松使用HanLP五、结束语六、相关推荐本文共6630个字,阅读大约需要17分钟,欢迎指正!Part1前言上期文章我们介绍了文本分析中两个文本关键词提取的方法,并使用
2023年11月10日
其他

Python 实战 | 进阶中文分词之 HanLP 词典分词(上)

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、引言
2023年11月10日
其他

Python 实战 | 进阶中文分词之 HanLP 词典分词(下)

值等等。实际上,在中文分词的场景中,我们一般使用后面这三个指标来衡量分词器的准确程度,下面我们将详细介绍这些指标是如何运用在中文分词场景中的,在此之前,我们首先需要理解混淆矩阵这个概念。文本基于
2023年11月10日
其他

数据可视化 | 3D 柱状图一览各省农民合作社存量近十年变化

Python绘制多维柱状图:一图展示西部各省人口变迁【附本文数据和代码】星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!点击搜索你感兴趣的内容吧往期推荐Python
2023年11月10日
其他

Python 实战 | 进阶中文分词之 HanLP 词典分词(下)

值等等。实际上,在中文分词的场景中,我们一般使用后面这三个指标来衡量分词器的准确程度,下面我们将详细介绍这些指标是如何运用在中文分词场景中的,在此之前,我们首先需要理解混淆矩阵这个概念。文本基于
2023年11月3日
其他

Python 教学 | Python 学习路线+经验分享,新手必看!

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、为什么学Python?三、Python
2023年11月3日
其他

Python 实战 | 文本分析之文本关键词提取

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、实现工具——jieba三、TF-IDF
2023年11月3日
其他

Python 实战 | 文本分析工具之HanLP入门

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、HanLP简介三、安装HanLP四、轻松使用HanLP五、结束语六、相关推荐本文共6630个字,阅读大约需要17分钟,欢迎指正!Part1前言上期文章我们介绍了文本分析中两个文本关键词提取的方法,并使用
2023年11月3日
其他

Python 实战 | 进阶中文分词之 HanLP 词典分词(上)

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、引言
2023年11月3日
其他

基础学习 | 自学数据科学和机器学习?19个数学和统计学公开课推荐给你

周的匹兹堡大学的课程(edX)。地址:https://www.edx.org/course/statistics-unlocking-world-data-edinburghx-statsx#!4.
2023年11月1日
其他

Python 实战 | 文本分析工具之HanLP入门

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、HanLP简介三、安装HanLP四、轻松使用HanLP五、结束语六、相关推荐本文共6630个字,阅读大约需要17分钟,欢迎指正!Part1前言上期文章我们介绍了文本分析中两个文本关键词提取的方法,并使用
2023年10月27日
其他

Python 教学 | Python 学习路线+经验分享,新手必看!

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、为什么学Python?三、Python
2023年10月27日
其他

Python 实战 | 文本分析之文本关键词提取

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、前言二、实现工具——jieba三、TF-IDF
2023年10月27日
其他

Python 实战 | 进阶中文分词之 HanLP 词典分词(上)

Python教学专栏,旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑,结合实操案例,让小白也能轻松搞懂Python!>>>点击此处查看往期Python教学内容本文目录一、引言
2023年10月27日