小一的学习笔记

其他

Python实现pdf转word,代码已开源,小工具拿去即用

cv.close()其中,start和end参数指定待转换pdf文档的页码范围(默认是从0开始到最后一页);也可以通过pages指定不连续的页面,例如pages=[1,3,5]。3.
2021年5月27日
其他

轻松实现全国高校地理位置数据爬取(文末附源码和数据集)

大家好,我是小一一个城市的历史底蕴,不光可以从经济、文化和人文景点,还可以从高校的数量可以看出来。所以,今天就来试试如何爬取全国高校的分布数据。以下文章比较适合初学者,老读者请酌情加速阅读。今天要爬取的网站是:中国教育在线,对应的网址是:https://gkcx.eol.cn/school/search因为对应的是位置点,所以最主要的应该是经纬度点坐标数据。但是在该网站中无法获取到高校的经纬度数据,所以在文末会教你利用地址解析的方式获取到经纬度坐标。以下是正文:爬虫流程打开对应网址后,F12
2021年5月25日
其他

该死!辛苦制作的PDF文档被人随意传播,甚至还被拿去卖钱?

文档被别人随意拿来传播,更有甚者被用来卖钱。我们都说传播无罪,但是做这种事的人,你的良心不会痛吗?今天就来说说如何保护自己的权益,保护自己费尽心血的
2021年5月20日
其他

小一爬取一季度 15646 只基金持仓数据,下半年重点关注这些机会!

基本:资产规模分布对于资产规模,小一是这样理解的:大资产的基金在收益稳定的同时也会出现船大难掉头的情况,小规模的资金收益波动会较大,但也可以及时规避风险。因为基金较多,以下只选取近两年收益率的
2021年5月6日
其他

别好奇了,excel 绘制闪到发光的三维地图真的很简单!

筛选器和图层选项的设置比如现在想要单独看成都的地铁分布,在筛选器里面可以添加筛选、城市选择成都,在图层选项中设置好高度和厚度,最终的效果图就是这样的:以及它的热力图效果:至于说前面基站分布那篇中的
2021年4月29日
其他

转型到数据分析师的6个细节,以及我的一些心得体会(长文)

家好,我是小一最近后台有部分读者问我关于转行数分的事儿,我也尽自己最大的能力在帮大家,包括列技术栈、找基础教程、计划学习路径等偶然看到红星大佬的这篇文章,觉得很不错,特地分享给大家,希望能对大家有所帮助。当然你要是还是很迷茫,也可以在后台私聊我。另外,小一的读者可以在文末领福利。以下是正文:正文前言作者:红星简介:中国商业联合会数据分析专业委员会专业数据分析师,注册项目数据分析师,中国计算机学会专业会员,目前在国内五百强金融公司从事企业经营分析及规划战略分析工作,多次对大数据协会、数据沙龙等活动提供数据决策方针!大家好,继上一篇跟大家聊的《我为什么选择了数据分析》,其实我们所说的“数据分析”可以说是有关“数据”类岗位的总称。即通过分析“数据”发现业务问题,洞察商业机会点,为运营活动、业务增长及企业发展等提供合理建议及支持与指导业务发展。
2021年4月25日
其他

一个求证了三次才确定概念的数据分析案例!

大家好,我是小一今天的文章又是一波三折,差点没产出来事情是这样的:这次遇到的数据集里面,有一个概念,虽然它不影响整体的分析结果,但是抱着谨慎的态度,前前后后一共还是求证了三次,最终才得以确认,具体是啥后面文中会提到。先来说一下数据集:来源于全球手机基站开放数据库,网址是:https://alpercinar.com/open-cell-id/数据涉及的字段有
2021年4月24日
其他

手把手教你扒一扒贝壳网成交房源数据,文末附爬虫源码+福利!

就是楼层(高中低)和建筑年龄df.楼层楼龄.str.extract(r'(?P.*)\(.*?\)(?P\d+)年')楼层楼龄位置信息
2021年4月22日
其他

全国 40城 5000+ 地铁站点数据分析实战——这盛世如您所愿!

df_data_eda.groupby('城市名称').agg({'站点名称':pd.Series.nunique}).reset_index().rename(columns={'站点名称':
2021年4月20日
其他

可能我也没有想到,我能把写文章这件事因为一个小小的念头而坚持下来!

大家好,我是小一周末的时光总是很短暂,又一个周末过去了,下一个周末只放一天假。闲聊一下自己这段时间的一些个人感受吧不知道大家有没有发现,从去年疫情期间开始,突然多了
2021年4月18日
其他

小一教你轻松爬取全国40城5000+地铁站点数据!附源码和数据集

大家好,我是小一上一篇文章讲了一个失败的数据分析案例,导致失败最最主要的原因就两个字:数据有时候,爬虫爬到的数据是很珍贵、很稀缺,但是在实际项目最好还是多点谨慎,保证万无一失。今天介绍一种新的
2021年4月15日
其他

一个数据分析的真实失败案例,让我突然有点恍惚了

大家好,我是小一阅读今天的文章之前,一定要认真看完下面这段话首先,今天分享的内容不同于以往,今天的主题就两个字:失败,还有两个字:真实刚入职场做数据分析的时候,我基本上隔三差五就会遇到今天的问题,后来经验多了,趟过的坑多了,也就自然而然的不会有这些问题所以,当这次遇到问题后,突然觉得有点恍惚,我好像又回到了那个不可一世的岁月..扯远了,下面分享一下我遇到的真实案例:正文
2021年4月13日
其他

数据探索分析就写了6000+的实战文,写完怕不得几万字?

个特征,甚至有一个特征全为同一个值,需要特别注意单特征深度分析单特征分析主要是针对类别型特征和数值型特征挨个进行分析但是用户信息中缺失情况比较一致,处于同一维度的特征也可以同时做对比分析1.
2021年4月8日
自由知乎 自由微博
其他

数据清洗最基础的10个问题,基本涵盖目前常见的数分场景!

大家好,我是小一今天分享一个数据分析中最常见的概念:数据清洗。很多时候,数据预处理和数据清洗、特征工程等混为一谈,以至于大家分不清到底哪一步用谁。我个人的理解是:数据预处理主要是对数据集进行探索性分析,而特征工程则是进行分析后的相应处理。以上两个名词不常说,最常听的应该还是数据清洗,差不多也就相当于上面两个步骤。例如:在预处理阶段发现数据存在缺失值、异常值;数据特征之间存在共线性;数据特征可以互相组合形成更好的特征等等。就可以在特征工程
2021年3月30日
其他

快速分析基金季度报数据!附 3 种 PDF 类型数据解析方式

大家好,周二快乐前一段时间小一写过一篇爬取基金季度报的文章,里面有很多基金相关数据可以用来做对比分析,能提供一定的投资参考:一键爬取基金历年季度报数据,轻松搞定!附源码但是,下载下来的季度报文件都是
2021年3月23日
其他

《直击面试官》—没人比我更懂逻辑回归,附 9 大面试高频问题

批梯度下降会获得全局最优解,缺点是在更新每个参数的时候需要遍历所有的数据,计算量会很大。导致的结果是当数据量大的时候,每个参数的更新都会很慢。随机梯度下降是以高方差频繁更新,优点是使得
2021年3月18日
其他

直击面试官--->决策树最最最最最最常被问到的6个基础问题

采用信息增益率来选择属性,也就是针对子集相应的增加一个权重系数,这样可以避免在选择子集的时候选择特征多而每个特征的样本数量少的现象,但是信息增益率又会使得模型偏向于选择特征少的现象。所以,C4.5
2021年3月16日
其他

又是模型评估?到底怎么评估?『附 AUC 评估的三计算方法』

得到的就是正类样本的得分大于负类样本的得分占整体的比例,公式为:同样的,当两个样本的得分相等时,无论是同类(同正同负)还是非同类,都应该赋予相同的
2021年3月4日
其他

聊聊模型评估的事儿,附 roc 常见的四个灵魂发问

个用户是坏用户,如果用这个数据集去建模型,用什么指标去评估模型好坏?为什么?ok,如果你有答案了,可以直接跳到文末了解四个灵魂问题。如果你一脸懵,建议带着这个问题去看今天的文章。ROC
2021年2月23日
其他

一键爬取基金历年季度报数据,轻松搞定!附源码

大家好,我是小一今天的文章来自于朋友圈,发现大家对于基金报告的爬取也挺感兴趣,于是就抽时间复现了一下爬虫的整体思路比较简单,代码量甚至都没有基金分析那篇的多,很适合入门的朋友参考学习另外,这篇文章可能介绍的比较细,大家酌情加速阅读注:文末可获取本节所有源码正文目标:通过天天基金网爬取基金历史季度报告,下载对应的季度报告到本地
2021年2月20日
其他

2020年,『小一的学习笔记』文章合集

大话数据挖掘算法大话系列|决策树—相亲?怎么说?大话系列|决策树(中)—相亲?怎么说大话系列|决策树(下)—实战项目大话系列|贝叶斯(上)—下雨天吃什么?大话系列|贝叶斯(下)—实战项目大话系列|
2021年2月18日
其他

说说我自己对于 基金 股票 的理解

去写,也不是说想写啥就写啥,写点有价值的东西对我帮助也很大,想必你们也是。比如说在数据处理过程中,用
2021年2月6日
其他

​数据分析最重要的 3 种特征编码,你真的能分清楚?

的数值进行转换操作。最后,本文中用到的数据集也比较简单,需要的同学可以直接下载练练手链接:https://pan.baidu.com/s/14wi199hcbnrp5tvO91F5DQ
2021年2月2日
其他

小一爬取了 14455 个已发行基金,到底能分析点啥出来?

个维度进行基金数据分析鉴于本篇文章的整体基调是围绕基金所做的分析,所以对于基金是什么有必要做一个简单的介绍。当然,也只是止步于简单的介绍,毕竟对于基金,小一也是刚入门的小白。本篇更多的是在对
2021年1月31日
其他

聚类问题的 5 种评估手段,总有一种你不知道的!附代码实现

的评估过程。往期文章公众号文章标题的内卷化?部门小姐姐:你能用Python帮我做一个“抽奖程序”吗?今天的心路历程很特别!深漂三年,我还是我,我也不再是我!坚持向暮光所走的人,终将成为耀眼的存在!1
2021年1月26日
其他

部门小姐姐:你能用Python帮我做一个“抽奖程序”吗?

"".join(result)效果图如下:2)GUI程序界面开发然后开发一个gui主程序,用于展示界面,文件名为lottery_draw.py,部分代码如下:if
2021年1月21日
其他

回归问题的3个评估深坑!

说明什么?我们知道,分子是真实值和预测值的平方和,分母是真实值和均值的平方和。如果后面的结果远远大于1,那只能说明:预测值和真实值偏离太多了,换句话说,预测的结果太离谱了。直白的说,当
2021年1月19日
其他

今天的心路历程很特别!

大家好,我是小一每次在准备写非技术的文章,都会不自觉地翻一下之前的文章,生怕哪次自己当下的感受和前面的某次吻合。说起吻合这事,提一个很奇怪的现象,发生在我身上发生好几次了。大概情况是这样:很平常的某天,你脑袋里面会突然出现某个连续的画面场景,可能是你在做梦、在冥想或者看到某个画面的思考,反正就是会出现在你脑子里。当下你并不会有任何不一样的感受,因为这样的场景太多了。然后,会在一段时间、或者很长时间
2021年1月17日
其他

分类问题的 8 种评估方法(全)!

种不同的评价标准。▶1、混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。混淆矩阵会出现四种情况,分别是
2021年1月15日
其他

数据集划分的三种常见方式!

所训练出来的模型很接近,因此通常留一法得到的结果是比较准确的但是当数据集很大的时候,留一法的运算成本将会非常的高以至于无法忍受。▶自助法留出法与交叉验证法都是使用
2021年1月13日
其他

集成算法终极模型之《神器LightGBM》—最后的高山

多字的技术文来开篇。今天的文章是机器学习算法里面比较重要的一篇,也是目前常规比赛较为流行的一种建模方式。还是那句话,建议先收藏,一遍看不懂就看三遍,集成学习最后的高山,就在眼前了!ok,直接开始
2021年1月7日
其他

集成算法终极模型之《手撕 xgboost》—附详细手推公式

讲明白了,项目中最主流的集成算法!地址:https://mp.weixin.qq.com/s/q4R-TAG4PZAdWLb41oov8g我是小一,坚持向暮光所走的人,终将成为耀眼的存在!期待你的
2020年12月30日
其他

做数据处理,你连 fit、transform、fit_transform 都分不清?

筛选过滤,小一教你一招知乎凡尔赛沙雕语录,究竟有多沙雕?只需要10秒,使用PPT给证件照换底色同事微博涨粉200+,一顿分析真爱粉只有4个?我是小一,坚持向暮光所走的人,终将成为耀眼的存在!期待你的
2020年12月23日
其他

深漂三年,我还是我,我也不再是我!

“Qian途”:当下如果薪资差额不大的情况下那就选择未来一份有前途的工作(至少行业可行),当下卧倒学习,积累经验等风来即可。于是我选择了一个校企合作的小型科技创业公司—物联网行业。2018
2020年12月20日
其他

数据处理中的标准化、归一化,究竟是什么?

↑关注+星标,听说他有点东西全文共2267字,阅读全文需8分钟大家好,我是小一今天说一个比较重要的内容,无论是在算法建模还是在数据分析都比较常见:数据归一化和标准化。开始之前,请你先把网上看到的所有相关的博客、帖子都忘掉。不说全部,能讲清楚这个概念的文章真寥寥无几,首先是中英文名称翻译的问题,其次是概念理解的不全面,也就造成了网上的说法不一,看了之后各种被误导。当然,如果你在阅读文章的时候,发现存在问题欢迎留言批评指正但是我觉得你可能没有批评指正的机会先来说下概念数据归一化和标准化都属于数据特征无量纲的一种方式。无量纲指的是将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,称之为数据“无量纲化”。在模型训练过程中,经过无量纲化之后的数据特征对于模型的求解有加速作用,特别是对于需要计算梯度和矩阵的模型(例如逻辑回归中通过梯度下降求解损失函数)。另外,在k近邻、聚类等算法中需要计算距离,使用无量纲化可以提升模型精度,避免异常值对整体的计算造成影响,这个在后面会细说。数据的无量纲化可以是线性的,也可以是非线性的。非线性的无量纲不太常用,例如百分位数转换、应用特征功率转换等,基本很少用到;而常用的线性无量纲化主要包括
2020年12月17日
其他

Python 批量加水印!轻松搞定!

↑关注+星标,听说他有点东西全文共2003字,阅读全文需5分钟大家好,我是小一想必有读者会遇到这种情况:自己辛辛苦苦写的文章被盗,而且对方在文章中既不显示原文链接,也不做任务说明,堂而皇之的自己标记“原创”。碰见这种事情,搁谁都会拍案而起。如果对方有良知的话你私信过去他可能会修改或者删文,可是要是对方不讲武德,那可真的太TM烦人了。小一刚开始写文章的时候也有遇到过被抄袭,但是对方经不过我站在道德高点上的炮火猛击,后来就默默删文了。今天呢,小一教你们如何预防被抄袭,用
2020年12月11日
其他

千万级别数据 de 筛选过滤,小一教你一招

↑关注+星标,听说他有点东西全文共1607字,阅读全文需12分钟大家好,我是小一今天分享一个数据清洗小技巧,可以让你在遇到
2020年12月1日
其他

月底了,回顾一下心路历程

年,相信对于大多数人来说都过的很艰辛,肆虐全球的疫情、失业下岗的浪潮、原油宝的穿仓、蛋壳公寓的暴雷,或大或小都直接或间接影响数十上百万人。苦难的日子都会过去,就像在今年
2020年11月29日
其他

知乎凡尔赛沙雕语录,究竟有多沙雕?

↑关注+星标,听说他有点东西全文共1759字,阅读全文需10分钟大家好,我是小一前一阵子,凡尔赛文学突然爆火网络,特别是在知乎上竟然出现了大量的凡尔赛语录随便点进一个问题一看,确实一张口就是老凡学家了,够沙雕有的问题回答甚至有好几百,关注和浏览量都还挺高的。突发奇想要不?把这些回答爬下来,分析一下【凡学家们】究竟有多沙雕?凡尔赛问题定位
2020年11月26日
其他

只需要10秒,使用PPT给证件照换底色

的一些知识,结果脚本一直有瑕疵,始终没调试好,后面调试好了会发出来。历史文章同事微博涨粉200+,一顿分析真爱粉只有4个??2020-11-13
2020年11月24日
其他

win10下自动化任务,五步快速实现

脚本实现这两个功能,都比较简单。【选择操作类型】第五步:设置启动程序这一步需要填写三个东西,如下图所示。【设置相应参数】其中,【程序或脚本】栏需要选择对应的
2020年11月18日
其他

同事微博涨粉200+,一顿分析真爱粉只有4个??

↑关注+星标,听说他有点东西全文共2696字,阅读全文需10分钟大家好,我是小一事情是这样的,同事小A说他最近微博涨粉老快了,但是自己还是和以前一样就偶尔发发动态,看看新闻吃吃瓜,也没买啥涨粉包之类的。小A说这话的时候稍显淡定,但是小一清楚的看到小A的嘴角微微上扬,不禁撇了撇嘴。可能是以为我不信他最近涨粉老快这件事,小A随后发来了这张图:好家伙,小A他总共粉丝才几百人,这七天就涨了一百多,微博涨粉这么容易的?要不我也换个阵地试试?这速度比小一现在的公众号涨粉快多了这个时候小A又补了一句:“这只是近七天的,之前一周的更多呢!”说完这话,小A转身潇洒而去。这家伙在炫耀!绝对是!话说微博小一也有在玩,但是确实很少涨粉,粉丝基本都是一些认识的朋友,除非是:僵尸粉!其实小A也怀疑自己突然多的粉丝可能是僵尸粉,但是一个一个去检查似乎有点浪费时间。于是在小A的请求下便有了下面的故事强烈建议下面步骤在征得同事的同意下进行,不然可能会被打获取粉丝数据
2020年11月13日
其他

普及一个工作小技巧,三步实现Python自动化

↑关注+星标,听说他有点东西全文共1786字,阅读全文需7分钟大家好,我是小一今天的文章源自于工作中的一个小技巧,主要是涉及到日常工作的自动化处理。如果说你每天都需要做一些重复的工作,比如出一份报表、统计一个数据、发一封邮件等等那你完全可以把这个任务交给电脑让它每天自动替你完成,而你只需要从容的打开保温杯,静静地泡一杯枸杞今天主要会用到Linux下的cron这个服务,ok,直接开始1.
2020年11月10日
其他

变量太多,到底应该怎么选?

↑关注+星标,听说他有点东西全文共2501字,阅读全文需7分钟大家好,我是小一今天的文章源自于前不久工作中的一个技术交流会,期间有个同事和我在讨论模型的变量选择。当时讨论的多是从宏观角度去考量对于模型变量筛选的方法,例如从变量的缺失程度、区分能力、稳定性、相关性、共线性等方面去筛选。上面的几个方面除了缺失程度以外每个都可以去深入研究下,例如今天的文章就从区分能力去研究在文章中会看到一些词汇,更多金融风控相关词汇在以前的文章中都有提到。了解专业术语
2020年11月8日
其他

了解专业术语 == 成功入门

↑关注+星标,听说他有点东西全文共2531字,阅读全文需7分钟大家好,我是小一前面有一遍专门写金融风控的概念和流程【可在文末点击阅读】,算是一个小的敲门砖。但是如果真正的要了解一个领域,光知道概念和流程是不行的。小一认为最直观的方法是了解这个领域的专业术语,并尽可能的弄懂这些术语是怎么计算的,术语之间有什么关联,并且会对最终结果有什么影响等等。所以,这节专门写会在金融风控中出现的专业术语,部分重要的术语会用不同标注表示。下面主要会从基础词汇、指标词汇、模型词汇等方面介绍,对应于金融风控中的整体流程。另外,第一次看,了解一下,有个印象就行。1.
2020年11月6日
其他

普及一个数分的领域,可能对你有用

↑关注+星标,听说他有点意思全文共2946字,阅读全文需8分钟大家好,我是小一前一段时间有参加过天池金融风控的比赛,感觉还挺有意思的。自己抽空也对金融风控领域做了深入研究,这篇就主要是我自己对于这个领域的理解。全文无代码先来看张图【图片来源网络,侵删】解释一下:狡猾的狐狸信用不够,猫老师拒绝向其记账。金融风控先来说说什么是金融风控金融风控与电商、广告等场景的风控不同,金融风控主要是涉及到钱的安全,决定了公司的营收甚至是公司的生命线。如果一家月放款额100亿的公司违约率上升1个点,这个损失应该不算小吧。相反如果通过风控的手段将违约率降低,想必大家的工资也会有所上升。目前金融领域有:传统金融、互联网金融和消费金融。这三个金融场景的区域是什么啊?是这样的,传统金融一般指的是国家的四大传统金融机构,包括银行、信托、保险和证券。其中银行负责存贷、理财;信托负责投资、融资;证券负责企业上市与股票相关;保险更多的是做人寿保障之类的。互联网金融则指的是通过互联网技术实现资金流通的金融活动,包括互联网理财公司、互联网借贷公司和互联网支付公司等。因为互联网金融在之前并没有相关的正式金融牌照,所以像一些P2P之类的理财、借贷公司就比较疯狂,经常有暴雷事件发生。消费金融更多的是指能够提供消费类贷款的持牌的非银行类金融机构,比如像xxx呗xx白条等都属于这种。你可以使用自己的个人信息担保,承担一定的利息进行透支消费。消费金融更多的是使用用户个人信用,例如芝麻信用等,根据用户的历史消费情况给予一定的透支额度。可以看到,在上面三种金融机构都可以通过风控技术做到两点:「一是可以减少因违约等产生的坏账,二是可以通过放贷促进消费,提高企业的利润」。风控技术这么厉害的吗?它到底是怎么做到的?先说说它的缺点,这个比较明显「首先,风险具有滞后性。」用户借款后至少要一个月才能知道是否会违约,甚至很多用户在还了半年甚至一年之后才违约。再者,一般线上获客成本较高且比较麻烦,所以为了提高转化,在授信、申请、审核等环节,线上的操作一般都是实时的。比如当你在网上提交了自己的相关申请资料,可能几分钟之内后台就会通过你的各项历史数据对你的信用情况作出评价,或因为信用分太低而拒绝你,或通过审核并且给予你一个初始借贷额度。「其次,风控的业务性复杂」风控领域中,数据源是非常丰富的,包括有运营商、互联网、征信等等各种数据,相当庞大。而且,可以使用的正负样本数据的占比及其不均衡的,违约的人总是极少一部分人,否则金融机构早都被骗破产了吧。风控也是面向业务的,最终的特征、评分等都需要能够和用户对应上,需要较强的可解释性。总结一下风控最原始的思路就是根据一个用户的信息,得到这个人是
2020年10月17日
其他

【回来了】三个月的心得收获

Hi,我是小一,好久不见。好久没更新文章了,距离最近一次的文章也已经三个多月了。坐在电脑前准备写文章的时候感觉自己攒了一肚子话,但是打开编辑器要落笔写出来的时候是真的艰难。就包括这段话,吭哧吭哧了许久。那就接上公众号前面的文章开始说起吧如果你有读过公众号的历史文章,或者有留意到菜单栏的超链接内容,应该会有这样一个认知:「体系」是的,自从小一开始写文章起,就给自己定了一个体系【下图】,并且按照这个体系持续输出文章从去年11月份到今年6月份,8个月时间输出80+篇原创系列文章,将自己想搭建的体系从0到1一点点的搭了起来。同样也是因为整个体系的逐渐完善(自我认知的体系完善,并不是真正意义的完善),文章输出频率开始大大降低。从一周两篇到最后一周一篇,直到这两个月达到瓶颈期。后台也有读者留言问我怎么不更了,也有朋友发消息问我是不是遇到事了?“没有,小一我只是突然就写不出东西了。”断更的原因就写这些了,小一自己亲手丢掉的东西要开始捡起来了虽然比我规划中的时间提前了几个月,但是捡起来应该问题不大。简单说说自己最近的一些心得,我觉得写出来应该属于那种鸡汤类型文章,我尽量避免,多说点实在的内容。第一点:体系没错,还要说它。小一我写文章真的是把它当作一个体系化的输出,但是个人创作(写文章)的不可能三角是:原创、高产、优质。【上面的个人创作来源于小组昱文的分享,听了醍醐灌顶,真心点赞👍】在自媒体领域个人创作能够做到这三点的人屈指可数(这里面不包括财经类、热点时事类自媒体),特别是在互联网技术领域的垂直个人自媒体就更少了。我了解的可能也就【沉默王二】的二哥、【阿泽的学习笔记】的阿泽、【数据不吹牛】的小z、【俊红的数据分析之路】的俊红这几位大佬,真的不多。小一我自认为目前还无法突破「不可能三角」,我只能保证「内容原创」,但我能肯定的是自己距离优质不远。再说回体系,个人创作者可能都会觉得体系输出比较容易,就和小白学新知识一样,都希望能有一个完整的认知框架,一点一点的去逐步学习。但是体系一定是有终点的,而且我相信开源组织的体系架构一定比个人创作者所搭建的体系更完善、更有针对性。「所以小一作为个人创作者,以后的文章应该不会继续拓展以前的体系,可能会偏生活,偏感悟,偏工作,偏实际项目。」如果你想快速入门一门行业,选择一个靠谱的开源组织一定是最优的选择,比如小白学Python、小白学数据分析、小白学机器学习等,选一个开源组织跟着它的架构学习,会比你看任何入门教程快的多。如果你自己已经入门了,需要一些日常Tips优化工作效率,或者你想要转行需要一些转行经验,小一上面提到的一些个人创作者你就可以关注一下。「最后两段话是经验之谈,读慢一点,多读两遍」第二点:自我充电这个大家都知道,无论你是在学校,还是已经工作在职场,你要想往上爬你就得自我充电,你要想涨工资你就得自我充电。特别羡慕那些已经在职场上独挡一面的同辈人,也特别佩服他们随时随地都能挤出时间自我充电有兴趣的可以了解一下【三太子敖丙】的敖丙、【Java3y】的3y,都是一些很厉害很厉害而又很努力很努力的同辈人。再说回自己,在这三个多月的时间,小一我也努力学习一个新的领域(完全是因为自己感兴趣),并且认识了一些新朋友,同时也给了小一很多经验之谈👍其实在自我充电的过程中有很多的小技巧:例如制定自律计划:每天打卡今日总结、每周复盘本周收获、周一制定下周计划,例如使用番茄ToDo强制自己在学习过程中不碰手机例如参加一些开源组织的组队学习例如认识一些志同道合的朋友分享交流等。借用敖丙的一句话:「你知道的越多,你不知道的就越多。」最后呢,总结一下自己这三个月的心历历程:迷茫—怀疑—动摇—交流—坚定每个人都会有自己的瓶颈期,也都会在某个时刻感到迷茫,不知所措。幸运的是,小一最终走出了自己的搭建的体系,决心做一个有感情有温度的个人创作者也和以前在文章中写的那样,如果你有问题,下班后、周末了,我也都在最后的最后,希望以前支持小一的朋友能继续支持小一2020,也希望我们每个人都能成为一个无可替代的人。
2020年10月11日
其他

端午节谁还没个小礼物了

望着窗外的夏日,那是曾经在端午节骑自行车几十公里回家路上的斑驳岁月,也是如今在异地他乡独自漂泊的一颗不安的心你说,有没有那么一瞬间,你眼前所发生的亦曾经出现过在你的梦中?感觉自己好久好久没有静下心写文章,看了看后台的推文记录,最近的一次非技术文章是在五一节那会约了朋友去外地玩,所以那篇文章也是在高铁上写的。记得当时在高铁上,两个朋友一左一右都在睡觉,我就吭哧吭哧的用手机在写,然后在晚上吃饭之前拍了合照,也就是那篇文章的封面,最后没有排版直接就推出来了。其实我不止一次在高铁上写过东西,有时候是写自己的总结计划,有时候也确实是在写文章。真的是因为戴上耳机全世界都与我无关的那种感觉,会让人不由自主的思考和反思。嗯,这篇文章肯定不是在高铁上写的,端午节没怎么计划,也就没有机会。可能漂泊在外的时间久了,就会在一些传统节日的时候让人的情感更加悲凉吧,比如:端午节这是我在深圳过的第三个端午节,说真的,全都历历在目。对端午节历历在目的原因是在上大学那会,大一端午小长假的时候约了朋友直接从学校骑车回家。重点不是两个人第一次骑自行车七八十公里,也不是借的自行车说走就走。真的就是两个人啥都不准备,愣头青一样的说走就走。刚巧端午节,沿途的集市有卖粽子的,十元五个分量还挺足,于是两个人就边骑车边吃粽子,晒得铁黑铁黑才到了家。除了我像个憨批就是中间这个小伙,那时候他的颜值小一我拍马不及,也难怪会被岁月这把杀猪刀嫉妒,可是,曾经的帅小伙谁不爱呢……再来说说我深漂的三个端午节吧18年的端午节,那会刚搬了新家,合租的几个室友里面有个小姐姐手艺特别好,自己动手包粽子。因为我的房间靠近厨房,所以整个下午都能闻到煮粽子飘出来的香味。嗯,真香19年的端午,和同事约了庐山,民宿的房东阿姨很热情的准备了粽子和水果,emmm,是肉粽。怎么说呢,大小生长在北方,吃着甜粽长大的人,应该都很难接受肉粽吧。反正我对粽子的认识只有甜粽和好吃,此处不接受反驳其实来了广东之后发现还是有很多美食挺好吃的,炒粉、煲汤、烧白切鸡、早茶牛肉火锅等等这些,都是小一我在前二十年人生中的空白领域,好吃。此处也不接受反驳庐山同行的同事也都算是北方人,所以当我们找遍了庐山小镇也没发现有甜粽的时候,小一我当时的朋友圈是这样的:图片是庐山最高峰,好像也不是很高20年的端午,首先是吃到了公司的甜粽,因为统一都是甜粽,让人一度以为包粽子的大厨都是北方人。食堂的蜜枣粽不知道你们怎么吃粽子,我们那曾经的吃法是将蜂蜜稀释倒在碟子里,然后蘸着吃。因为那时候的粽子都是白棕(就是只有米的粽子),所以也就不会有这样那样的馅,蘸点蜂蜜是属于比较优雅的一种方式,当然你可以蘸点辣椒。其次是收到某个神秘组织的端午礼物:一盒粽子。就是下面这个高大上的包装,淘宝搜了一下,差不多一个粽子几十块的那种,贵贵收到礼物的那一刻有点小感动,差不多算是来自远方的关怀吧。漂泊在外的人真的会被这种小小的惊喜打动,而且还是我这种一出门就要一个人扛下一个世界的那种,有时候确实心累。不知道你们有没有这种感觉,反正一个人出门在外的要照顾好自己,趁着房价吃点好的,善待自己。关于加入神秘组织的事情,以后再和大家细说。最后是来自合租舍友的两枚粽子,也算是最后的惊喜了你看,从原来上学时的匆匆岁月,再到工作后每一年的端午节,生活总是会不经意的给我一些小的惊喜。相信你们也是,会有牵挂你们的人和你们牵挂的人,也会有爱与被爱这个世界很温柔,还有你,也温柔端午安康,假期快乐。最后是一张小一自己拍的照片,海边日出拍到的一幕海风温柔,他们也温柔
2020年6月25日
其他

大话系列 | 逻辑回归的入门与优化

↑关注+星标,听说他有点东西全文共2307字,阅读全文需8分钟写在前面的的话大家好,我是小一这是大话系列的第8节算法,也是本系列的第16篇原创文章。阅读本文请先了解线性回归的算法推导与优化:大话系列
2020年6月18日
其他

大话系列 | 线性回归的推导与优化

↑关注+星标,听说他有点东西全文共3746字,阅读全文需18分钟写在前面的的话大家好,我是小一这是大话系列的第7节算法,也是本系列的第15篇原创文章。文章较长,建议先收藏再阅读。文末附线性回归的思维导图。线性回归学习线性回归之前必须先要了解什么是回归,了解回归之前我们先从分类算法说起。前面我们介绍的算法都属于分类算法,分类顾名思义就是预测样本对应的应该是哪一类,比如决策树实战中预测泰坦尼克号的乘客生还还是遇难,比如knn实战中预测对应的书写数字应该属于哪一类(即哪一个数字)等等这些都属于分类算法可以看到分类算法对应的目标变量都是类别型,而在回归算法中对应的目标变量都是连续型。像下面这个图,就是一个回归问题的预测。再举个简单的例子,比如可以根据房屋的面积、户型、楼层等指标预测房屋的价格,这也是一个回归问题,因为我们最终预测的结果不是一个类别型变量,而是一个连续型变量。在回归算法中,我们一般会遇到单变量回归和多变量回归,这个其实和一元方程、多元方程是一样的。如果只有一个自变量,我们称之为一元回归,如果有两个及以上的自变量,我们称之为多元回归,就好比区分一元方程和多元方程一样。单变量线性回归相关概念介绍一元一次方程
2020年6月16日