其他
怎样才算一个计算机知识体系完整的毕业生?
正文
人类的知识边界一直在不断的扩张,俗话说学无止境,这放在计算机领域也同样适用,计算机本身是一个人造科学,不属于自然科学。每年,甚至每个月都不断有新的编程框架推出,学到头秃你也学不完,也没有必要去挨个学。并且你会发现,很多一二线大厂内部用的东西基本都是自己搞一套的,比如服务发现、RPC、KV、DB、消息队列、日志、监控等等。所以一般这些大厂招聘的时候基本不会因没学过某种框架而挂你,反正很多东西都是要进来重新学的。他们会更加关注你的基础知识、解决问题的经验以及聪明度这种更加通用的能力上。反而是一些小公司,可能会要求你必须会 Spring、Vue、Redis... 这些框架或者组件。上面分别是腾讯、阿里、某外包公司的招聘 JD(job description),显然,腾讯阿里看中的是扎实的编程基本功和快速学习能力,这意味着有培养潜力。而外包公司就要求你会 xx 数据库、Spring 之类。不去评价哪个好,但是如果你想去 BAT,那是不是至少对照着它们的 JD 来提高自己的能力,不失为一种捷径。在这里,我粗浅的把计算机编程领域的知识分为三个部分:基础知识 特定领域知识 框架和开发技能
一、基础知识
现在大环境比较浮躁,很少有人愿意花心思在基础上,喜欢直接学 Python 搞机器学习、写秒杀、做商城。找工作的时候都是想看面经、总结速成。但是作为优秀的计算机系学生的你怎么能流于各种编程框架(造框架除外),纠结学 SpringBoot 还是 SSH 呢?把时间花在算法、基础学科上他不香吗?功利一点讲,回报反而会更大。况且在计算机领域,很多基础的理论并不十分高深,我们努努力就可以掌握其中的核心知识。1.1 数学
首先说明,这里把数学列出来不是为了显得高端,而是自己吃过数学的亏。如果你是自学转行当程序员,我当然不会推荐数学,因为转行的大概率是去学 Java、前端这类,对数学基本没啥要求。但是这篇文章主要面向的是还在大学的科班学生,这部分同学以后也许会去做算法(CV、NLP之类)、游戏引擎、信息安全编码等这些方向对数学要求就会偏高,在计算机领域,线代、概率论、统计学这些数学分支相对比较重要,计算机本质上还是离散的。比如在机器学习或数据挖掘中常常用线性代数来降低数据维度,很多问题最终都能化为求解线性方程组。所以为了避免以后想走这些方向却被数学卡住,在大一、大二上数学课的时候就好好的学一下。书到用时方恨少,不要现在以为没用处就不好好学,等你需要的时候,就知道后悔了。(默默流下了不学无术的眼泪┭┮﹏┭┮什么?你说以后肯定做开发方向?那的确可以把数学优先级放后面一点,用得确实不多,不过上数学课的时候总该认真听下吧,拿个高绩点也是百利无一害嘛。说不准哪天你又想加入算法内卷大军呢?1.2 C语言
你也许会很疑惑,这里明明说基础知识,为什么要把一门编程语言单独列出来呢?因为在我看来,没有比 C 语言更适合用来理解计算机系统了。我们后面将会提到的操作系统、体系结构 这些东西非常适合用 C 语言去理解或者去实践。并且 C 语言本身的语言特性非常少,但是想学好又是不容易,很多人都觉得 C 语言难,难在哪里呢?回想了一下我大一时的感受:简陋的标准库,几乎没有可用的数据结构和算法,什么都得自己来 指针很难理解和使用 需要了解汇编、链接、装载、内存等才能把 C 语言用好
这真是极高而中肯的评价!所以对于计算机科班来说,不管你是做前端还是后端,算法还是开发,C 语言都建议你好好学习。这是无关方向的一门语言,就是基础!任何比C语言更低级的语言,都不足以完整地抽象一个计算机系统;任何比C高级的语言,都可以用C来实现。
1.3 操作系统
我们编程的 IDE、写出来的程序全部都需要运行在操作系统上,说操作系统是计算机软件的基石也不为过。程序运行起来就需要创建进程,这涉及到操作系统的进程管理;写程序需要定义变量、存储数据吧,这又涉及到内存,对应内存管理;有时候我们还需要读写文件,这又离不开和文件系统打交道;你需要学习使用锁、条件变量、临界区来保证程序并发执行时不会错乱。而读写文件、分配内存这些又离不开系统调用(System call)。并且当你真正做起工程就会发现,很多问题是和操作系统紧密相关的,不理解操作系统,你连问题的原因都分析不出来。比如前段时间我们出现的在基于协程(libco)的框架下,使用多线程的锁去做同步互斥偶发死锁,后来分析才发现原因:由于协程是应用层实现的,一个线程内多个协程对于操作系统是感知不到的:那么当一个协称 A 上锁后发起网络 IO 请求,这个时候会被切换到另外一个协程B,而协程 B 又去请求这个锁。那么这个时候操作系统会认为这个锁已经被上了,因此会将协程 B 对应的线程挂起到等待队列,这样的话就导致协程 A 永远无法运行,也就无法释放锁,导致死锁。解决的方法也很简单,就是将锁设置为可重入锁,可重入意味着同一个线程多次去请求同一个锁不会导致挂起。这样当协程 B 再去请求锁的时候,操作系统就会认为协程 B 所在的线程已经持有这个锁了,直接返回,继续执行。总之,我们写程序每时每刻都在和操作系统交互,没有理由不学好。1.4 编译原理
编译原理可能是我们平时接触得最少的了,大家也许会觉得自己又不用去造新的编程语言,学编译原理干啥。学好编译原理有啥用?你会站在更高的角度去审视这些编程语言,看到的不再是表面的语法,更会想到语法背后的实现。这种感觉很透彻,就像搞懂了操作系统、体系结构你会明白一个程序从双击鼠标开始,到底是如何被运行起来的,这种掌握一切细节,透彻的感觉,真的很奇妙,不信你去试试。说人话!那学了编译原理你能干啥?当你学完有限状态机以后,你会发现以前觉得很牛逼正则表达式似乎自己也能用 DFA、NFA 实现一下了。状态机的思想在编程中很多地方都用得上。比如解析 HTTP 协议,如果没学过状态机思想,你可能会一行行的 if/else 去做解析,这里最麻烦的地方在于,if/else 需要提前将 HTTP 头部字段都接收到再来判断,而我们知道 HTTP 基于 TCP,而 TCP 是流式传输,所以你很有可能是几个字符一组组接收到的,这个时候用 if/else 写出来就很难看了。而用状态机编写起来代码就会非常优雅。状态的转移是由规则驱动的,接收到一个字符就判断一个,非常的方便。继续学完语法分析,你会掌握递归下降分析这样非常重要的思想,你可以使用递归下降快速的实现四则运算计算器。如果不用递归下降你可能需要先中缀表达式转后缀,然后求值,这是我们大一数据结构课写的,当时用栈写的,有点麻烦。后来学完编译原理,又用递归下降重写了一遍,区区几十行代码遍搞定。还有一类场景在实际开发中的用的很多,比如淘宝、京东这样的电商,它们的营销规则有很多,比如满减、直减、跨店等等,这样的规则是不可能写死在代码里的。那是怎么做的呢?一般会实现一个配置系统,并设计一个DSL(领域特定语言)来表达这些规则,将规则直接配置到系统中,这样可以非常方便的修改,那么如何在代码里去解析 DSL 定义的规则呢?这就需要为 DSL 写一个语法解析器,这里就会用到语法分析的方法。DSL(Domain Specific Language),是一种用于某个特定领域的程序设计语言。这种特定于某个领域是相对于 C、C++、Python 这种通用语言而言的,通用语言可以在各个领域使用,我们熟悉的大多数程序设计语言都是通用语言,它们都是图灵完备的。像我们平常经常使用的 JSON、SQL、HTML 这些都算是一种 DSL,你甚至可以尝试用递归下降去写一个 JSON、XML 解析器,这比写电商网站更有价值的。继续往下学你会了解到抽象语法树 AST 如何生成、如何转化为中间代码、如何对中间代码优化、最终又是怎么生成机器指令的。你会看到贪心算法在寄存器分配中的应用,也会看到图论中的可达性分析又是如何实现死代码消除。IDE上面那个绿色的编译按钮对你不再是黑魔法。为啥点一下就能生成可执行的程序?你写的英文字母又是如何变成一个个二进制指令的?学完编译原理,这些通通不是问题,妈妈再也不用担心你的学习~当然完成一个像 GCC、Clang 这样的编译器难度太高太高,我们学习编译原理的目的也不是去造这样的轮子,而是为了更好的理解和运用编程语言。1.5 体系结构&组成原理
上面说的都是软件层面,体系结构则是关于计算机是如何工作的,你会了解到典型的存储程序计算机是怎样运转的。记得南大有个老师说过 “我们不是学习使用计算机的,而是学习如何造计算机”,虽然造计算机有点夸张,但是至少我们得了解下计算机的实现原理,了解下代码是怎么被 CPU 执行的吧?不然其实你会很困惑,明明一堆英文字母,怎么在 CPU 这种电路上跑起来的,我大一学 C 语言就百思不得其解,直到后来学了组成原理和数字逻辑。我们说计算机中一切都是 0、1,0、1 又是通过高低电平来表达的,通过与、或、非等逻辑门电路来表达二进制的数值运算,再将这些简单的电路集成在一起,就形成了 ALU 等具有运算能力的处理器。你会看到一条指令是如何被CPU执行的,CPU 从内存或 Cache 中取出指令,放入指令寄存器,并对指令译码。译码就是按照指令的编码规则,将指令拆分成一系列的微操作和操作数。然后发出各种设备控制指令,执行微操作。这样就完成一条指令的执行。我们说学完编译原理,能够明白写的英文代码是如何被变成二进制指令的,学完操作系统能搞懂二进制程序是如何被链接在一起,又是如何被操作系统加载、执行的。而组成原理则会告诉你二进制指令是如何控制 CPU 跑起来的,我们的操作系统本质上也是一个二进制的程序。当你理解了计算机存储层次结构,理解了多级 Cache,你就会通过优化数据访问方式来编写出速度更快的程序。你会学到底层体系结构对 C 这些语言的栈帧和参数传递的支持,参数是如何被传递给另外一个函数的?函数的返回值又是如何拿到。这是学习组成原理对于写代码的意义。学这些到底有什么意义?你会完整的看到写的代码如何变成二进制指令,又是如何去控制各种门电路,最后变成屏幕上花花绿绿的程序的(当然这里可能还需要学习显示器的原理),这就是我们常说的“基础”和“原理”。并且计算机体系结构中的很多思想,是能够广泛运用于现代软件开发的,比如 CPU 的多级 Cache 思想,就是我们现在服务器开发中提高并发度常用的缓存技术,包括缓存的替换策略等等。当计算机对你不再是黑盒,你了解写下的代码到执行的每一步,而这也将成为你以后的核心竞争力,作为科班毕业生不应该只会使用 Java、Redis、Mysql、Spring 来写各种网站。如果读者里有半路转行或者从培训班出来的,也希望你们能够抽出空余时间去补补这些基础课,这会让你在编程这条路上走的更远和更稳。1.6 数据结构与算法
为什么把算法放到最后来讲,是不重要吗?相反,它太重要了,所以才让它来压轴。如果要问我大学什么最后悔?那肯定是没有从大一就开始好好学算法,去打 ACM。现在还在大一、大二的同学还不抓紧机会,别等到以后来后悔。当然,不打 ACM,我们也是能够学好数据结构和算法的。数据结构和算法你能在任何计算机领域里看到,比如在编译原理中寄存器的分配会用到贪心,死代码检测与消除会用到图论里不可达的知识;操作系统进程、线程调度会用到多级队列和调度算法;组成原理中 Cache 的替换会用到 LRU、FIFO 等算法;开发必备的数据库也离不开 B+ 树、LSM 等数据结构和查找算法。很多时候我们需要的算法都被封装到编程语言的基础库里了,以至于很多同学会觉得算法离我们太远,其实不是的。如果不学习算法,连什么时候用 Map(红黑树实现)、什么时候用 HashMap 都分不清。所以学习算法有助于我们根据应用场景选择最合适的数据结构。日常开发中也一定离不开算法,比如小北最近工作中涉及的某种嵌套 TLV(Tag-Length-Value)结构编码的解析,就需要用到递归、多叉树等知识。如果不学习算法,那么程序中只能见到大量的 if/else、while/for。。。可以说不会算法的工程师一定不是一个优秀的工程师。1.7 为什么我不说计网、数据库等
很多人喜欢把计算机网络、数据库原理这些也归为计算机基础来,我当然也认同,因为一个知识结构完整的计算机科班学生,应该了解这些知识。但是我个人是觉得计算机网络、数据库无非就是建立在操作系统、编译原理、组成原理之上的应用层软件。什么是数据库?没有数据库之前你会用文件去存储数据,但是不方便查找、修改等,数据库只是提高了这个过程的效率。网络干什么的?网络就是让不在同一台电脑上的程序互相通信,本质上就是进程间通信的手段。如果你只是开发单机工业软件,甚至真的可以不学网络,只是由于现在大多数程序员都是在互联网公司工作,所以不管前后端,都离不开和HTTP等网络协议打交道。再次重申:不是计网、数据库不重要,只是我认为它们属于构建在操作系统之上的软件,不划在基础之列。二、领域知识
这个我不敢说太多,因为各个领域我也不太懂。只简单提一点,抛砖引玉罢了。如果你想去腾讯、网易做游戏引擎开发,那么图形学一定是你绕不开的知识,此外你还得学习渲染管线、着色器、物理、光照等等。如果你想去 PingCap 这样的公司做分布式存储,那么分布式理论知识一定是你绕不开的关口,包括 CAP 定理、Paxos 算法、Raft 算法、ZAB 协议等等。如果你想写一个数据库,那么你需要去了解磁盘、索引实现、SQL 解析(编译原理)、事务、如何用 MVCC 解决读写冲突等等一大堆的东西,还得了解一大堆编程语言层面的东西,比如锁、信号量、并发编程技巧,不得不说造数据库是一个脏活也是一个累活。更进一步你想去做分布式数据库,那可能还得去学习数据分片的知识,查询任务如何做,是集中做,还是将逻辑下推给各个节点,如何实现分布式事务等等。你说你只想去大厂 CRUD?没毛病,老铁!那你得熟悉一门编译型语言(C/C++、Java、Go),理解语言部分底层原理,比如 C++ 你得看看 STL、看看对象模型吧,你不懂什么虚函数表、智能指针还想去腾讯写 C++? Java 的你得背背 JVM,什么垃圾回收算法吧,你不看看ConcurrentHashMap 好意思说你是做Java的?咱CRUD的对象是数据库吧?那不得学学怎么才能把数据库用好。用户通过 HTTP 访问我们得服务,总得了解 HTTP吧?顺带着不看下 TCP 三次握手、四次挥手你好意思说是学计算机的?用户把钱、信息放咱们这,总得保证用户数据安全吧?那 XSS、SQL 注入、CSRF 这些常见的 Web 攻击手段你总得了解吧?HTTPS、RSA、签名、数字证书这些安全手段总得知道吧。双十一流量太大,老板还让你必须顶住,那你总得了解下缓存、异步、消息队列、NoSQL 这些千万 QPS 必备的大杀器吧?看看!要想做好CRUD也不是那么容易滴。(上面这段只是换一种方式把做后端的同学要学的知识写出来,不是吐槽更不是调侃,纯属娱乐。技能
这就很多了,包括 VSCode、Jetbrains 全家桶这些 IDE,文档编写 Markdown、Git 等版本管理工具。SSH 远程登录、端口转发,Ngrok 内网穿透等等这些提高你开发效率的工具,都算是技能,这个没啥好说的,平时用到多学习多积累就好了。我只提一点,尽早使用 Linux、类 Unix(Mac)作为主力开发电脑。我大二的时候,就是看了王 ying 的那篇《完全用 Linux 工作》,直接买了个 SSD 套上 U 盘外壳,做了一个启动盘,后来用了将近一年的 Ubuntu,只有在选课、提交作业等需要用的 IE 浏览器的时候才会打开 Windows(这里不得不吐槽学校老古董网站!)当然了,我也不是狂热的 Linux 爱好者,只是单纯觉得做开发的话,离不开各种环境安装、命令行的使用,这点上面类 Unix 系统带有天然的优势,谁用谁知道!总结
写完才发现,这篇文章连篇幅都是「基础 : 领域知识 : 技能」 接近 7 : 2 : 1。这也是我推荐你在大学期间分配学习时间的比例,至少学习基础知识的时间不少于 50%,当然,这些东西你都学完了那可以去找找感兴趣的方向专研一下。千万不要大一、大二一上来就扎进 Java Web、Python 爬虫这种东西,这些可以学,但不是重点。这篇文章由于篇幅限制,没有写到具体该如何去学,有哪些好的资料,我准备把这个单独再写一个 《How 篇》,持续关注我哟~那么如何检验学得如何呢?想必你一定听说这个计网面试题:“从 URL 输入到页面展现到底发生什么?“这个问题换个表达就是「一个数据包是如何发送到另外一台电脑的」。如果你能完整的说出整个过程,那么计网你一定是学懂了!这就是为啥面试这么喜欢问这个问题的原因。那么我们依葫芦画瓢提一个问题“从代码被写下到程序运行起来到底发生了什么?”这个问题回答得越详细越好,基本上能说清楚了,你就理解了编译原理、操作系统、组成原理这三座大三。这个问题也放在这,后续发文总结,请持续关注编程指北哦。唉,当年要是有这么个贴心学长告诉我这些,也不至于在 Andorid 开发、Java Web、Python 爬虫这些玩大半年啊。。。不过还好后来自己意识到了基础的重要性,开始学汇编、重学 C、搞 mini os、看 Linux 内核实现原理,最后成功的把头发掉了一把。。。最后想送给你一句我挺喜欢的话:万丈高楼平地起,勿在浮沙筑高台