HTTP应知应会知识点复习手册（上）

Original 蛮三刀把刀后端技术漫谈 2022-06-20

image

前言

本文快速回顾了常考的的知识点，用作面试复习，事半功倍。

上篇主要内容： 状态码、Http1.0/1.1/2.0、Https、GET和POST

下篇主要内容： Web攻击技术、HTTP基础概念、HTTP Header详解、HTTP应用

面试知识点复习手册

全复习手册文章导航

点击公众号下方：技术推文——面试冲刺

已发布知识点复习手册

本文参考

本文内容主要参考来自CyC2018的Github仓库：CS-Notes

有删减，修改，补充额外增加内容

本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。

状态码

有拓展参考：

https://zhuanlan.zhihu.com/p/34648453

状态码	类别	原因短语
1XX	Informational（信息性状态码）	接收的请求正在处理
2XX	Success（成功状态码）	请求正常处理完毕
3XX	Redirection（重定向状态码）	需要进行附加操作以完成请求
4XX	Client Error（客户端错误状态码）	服务器无法处理请求
5XX	Server Error（服务器错误状态码）	服务器处理请求出错

1XX 信息

100 Continue ：表明到目前为止都很正常，客户端可以继续发送请求或者忽略这个响应。
101 Switching Protocols 协议升级：请求者要求服务器切换协议，服务器确认并准备切换

主要用于websocket：表示服务端接受 WebSocket 协议的客户端连接
也可以用于http2的升级。

2XX 成功

200 OK
204 No Content ：请求已经成功处理，但是返回的响应报文不包含实体的主体部分。一般在只需要从客户端往服务器发送信息，而不需要返回数据时使用。
206 Partial Content ：表示客户端进行了范围请求。响应报文包含由 Content-Range 指定范围的实体内容。

3XX 重定向

301 Moved Permanently ：永久性重定向
302 Found ：临时性重定向
303 See Other ：和 302 有着相同的功能，但是 303 明确要求客户端应该采用 GET 方法获取资源。

注：虽然 HTTP 协议规定 301、302 状态下重定向时不允许把 POST 方法改成 GET 方法，但是大多数浏览器都会在 301、302 和 303 状态下的重定向把 POST 方法改成 GET 方法。

304 Not Modified ：如果请求报文首部包含一些条件，例如：If-Match，If-Modified-Since，If-None-Match，If-Range，If-Unmodified-Since，如果不满足条件，则服务器会返回 304 状态码。
浏览器缓存分为强制缓存和协商缓存，优先读取强制缓存。
强制缓存分为expires和cache-control：
协商缓存包括etag和last-modified：
如果 Last-Modified 和 ETag 同时被使用，则要求它们的验证都必须通过才会返回304，若其中某个验证没通过，则服务器会按常规返回资源实体及200状态码。
协商缓存与强制缓存的区别在于强制缓存不需要访问服务器，返回结果是200，协商缓存需要访问服务器，命中协商缓存的话，返回结果是304。
步骤：客户端发送附带条件的请求时（if-matched,if-modified-since,if-none-match,if-range,if-unmodified-since任一个）服务器端允许请求访问资源，但因发生请求未满足条件的情况后，直接返回304Modified（服务器端资源未改变，可直接使用客户端未过期的缓存）。
补充网页：expires/cache-control/last-modified/etag详解以及解释为何应chrome该显示304却显示200：
http://www.cnblogs.com/vajoy/p/5341664.html

last-modified的设置标准是资源的上次修改时间
etag是为了应对资源修改时间可能很频繁的情况出现的，是基于资源的内容计算出来的值，因此优先级也较高。
expires是一个特定的时间，是比较旧的标准。
cache-control通常是一个具体的时间长度，比较新，优先级也比较高。

307 Temporary Redirect ：临时重定向，与 302 的含义类似，但是 307 要求浏览器不允许把重定向请求的 POST 方法改成 GET 方法。
关于303和307：https://blog.csdn.net/liuxingen/article/details/51511034
303、307其实就是把原来301、302不”合法”的处理动作给”合法化”，因为发现大家都不太遵守，所以干脆就增加一条规定。
额外功能：也用于hsts跳转。hsts全称HTTP严格传输安全（HTTP Strict Transport Security，縮寫：HSTS）

功能是要求浏览器下次访问该站点时使用https来访问，而不再需要先是http再转https。这样可以避免ssl剥离攻击：即攻击者在用户使用http访问的过程中进行攻击，对服务器冒充自己是用户，在攻击者和服务器中使用https访问，在用户和服务器中使用http访问。具体使用方法是在服务器响应头中添加Strict-Transport-Security，可以设置 max-age。

4XX 客户端错误

400 Bad Request ：请求报文中存在语法错误。提交json时，如果json格式有问题，接收端接收json，也会出现400 bad request。比如常见的json串，数组不应该有",但是有"了。
401 Unauthorized ：该状态码表示发送的请求需要有认证信息（BASIC 认证、DIGEST 认证）。如果之前已进行过一次请求，则表示用户认证失败。
403 Forbidden ：请求被拒绝，服务器端没有必要给出拒绝的详细理由。
404 Not Found
405 method not allowed
问题原因：请求的方式（get、post、delete）方法与后台规定的方式不符合。比如：后台方法规定的请求方式只接受get，如果用post请求，就会出现 405 method not allowed的提示
408 请求超时

5XX 服务器错误

500： Internal Server Error ：服务器正在执行请求时发生错误。
502：Bad Gateway：进程响应的内容是nginx无法理解的响应
503 Service Unavilable ：服务器暂时处于超负载或正在进行停机维护，现在无法处理请求。（瞬时请求量过大）
504：Gateway Time-out：进程阻塞超过nginx的时间阈值返回504
505：不支持该http版本

Http1.0/1.1/2.0

参考：

https://mp.weixin.qq.com/s/GICbiyJpINrHZ41u_4zT-A
https://github.com/CyC2018/Interview-Notebook/blob/master/notes/HTTP.md

1.1相比1.0

长连接和流水线（Pipelining）处理

HTTP 1.1支持长连接（PersistentConnection）和管线化（Pipelining）处理，在一个TCP连接上可以传送多个HTTP请求和响应，减少了建立和关闭连接的消耗和延迟。

如果要断开 TCP 连接，需要由客户端或者服务器端提出断开，使用 Connection : close

在HTTP1.1中默认开启Connection： keep-alive，一定程度上弥补了HTTP1.0每次请求都要创建连接的缺点。

Host头处理/虚拟主机

在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址，因此，请求消息中的URL并没有传递主机名（hostname）。但随着虚拟主机技术的发展，在一台物理服务器上可以存在多个虚拟主机（Multi-homed Web Servers），并且它们共享一个IP地址。HTTP1.1的请求消息和响应消息都应支持Host头域，且请求消息中如果没有Host头域会报告一个错误（400 Bad Request）。（Host头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。）

在http 1.1中不能缺失host字段,如果缺失, 服务器返回400 bad request，http1.1中不能缺失host字段，但host字段可以是空值。
在http 1.0中可以缺失host字段。

支持分块传输编码

HTTP1.0中，存在一些浪费带宽的现象，例如客户端只是需要某个对象的一部分，而服务器却将整个对象送过来了，并且不支持断点续传功能，HTTP1.1则在请求头引入了range头域，它允许只请求资源的某个部分，即返回码是206（Partial Content），这样就方便了开发者自由的选择以便于充分利用带宽和连接。

另一种解释：可以把数据分割成多块，让浏览器逐步显示页面。

错误通知的管理/新增状态码

在HTTP1.1中新增了24个错误状态响应码，如：

409（Conflict）表示请求的资源与资源的当前状态发生冲突；
410（Gone）表示服务器上的某个资源被永久性的删除。

缓存处理（协商缓存）

在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准。

HTTP1.1则引入了更多的缓存控制策略例如Entity tag，If-Unmodified-Since, If-Match, If-None-Match等更多可供选择的缓存头来控制缓存策略。

新增缓存处理指令 max-age

支持同时打开多个 TCP 连接

新增状态码 100

2.0相比1.1

https://mp.weixin.qq.com/s/NMhNVDP47npMqx5ruVy43w

HTTP/1.x 缺陷

HTTP/1.x 实现简单是以牺牲性能为代价的：

客户端需要使用多个连接才能实现并发和缩短延迟；
不会压缩请求和响应首部，从而导致不必要的网络流量；
不支持有效的资源优先级，致使底层 TCP 连接的利用率低下。

二进制分帧层

HTTP/2.0 将报文分成 HEADERS 帧和 DATA 帧，它们都是二进制格式的。

在通信过程中，只会有一个 TCP 连接存在，它承载了任意数量的双向数据流（Stream）。

一个数据流（Stream）都有一个唯一标识符和可选的优先级信息，用于承载双向信息。
消息（Message）是与逻辑请求或响应对应的完整的一系列帧。
帧（Frame）是最小的通信单位，来自不同数据流的帧可以交错发送，然后再根据每个帧头的数据流标识符重新组装。

在这里插入图片描述

和1.1区别在于：

HTTP1.x的解析是基于文本。基于文本协议的格式解析存在天然缺陷，文本的表现形式有多样性，要做到健壮性考虑的场景必然很多
二进制则不同，只认0和1的组合。基于这种考虑HTTP2.0的协议解析决定采用二进制格式，实现方便且健壮。

在这里插入图片描述

二进制分帧：多路复用（MultiPlexing）

即连接共享，即每一个request都是是用作连接共享机制的。一个request对应一个id，这样一个连接上可以有多个request，每个连接的request可以随机的混杂在一起，接收方可以根据request的 id将request再归属到各自不同的服务端请求里面。

单连接多资源的方式，减少服务端的链接压力,内存占用更少,连接吞吐量更大；
由于减少TCP 慢启动时间，提高传输的速度。

HTTP2.0的多路复用和HTTP1.X中的长连接复用有什么区别？

关键点：一个是串行，一个是并行，一个阻塞不影响其他request。

header压缩

如上文中所言，对前面提到过HTTP1.x的header带有大量信息，而且每次都要重复发送，HTTP2.0使用encoder来减少需要传输的header大小，通讯双方各自cache一份header fields表，既避免了重复header的传输，又减小了需要传输的大小。

在这里插入图片描述

服务端推送（server push）

同SPDY一样，HTTP2.0也具有server push功能。

在这里插入图片描述

SPYD相比1.1

多路复用

针对HTTP高延迟的问题，SPDY优雅的采取了多路复用（multiplexing）。多路复用通过多个请求stream共享一个tcp连接的方式，解决了HOL blocking的问题，降低了延迟同时提高了带宽的利用率。

请求优先级（request prioritization）

多路复用带来一个新的问题是，在连接共享的基础之上有可能会导致关键请求被阻塞。SPDY允许给每个request设置优先级，这样重要的请求就会优先得到响应。比如浏览器加载首页，首页的html内容应该优先展示，之后才是各种静态资源文件，脚本文件等加载，这样可以保证用户能第一时间看到网页内容。

header压缩

前面提到HTTP1.x的header很多时候都是重复多余的。选择合适的压缩算法可以减小包的大小和数量。

服务端推送（server push）

采用了SPDY的网页，例如我的网页有一个sytle.css的请求，在客户端收到sytle.css数据的同时，服务端会将sytle.js的文件推送给客户端，当客户端再次尝试获取sytle.js时就可以直接从缓存中获取到，不用再发请求了。

基于HTTPS的加密协议传输

大大提高了传输数据的可靠性。

HTTP2.0和SPDY的区别

HTTP2.0 支持明文 HTTP 传输，而 SPDY 强制使用 HTTPS
HTTP2.0 消息头的压缩算法采用 HPACK

http://http2.github.io/http2-spec/compression.html

SPDY 消息头的压缩算法采用 DEFLATE

http://zh.wikipedia.org/wiki/DEFLATE

HTTPs

HTTPS和HTTP的区别主要如下：

1、https协议需要到ca申请证书，一般免费证书较少，因而需要一定费用。

2、http是超文本传输协议，信息是明文传输，https则是具有安全性的ssl加密传输协议。

3、用的端口也不一样，前者是80，后者是443。

4、http的连接很简单，是无状态的；HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证、完整性保护的网络协议，比http协议安全。
　　
　　

HTTP 有以下安全性问题：

内容可能会被窃听；
通信方的身份有可能遭遇伪装；
报文有可能遭篡改。

HTTPs 并不是新协议，而是让 HTTP 先和 SSL（Secure Sockets Layer）通信，再由 SSL 和 TCP 通信。也就是说 HTTPs 使用了隧道进行通信。

隧道：它是将原始IP包（其报头包含原始发送者和最终目的地）封装在另一个数据包（称为封装的IP包）的数据净荷中进行传输。使用隧道的原因是在不兼容的网络上传输数据，或在不安全网络上提供一个安全路径。

通过使用 SSL，HTTPs 具有了：

加密（防窃听）、认证（防伪装）和完整性保护（防篡改）

在这里插入图片描述

HTTPs认证

请看下面加黑字体是重点：

在这里插入图片描述

服务方 S 向第三方机构CA提交公钥、组织信息、个人信息(域名)等信息并申请认证；
CA 通过线上、线下等多种手段验证申请者提供信息的真实性，如组织是否存在、企业是否合法，是否拥有域名的所有权等；
如信息审核通过，CA 会向申请者签发认证文件-证书。
签名的产生算法：首先，使用散列函数计算公开的明文信息的信息摘要，然后，采用 CA 的私钥对信息摘要进行签名；

客户端：

客户端 C 向服务器 S 发出请求时，S 返回证书文件；
客户端 C 读取证书中的相关的明文信息，采用相同的散列函数计算得到信息摘要，然后，利用对应 CA 的公钥解密签名数据，
对比证书的信息摘要（明文的信息摘要和签名解密后的一致），如果一致，则可以确认证书的合法性，即公钥合法；
客户端然后验证证书相关的域名信息、有效时间等信息；
客户端会内置信任 CA 的证书信息(包含公钥)，如果CA不被信任，则找不到对应 CA 的证书，证书也会被判定非法。

在这个过程注意几点：

1.申请证书不需要提供私钥，确保私钥永远只能服务器掌握；
2.证书的合法性仍然依赖于非对称加密算法，证书主要是增加了服务器信息以及签名；
3.内置 CA 对应的证书称为根证书，颁发者和使用者相同，自己为自己签名，即自签名证书；
4.证书=网站公钥+申请者与颁发者信息+签名；

HTTPs认证后的传输

HTTPs 采用混合的加密机制，使用公开密钥加密用于传输对称密钥来保证安全性，之后使用对称密钥加密进行通信来保证效率。（下图中的 Session Key 就是对称密钥）

在这里插入图片描述

完整性保护

SSL 提供报文摘要功能来进行完整性保护。

HTTP 也提供了 MD5 报文摘要功能，但是却不是安全的。例如报文内容被篡改之后，同时重新计算 MD5 的值，通信接收方是无法意识到发生篡改。

HTTPs 的报文摘要功能之所以安全，是因为它结合了加密和认证这两个操作。试想一下，加密之后的报文，遭到篡改之后，也很难重新计算报文摘要，因为无法轻易获取明文。

HTTPs 的缺点

因为需要进行加密解密等过程，因此速度会更慢；
需要支付证书授权的高费用。

GET 和 POST 的区别

作用

GET 用于获取资源，而 POST 用于传输实体主体。

参数

GET 的传参方式相比于 POST 安全性较差，因为 GET 传的参数在 URL 中是可见的，可能会泄露私密信息。
并且 GET 只支持 ASCII 字符，因此 GET 的参数中如果存在中文等字符就需要先进行编码，例如中文会转换为%E4%B8%AD%E6%96%87，而空格会转换为%20。POST 支持标准字符集。

GET /test/demo_form.asp?name1=value1&name2=value2 HTTP/1.1

POST /test/demo_form.asp HTTP/1.1
Host: w3schools.com
name1=value1&name2=value2

不能因为 POST 参数存储在实体主体中就认为它的安全性更高，因为照样可以通过一些抓包工具（Fiddler）查看。

安全

安全的 HTTP 方法不会改变服务器状态，也就是说它只是可读的。GET 方法是安全的，而 POST 却不是

因为 POST 的目的是传送实体主体内容，这个内容可能是用户上传的表单数据，上传成功之后，服务器可能把这个数据存储到数据库中，因此状态也就发生了改变。

安全的方法除了 GET 之外还有：HEAD、OPTIONS。

不安全的方法除了 POST 之外还有 PUT、DELETE。

幂等性

幂等的 HTTP 方法，同样的请求被执行一次与连续执行多次的效果是一样的，服务器的状态也是一样的。

GET，HEAD，PUT 和 DELETE 等方法都是幂等的，

而POST 方法不是。所有的安全方法也都是幂等的。

可缓存

请求报文的 HTTP 方法本身是可缓存的，包括 GET 和 HEAD
但是 PUT 和 DELETE 不可缓存，POST 在多数情况下不可缓存的。

XMLHttpRequest

为了阐述 POST 和 GET 的另一个区别，需要先了解 XMLHttpRequest：

XMLHttpRequest 是一个 API，它为客户端提供了在客户端和服务器之间传输数据的功能。它提供了一个通过 URL 来获取数据的简单方式，并且不会使整个页面刷新。这使得网页只更新一部分页面而不会打扰到用户。XMLHttpRequest 在 AJAX 中被大量使用。

在使用 XMLHttpRequest 的 POST 方法时，浏览器会先发送 Header 再发送 Data。

但并不是所有浏览器会这么做，例如火狐就不会。而 GET 方法 Header 和 Data 会一起发送。

关注我

我是蛮三刀把刀，目前为后台开发工程师。主要关注后台开发，网络安全，Python爬虫等技术。

来微信和我聊聊：yangzd1102

Github：https://github.com/qqxx6661

原创博客主要内容

笔试面试复习知识点手册
Leetcode算法题解析（前150题）
剑指offer算法题解析
Python爬虫相关技术分析和实战
后台开发相关技术分析和实战

同步更新以下博客

1. Csdn

http://blog.csdn.net/qqxx6661

拥有专栏：Leetcode题解（Java/Python）、Python爬虫开发、面试助攻手册

2. 知乎

https://www.zhihu.com/people/yang-zhen-dong-1/

拥有专栏：码农面试助攻手册

3. 掘金

https://juejin.im/user/5b48015ce51d45191462ba55

4. 简书

https://www.jianshu.com/u/b5f225ca2376

个人公众号：Rude3Knife

如果文章对你有帮助，不妨收藏起来并转发给您的朋友们~

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效 助力高质量发展？

13岁男孩杀害8岁女童案今日开庭，女童父亲：侮辱遗体、没有悔罪

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

HTTP应知应会知识点复习手册（上）

前言

面试知识点复习手册

本文参考

状态码

1XX 信息

2XX 成功

3XX 重定向

4XX 客户端错误

5XX 服务器错误

Http1.0/1.1/2.0

1.1相比1.0

长连接和流水线（Pipelining）处理

Host头处理/虚拟主机

支持分块传输编码

错误通知的管理/新增状态码

缓存处理（协商缓存）

支持同时打开多个 TCP 连接

新增状态码 100

2.0相比1.1

二进制分帧层

二进制分帧：多路复用（MultiPlexing）

HTTP2.0的多路复用和HTTP1.X中的长连接复用有什么区别？

header压缩

服务端推送（server push）

SPYD相比1.1

多路复用

请求优先级（request prioritization）

header压缩

服务端推送（server push）

基于HTTPS的加密协议传输

HTTP2.0和SPDY的区别

HTTPs

HTTPS和HTTP的区别主要如下：

HTTP 有以下安全性问题：

HTTPs认证

HTTPs认证后的传输

完整性保护

HTTPs 的缺点

GET 和 POST 的区别

作用

参数

安全

幂等性

可缓存

XMLHttpRequest

关注我

原创博客主要内容

个人公众号：Rude3Knife

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？