查看原文
其他

HTTP应知应会知识点复习手册(上)

蛮三刀把刀 后端技术漫谈 2022-06-20
image

前言

本文快速回顾了常考的的知识点,用作面试复习,事半功倍。

上篇主要内容: 状态码、Http1.0/1.1/2.0、Https、GET和POST

下篇主要内容: Web攻击技术、HTTP基础概念、HTTP Header详解、HTTP应用

面试知识点复习手册

全复习手册文章导航

点击公众号下方:技术推文——面试冲刺

已发布知识点复习手册

本文参考

本文内容主要参考来自CyC2018的Github仓库:CS-Notes

有删减,修改,补充额外增加内容

本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。

状态码

有拓展参考:

https://zhuanlan.zhihu.com/p/34648453

状态码类别原因短语
1XXInformational(信息性状态码)接收的请求正在处理
2XXSuccess(成功状态码)请求正常处理完毕
3XXRedirection(重定向状态码)需要进行附加操作以完成请求
4XXClient Error(客户端错误状态码)服务器无法处理请求
5XXServer Error(服务器错误状态码)服务器处理请求出错

1XX 信息

  • 100 Continue :表明到目前为止都很正常,客户端可以继续发送请求或者忽略这个响应。

  • 101 Switching Protocols 协议升级:请求者要求服务器切换协议,服务器确认并准备切换

    • 主要用于websocket:表示服务端接受 WebSocket 协议的客户端连接

    • 也可以用于http2的升级。

2XX 成功

  • 200 OK

  • 204 No Content :请求已经成功处理,但是返回的响应报文不包含实体的主体部分。一般在只需要从客户端往服务器发送信息,而不需要返回数据时使用。

  • 206 Partial Content :表示客户端进行了范围请求。响应报文包含由 Content-Range 指定范围的实体内容。

3XX 重定向

  • 301 Moved Permanently :永久性重定向

  • 302 Found :临时性重定向

  • 303 See Other :和 302 有着相同的功能,但是 303 明确要求客户端应该采用 GET 方法获取资源。

    • 注:虽然 HTTP 协议规定 301、302 状态下重定向时不允许把 POST 方法改成 GET 方法,但是大多数浏览器都会在 301、302 和 303 状态下的重定向把 POST 方法改成 GET 方法。

  • 304 Not Modified :如果请求报文首部包含一些条件,例如:If-Match,If-Modified-Since,If-None-Match,If-Range,If-Unmodified-Since,如果不满足条件,则服务器会返回 304 状态码。

    浏览器缓存分为强制缓存和协商缓存,优先读取强制缓存

    强制缓存分为expires和cache-control:

    协商缓存包括etag和last-modified:

    如果 Last-Modified 和 ETag 同时被使用,则要求它们的验证都必须通过才会返回304,若其中某个验证没通过,则服务器会按常规返回资源实体及200状态码。

    协商缓存与强制缓存的区别在于强制缓存不需要访问服务器,返回结果是200,协商缓存需要访问服务器,命中协商缓存的话,返回结果是304。

    步骤:客户端发送附带条件的请求时(if-matched,if-modified-since,if-none-match,if-range,if-unmodified-since任一个)服务器端允许请求访问资源,但因发生请求未满足条件的情况后,直接返回304Modified(服务器端资源未改变,可直接使用客户端未过期的缓存)。

    补充网页:expires/cache-control/last-modified/etag详解以及解释为何应chrome该显示304却显示200:
    http://www.cnblogs.com/vajoy/p/5341664.html

    • last-modified的设置标准是资源的上次修改时间

    • etag是为了应对资源修改时间可能很频繁的情况出现的,是基于资源的内容计算出来的值,因此优先级也较高。

    • expires是一个特定的时间,是比较旧的标准。

    • cache-control通常是一个具体的时间长度,比较新,优先级也比较高。

  • 307 Temporary Redirect :临时重定向,与 302 的含义类似,但是 307 要求浏览器不允许把重定向请求的 POST 方法改成 GET 方法。

    关于303和307:https://blog.csdn.net/liuxingen/article/details/51511034

    303、307其实就是把原来301、302不”合法”的处理动作给”合法化”,因为发现大家都不太遵守,所以干脆就增加一条规定。

    额外功能:也用于hsts跳转。hsts全称HTTP严格传输安全(HTTP Strict Transport Security,縮寫:HSTS)

    • 功能是要求浏览器下次访问该站点时使用https来访问,而不再需要先是http再转https。这样可以避免ssl剥离攻击:即攻击者在用户使用http访问的过程中进行攻击,对服务器冒充自己是用户,在攻击者和服务器中使用https访问,在用户和服务器中使用http访问。具体使用方法是在服务器响应头中添加Strict-Transport-Security,可以设置 max-age。

4XX 客户端错误

  • 400 Bad Request :请求报文中存在语法错误。提交json时,如果json格式有问题,接收端接收json,也会出现400 bad request。比如常见的json串,数组不应该有",但是有"了。

  • 401 Unauthorized :该状态码表示发送的请求需要有认证信息(BASIC 认证、DIGEST 认证)。如果之前已进行过一次请求,则表示用户认证失败。

  • 403 Forbidden :请求被拒绝,服务器端没有必要给出拒绝的详细理由。

  • 404 Not Found

  • 405 method not allowed
    问题原因:请求的方式(get、post、delete)方法与后台规定的方式不符合。比如: 后台方法规定的请求方式只接受get,如果用post请求,就会出现 405 method not allowed的提示

  • 408 请求超时

5XX 服务器错误

  • 500: Internal Server Error :服务器正在执行请求时发生错误。

  • 502:Bad Gateway:进程响应的内容是nginx无法理解的响应

  • 503 Service Unavilable :服务器暂时处于超负载或正在进行停机维护,现在无法处理请求。(瞬时请求量过大)

  • 504:Gateway Time-out:进程阻塞超过nginx的时间阈值返回504

  • 505:不支持该http版本

Http1.0/1.1/2.0

参考:

  1. https://mp.weixin.qq.com/s/GICbiyJpINrHZ41u_4zT-A

  2. https://github.com/CyC2018/Interview-Notebook/blob/master/notes/HTTP.md

1.1相比1.0

长连接和流水线(Pipelining)处理

HTTP 1.1支持长连接(PersistentConnection)和管线化(Pipelining)处理,在一个TCP连接上可以传送多个HTTP请求和响应,减少了建立和关闭连接的消耗和延迟。

如果要断开 TCP 连接,需要由客户端或者服务器端提出断开,使用 Connection : close

在HTTP1.1中默认开启Connection: keep-alive,一定程度上弥补了HTTP1.0每次请求都要创建连接的缺点。

Host头处理/虚拟主机

在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的URL并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。HTTP1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有Host头域会报告一个错误(400 Bad Request)。(Host头域指定请求资源的Intenet主机和端口号,必须表示请求url的原始服务器或网关的位置。)

  • 在http 1.1中不能缺失host字段,如果缺失, 服务器返回400 bad request,http1.1中不能缺失host字段,但host字段可以是空值。

  • 在http 1.0中可以缺失host字段。

支持分块传输编码

HTTP1.0中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1则在请求头引入了range头域,它允许只请求资源的某个部分,即返回码是206(Partial Content),这样就方便了开发者自由的选择以便于充分利用带宽和连接。

另一种解释:可以把数据分割成多块,让浏览器逐步显示页面。

错误通知的管理/新增状态码

在HTTP1.1中新增了24个错误状态响应码,如:

  • 409(Conflict)表示请求的资源与资源的当前状态发生冲突;

  • 410(Gone)表示服务器上的某个资源被永久性的删除。

缓存处理(协商缓存)

在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准。

HTTP1.1则引入了更多的缓存控制策略例如Entity tag,If-Unmodified-Since, If-Match, If-None-Match等更多可供选择的缓存头来控制缓存策略。

新增缓存处理指令 max-age

支持同时打开多个 TCP 连接

新增状态码 100

2.0相比1.1

https://mp.weixin.qq.com/s/NMhNVDP47npMqx5ruVy43w

HTTP/1.x 缺陷

HTTP/1.x 实现简单是以牺牲性能为代价的:

  • 客户端需要使用多个连接才能实现并发和缩短延迟;

  • 不会压缩请求和响应首部,从而导致不必要的网络流量;

  • 不支持有效的资源优先级,致使底层 TCP 连接的利用率低下。

二进制分帧层

HTTP/2.0 将报文分成 HEADERS 帧和 DATA 帧,它们都是二进制格式的。

在通信过程中,只会有一个 TCP 连接存在,它承载了任意数量的双向数据流(Stream)。

  • 一个数据流(Stream)都有一个唯一标识符和可选的优先级信息,用于承载双向信息。

  • 消息(Message)是与逻辑请求或响应对应的完整的一系列帧。

  • 帧(Frame)是最小的通信单位,来自不同数据流的帧可以交错发送,然后再根据每个帧头的数据流标识符重新组装。

在这里插入图片描述

和1.1区别在于:

  • HTTP1.x的解析是基于文本。基于文本协议的格式解析存在天然缺陷,文本的表现形式有多样性,要做到健壮性考虑的场景必然很多

  • 二进制则不同,只认0和1的组合。基于这种考虑HTTP2.0的协议解析决定采用二进制格式,实现方便且健壮。

在这里插入图片描述
在这里插入图片描述

二进制分帧:多路复用(MultiPlexing)

即连接共享,即每一个request都是是用作连接共享机制的。一个request对应一个id,这样一个连接上可以有多个request,每个连接的request可以随机的混杂在一起,接收方可以根据request的 id将request再归属到各自不同的服务端请求里面。

  • 单连接多资源的方式,减少服务端的链接压力,内存占用更少,连接吞吐量更大;

  • 由于减少TCP 慢启动时间,提高传输的速度。

HTTP2.0的多路复用和HTTP1.X中的长连接复用有什么区别?

关键点:一个是串行,一个是并行,一个阻塞不影响其他request。

header压缩

如上文中所言,对前面提到过HTTP1.x的header带有大量信息,而且每次都要重复发送,HTTP2.0使用encoder来减少需要传输的header大小,通讯双方各自cache一份header fields表,既避免了重复header的传输,又减小了需要传输的大小。

在这里插入图片描述
在这里插入图片描述

服务端推送(server push)

同SPDY一样,HTTP2.0也具有server push功能。

在这里插入图片描述
在这里插入图片描述

SPYD相比1.1

多路复用

针对HTTP高延迟的问题,SPDY优雅的采取了多路复用(multiplexing)。多路复用通过多个请求stream共享一个tcp连接的方式,解决了HOL blocking的问题,降低了延迟同时提高了带宽的利用率。

请求优先级(request prioritization)

多路复用带来一个新的问题是,在连接共享的基础之上有可能会导致关键请求被阻塞。SPDY允许给每个request设置优先级,这样重要的请求就会优先得到响应。比如浏览器加载首页,首页的html内容应该优先展示,之后才是各种静态资源文件,脚本文件等加载,这样可以保证用户能第一时间看到网页内容。

header压缩

前面提到HTTP1.x的header很多时候都是重复多余的。选择合适的压缩算法可以减小包的大小和数量。

服务端推送(server push)

采用了SPDY的网页,例如我的网页有一个sytle.css的请求,在客户端收到sytle.css数据的同时,服务端会将sytle.js的文件推送给客户端,当客户端再次尝试获取sytle.js时就可以直接从缓存中获取到,不用再发请求了。

基于HTTPS的加密协议传输

大大提高了传输数据的可靠性。

HTTP2.0和SPDY的区别

  • HTTP2.0 支持明文 HTTP 传输,而 SPDY 强制使用 HTTPS

  • HTTP2.0 消息头的压缩算法采用 HPACK

    • http://http2.github.io/http2-spec/compression.html

  • SPDY 消息头的压缩算法采用 DEFLATE

    • http://zh.wikipedia.org/wiki/DEFLATE

HTTPs

HTTPS和HTTP的区别主要如下:

1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用

2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议

3、用的端口也不一样,前者是80,后者是443。

4、http的连接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证、完整性保护的网络协议,比http协议安全。
  
  

HTTP 有以下安全性问题:

  • 内容可能会被窃听;

  • 通信方的身份有可能遭遇伪装;

  • 报文有可能遭篡改。

HTTPs 并不是新协议,而是让 HTTP 先和 SSL(Secure Sockets Layer)通信,再由 SSL 和 TCP 通信。也就是说 HTTPs 使用了隧道进行通信。

隧道:它是将原始IP包(其报头包含原始发送者和最终目的地)封装在另一个数据包(称为封装的IP包)的数据净荷中进行传输。使用隧道的原因是在不兼容的网络上传输数据,或在不安全网络上提供一个安全路径。

通过使用 SSL,HTTPs 具有了:

加密(防窃听)、认证(防伪装)和完整性保护(防篡改)

在这里插入图片描述

HTTPs认证

请看下面加黑字体是重点:

在这里插入图片描述
  • 服务方 S 向第三方机构CA提交公钥、组织信息、个人信息(域名)等信息并申请认证;

  • CA 通过线上、线下等多种手段验证申请者提供信息的真实性,如组织是否存在、企业是否合法,是否拥有域名的所有权等;

  • 如信息审核通过,CA 会向申请者签发认证文件-证书。
    签名的产生算法:首先,使用散列函数计算公开的明文信息的信息摘要,然后,采用 CA 的私钥对信息摘要进行签名;

客户端:

  • 客户端 C 向服务器 S 发出请求时,S 返回证书文件;

  • 客户端 C 读取证书中的相关的明文信息,采用相同的散列函数计算得到信息摘要,然后,利用对应 CA 的公钥解密签名数据

  • 对比证书的信息摘要(明文的信息摘要和签名解密后的一致),如果一致,则可以确认证书的合法性,即公钥合法;

  • 客户端然后验证证书相关的域名信息、有效时间等信息;

  • 客户端会内置信任 CA 的证书信息(包含公钥),如果CA不被信任,则找不到对应 CA 的证书,证书也会被判定非法。

在这个过程注意几点:

  • 1.申请证书不需要提供私钥,确保私钥永远只能服务器掌握;

  • 2.证书的合法性仍然依赖于非对称加密算法,证书主要是增加了服务器信息以及签名;

  • 3.内置 CA 对应的证书称为根证书,颁发者和使用者相同,自己为自己签名,即自签名证书;

  • 4.证书=网站公钥+申请者与颁发者信息+签名;

HTTPs认证后的传输

HTTPs 采用混合的加密机制,使用公开密钥加密用于传输对称密钥来保证安全性,之后使用对称密钥加密进行通信来保证效率。(下图中的 Session Key 就是对称密钥)

在这里插入图片描述

完整性保护

SSL 提供报文摘要功能来进行完整性保护。

HTTP 也提供了 MD5 报文摘要功能,但是却不是安全的。例如报文内容被篡改之后,同时重新计算 MD5 的值,通信接收方是无法意识到发生篡改。

HTTPs 的报文摘要功能之所以安全,是因为它结合了加密和认证这两个操作。试想一下,加密之后的报文,遭到篡改之后,也很难重新计算报文摘要,因为无法轻易获取明文。

HTTPs 的缺点

  • 因为需要进行加密解密等过程,因此速度会更慢;

  • 需要支付证书授权的高费用。

GET 和 POST 的区别

作用

GET 用于获取资源,而 POST 用于传输实体主体。

参数

  • GET 的传参方式相比于 POST 安全性较差,因为 GET 传的参数在 URL 中是可见的,可能会泄露私密信息。

  • 并且 GET 只支持 ASCII 字符,因此 GET 的参数中如果存在中文等字符就需要先进行编码,例如中文会转换为%E4%B8%AD%E6%96%87,而空格会转换为%20。POST 支持标准字符集。

GET /test/demo_form.asp?name1=value1&name2=value2 HTTP/1.1

POST /test/demo_form.asp HTTP/1.1
Host: w3schools.com
name1=value1&name2=value2
  • 不能因为 POST 参数存储在实体主体中就认为它的安全性更高,因为照样可以通过一些抓包工具(Fiddler)查看。

安全

安全的 HTTP 方法不会改变服务器状态,也就是说它只是可读的。GET 方法是安全的,而 POST 却不是

因为 POST 的目的是传送实体主体内容,这个内容可能是用户上传的表单数据,上传成功之后,服务器可能把这个数据存储到数据库中,因此状态也就发生了改变。

安全的方法除了 GET 之外还有:HEAD、OPTIONS。

不安全的方法除了 POST 之外还有 PUT、DELETE。

幂等性

幂等的 HTTP 方法,同样的请求被执行一次与连续执行多次的效果是一样的,服务器的状态也是一样的。

GET,HEAD,PUT 和 DELETE 等方法都是幂等的,

而POST 方法不是。所有的安全方法也都是幂等的。

可缓存

  • 请求报文的 HTTP 方法本身是可缓存的,包括 GET 和 HEAD

  • 但是 PUT 和 DELETE 不可缓存,POST 在多数情况下不可缓存的。

XMLHttpRequest

为了阐述 POST 和 GET 的另一个区别,需要先了解 XMLHttpRequest:

XMLHttpRequest 是一个 API,它为客户端提供了在客户端和服务器之间传输数据的功能。它提供了一个通过 URL 来获取数据的简单方式,并且不会使整个页面刷新。这使得网页只更新一部分页面而不会打扰到用户。XMLHttpRequest 在 AJAX 中被大量使用。

在使用 XMLHttpRequest 的 POST 方法时,浏览器会先发送 Header 再发送 Data

但并不是所有浏览器会这么做,例如火狐就不会。而 GET 方法 Header 和 Data 会一起发送。

关注我

我是蛮三刀把刀,目前为后台开发工程师。主要关注后台开发,网络安全,Python爬虫等技术。

来微信和我聊聊:yangzd1102

Github:https://github.com/qqxx6661

原创博客主要内容

  • 笔试面试复习知识点手册

  • Leetcode算法题解析(前150题)

  • 剑指offer算法题解析

  • Python爬虫相关技术分析和实战

  • 后台开发相关技术分析和实战

同步更新以下博客

1. Csdn

http://blog.csdn.net/qqxx6661

拥有专栏:Leetcode题解(Java/Python)、Python爬虫开发、面试助攻手册

2. 知乎

https://www.zhihu.com/people/yang-zhen-dong-1/

拥有专栏:码农面试助攻手册

3. 掘金

https://juejin.im/user/5b48015ce51d45191462ba55

4. 简书

https://www.jianshu.com/u/b5f225ca2376

个人公众号:Rude3Knife

个人公众号:Rude3Knife

如果文章对你有帮助,不妨收藏起来并转发给您的朋友们~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存