查看原文
其他

面试题21解析-浏览器背后的秘密

2017-06-07 javatiku Java面试那些事儿

题目:描述一下用户打开浏览器到看到网页整个过程发生了什么?


本文阅读大概需要15分钟。


由于上版本文章出现了知识点错误,为了不误解更多的小伙伴,在此,重新发一下,望大家谅解。

这个题目看似很简单,当你去深入分析的时候,就会发现内部其实很复杂。

简单主要体现在用户使用层面。HTTP的请求、响应和解析相对用户来说是透明的;比如,当我们在浏览器或者curl输入一个地址,直接敲回车,就能够返回给我们想要的结果。但是,背后计算机做了那些事情?对于用户来说没必要清楚,但对于做开发的我们来说,必需要搞清楚才行哦,便于我们分析bug。

什么是HTTP协议?

如果读者对计算机网络的体系结构很了解应该清楚。IP协议位于网络层;TCP协议位于传输层;HTTP协议位于应用层;如图所示:

说明:

  1. TCP协议是传输层协议,主要解决数据如何在网络中传输;HTTP协议是应用层协议,是TCP协议的上层协议,主要用于浏览器与服务器之间的超文本数据传输。

  2. socket是对TCP协议的封装,是一个调用接口。

怎么发起HTTP请求?

其实发起一个HTTP请求就是建立一个socket连接;只不过HTTP请求是无状态且短连接协议。

浏览器在建立socket连接之前,先根据DNS服务器去把域名解析成所对应的IP地址,将IP地址和默认的80端口(HTTPS请求跟HTTP类似,只不过它用的是443和证书)与服务器之间建立一个socket连接。

我们利用代码来模拟一下浏览器的请求过程,具体代码如下:

URLConnection urlConnection = new URL("http://www.baidu.com").openConnection(); urlConnection.connect(); Map<String, List<String>> map = urlConnection.getHeaderFields(); for (String key : map.keySet()) {    System.out.println(key + ":" + map.get(key)); }

我们深入分析URLConnection的代码发现,其底层用到了socket接口,见sun.net.NetworkClient的内部实现,如图所示:

浏览器怎么解析HTTP请求?

我们也可以通过curl/charles/wireshark来进行抓包分析HTTP数据包,下面咱们通过curl来查看http的请求头信息,命令如下:

curl -I http://www.baidu.com

执行结果如图所示:

HTTP header控制着用户浏览器的渲染和服务器的执行逻辑。我们一般需要掌握这些常见的HTTP header信息。

  • 常见的HTTP请求头,如图所示:

  • 常见的HTTP响应头,如图所示:

  • 常见的HTTP状态码,如图所示:

其实,我们要分析一个页面,只需要通过浏览器的开发者工具就足够了,作者以chrome为例来展示一个HTTP请求的详细过程,如图所示:

浏览器缓存是什么?

浏览器缓存一般是前端工程师必须要掌握的,但是,我们作为后端开发也需要了解一下,毕竟技多不压身。

它就是我们在打开一个有缓存的网页时,浏览器会将其自动下载保存到本地(副本)。我们一般通过ctrl+f5来强制刷新本地缓存。

Cache-Control

缓存控制头信息,是关于浏览器缓存的最重要的设置,不仅可以控制浏览器,还可以覆盖其他设置(如Expires和Last-Modified)或代理服务器。另外,由于浏览器的行为基本相同,这个属性是处理跨浏览器缓存问题的最有效的方法。

Pragma

与Cache-Control功能类似。

Pragma属于通用首部字段,在客户端上使用时,常规要求我们往html上加上这段meta元标签,如:

<meta http-equiv="Pragma" content="no-cache">

用于告诉浏览器每次请求页面时都不要读缓存,都得往服务器发一次请求才行。

说明:仅有IE才能识别这段meta标签含义;它不一定会在请求字段加上Pragma,但的确会让当前页面每次都发新请求(仅限页面,页面上的资源则不受影响)。

Expires

过期头信息,通常后面跟一个时间,超过这个时间缓存内容将会失效。

在客户端上使用时,我照样可以加上meta元标签,如:

<meta http-equiv="expires" content="Sun, 04 Jun 2017 14:40:01 GMT">

说明:同样也只有IE能够识别,如果希望每次刷新页面都能发新请求,那么可以把“content”里的值写为“-1”或“0”。Pragma字段的优先级会高于Pragma。

Last-Modified/ETag

缓存校验字段;用于判断控制文件是否有修改。

一般浏览器缓存位于哪里呢?

Windows XP:C:\Documents and Settings\用户名\Local Settings\Temporary Internet Files

Windows Vista:%userprofile%\AppData\Local\Microsoft\Windows\Temporary Internet Files\Low?

Windows 7:C:\Users\Administrator\AppData\Local\Microsoft\Windows\Temporary Internet Files

C:\Users\test\AppData\Local\Microsoft\Windows\Temporary Internet Files\Content.IE5


如果读者希望了解更多关于HTTP相关的知识,建议去读一下《HTTP权威指南》和《图解HTTP》。


记住,这里全部都是干货!!!





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存