查看原文
其他

探索 | 网站流量统计的4大技巧

2015-08-31 王峰 梅子匠


网站访问量统计也称流量统计,是一个“传统”的网站运营技术指标,主要是记录和统计分析访问某一网站或页面的用户访问数据等,主要从访问页面和访客两个维度对数据进行分析,供网站运营部门参考决策。访问量统计技术主要分为早期的日志分析型和目前较为普遍的页面嵌入脚本方式。今天,我们邀请到新华社技术局互联网技术部高级工程师王峰,针对这两种技术方案及相应实践应用进行详细介绍。


◆◆◆◆◆


通过日志分析实现


维护过网站发布系统的技术人员都知道,WEB服务器软件都会在服务器本地记录和存储一个访问日志,记录每一次HTTP访问的主要数据。比如我们熟知的apache发布服务器软件缺省会在服务器本地磁盘/var/log/httpd路径下将每一次http访问都记录在access_log日志文件中,我们对其中一条访问记录进行解析。




这条记录表示,在2015年6月19日上午10:58分58秒,IP地址是“123.160.150.25”(河南郑州)的一个访客,通过Mozilla浏览器请求访问了发布根目录下的/News/201506/t20150617_14196.html页面文件,http请求执行结果的状态代码是200(表示“服务器成功返回网页”)。


有了这些访客记录数据,就可以通过人工执行命令或者专用系统对这些数据进行分析和统计,形成访问量统计的各种重要数据。如在操作系统下执行如下图的命令,就可以统计出2015年6月19日访问网站News栏目的一天访问量是多少。




通过访问日志对网站流量进行分析需要定时将日志导入分析系统,因此这一统计方式的显著缺点是数据滞后,不能实时了解网站当前的流量,且供统计的数据信息有限,如果多台发布服务器,会导致多台服务器的日志都需要汇总和分析,比较繁琐,有些网站使用CDN服务,还需要CDN将相应日志传回汇总后才能统计。


通过页面嵌入脚本实现


页面嵌入脚本方式实现访问量统计是目前应用较为普遍的一种实现方式,其原理是通过在页面嵌入一段代码,实现当页面被加载时,向流量统计服务器发送一条页面访问记录。一般为了不影响页面内容的加载,统计代码通常是写在页面的底部,我们以某一页面内嵌统计代码应用为例。




这段统计代码是一段JAVAScript脚本,通过调用服务器端stat.chinafeatures.com/webdig.js?Z=1程序代码,将当前用户访问的页面元数据(meta信息)以及用户信息等提取和分类后记录到统计服务器端(stat.chinafeatures.com)。当然这需要访问的页面元数据信息要全,否则流 量分析系统就无法进行细致分类别的数据分析。如下图中的页面元数据就比较全,包括页面的标题、所属栏目、作者、栏目ID等信息都有实际内容,这样流量分析 系统得到程序代码提交的这些数据后,就能进行多维度流量统计和分析。




针对整个网站或者某一栏目,访问量统计分析系统可以分析出访问者都来自哪些地域、是用PC还是移动终端访问、是通过搜索引擎还是直接页面访问、以及网站哪些内容最受欢迎等等,这些统计分析数据对于网站的运营进行“扬长避短”、有针对性的改进具有非常大的参考价值。


使用百度统计等第三方统计服务实现


如果您的网站投入资金有限,没有采购和部署专用的访问量分析系统,那也可以使用百度等免费的访问量统计服务,这也是非常不错的一种选择。百度统计是百度推出的一款专业、免费的网站流量分析工具。基于百度强大的技术实力,百度统计提供了丰富的数据指标,系统稳定,功能强大但操作简易。登陆系统(tongji.baidu.com)注册后,百度统计会提供一段代码,将此代码添加到页面模版中即可。如下图所示的页面中就嵌入了一段百度统计代码:




这段代码的原理同上,也是调用百度服务端的一段统计程序代码将页面和用户信息提取后提交到百度统计系统进行分析。百度统计分析的维度非常的广泛,可以从趋势、来源、页面、访客、定制和优化等多方面进行统计分析,形成下图图表。




自行开发JSP小程序


有时为了直观展示各条文章的访问情况,需要将访问数据直接展示在前端页面上。针对这一轻量级的访问量统计需求,我们可以通过自行开发JSP程序,并在页面中 调用来简单实现。如下图“穿越中国”网站在PC和手机端实现栏目列表页前端展示每条新闻的访问量的功能就是通过此方式实现。




为实现此功能,首先要在页面的细缆模版上加入调用服务器端自行编写的一个JSP小程序代码,实现向服务器端的点击数统计表里更新相应稿件的点击数值(通过稿 件ID在表中查询,如果已有就将相应点击数加1;如果没有查到,表示为页面第一次被访问,在统计表里增加一条文档统计记录,点击数初始为1);然后在页面 的列表页模版中同样嵌入调用服务器端编写的一个JSP小程序代码,实现从服务器端的点击数统计表中将稿件的点击数读取出来。之所以采用调用服务器端的 JSP程序,而不是在页面中直接嵌入程序代码,是为了隐藏网站服务器端数据访问方式,保障网站安全。这种页面访问量统计方法可以说是轻量级的实现方法,优 点是直观简便,缺点是功能和数据比较单一,当并发访问量大时,读写统计服务器将成为瓶颈。


◆◆◆◆◆


这个江湖容不下假新闻


-完-


▌原文《网站访问量统计应用实践》刊于《中国传媒科技》七月刊

▌作者 王峰 系新华社技术局互联网技术部高级工程师

▌小匠 朱可也



点击人名,获取更多传媒人精彩文章
业界学界
于威叶伟民陈刚陈少志
闻进唐兴通杨溟魏武挥
黄磊刘炳路喻国明韦路
徐峰李小鸣范以锦
周星张博

周智琛



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存