查看原文
其他

小知识科普:随处可见的短ID和短网址

The following article is from 后端技术指南针 Author 后端技术指南针

来源:后端技术指南针

作者:后端技术指南针


生活常见场景

生活场景一

早上收到快递小哥的短信说快递被放在了A地的丰巢快递柜,然鹅这个快递柜我并不知道在哪里。

于是想到用快递单号查询一下物流信息,但是这个快递单号是长达14位的十进制数字。

当时就很纳闷,为什么要用14位长度的10进制数字来表示单号?站在快递公司的角度我做了如下推测:

1、可以从单号快速知道物品发货时间?(貌似没有看到时间线索,除非做了编码,但是应该不会…)
2、可以从单号获得起止地点?(可能是内部地点编码 反正消费者不关心)
3、可以从单号获得相关人员信息?(可能是内部人员编码 反正消费者不关心)

到这里,我暂时没有找到为什么必须使用这么长串数字的理由,于是搜狗一下(不是百度一下),看到这个问题:

在这里插入图片描述

确实有一样疑问的人,但是对于这个回答算是同意一半吧,核心意思是为了去重,不过做法有些因噎废食了。


生活场景二:

双11临近手机上的推广短信也越来越多,随便看几个:

在这里插入图片描述

在这里插入图片描述

可以看到上面的两条典型的短信,其中的显示的网址都很短,和前些年的连接不一样,因为前些年的链接大概和一根挂面那么长。


好奇地点开了其中一条淘宝的短信,然后跳转了:

在这里插入图片描述

可以看出来短ID短网址在生活中是普遍出现的,作用也非常明显,比如微博这种有140字限制的,粘贴一个链接可能花掉了100个字;
对于推广商发送短信按照字数计费,同样的长网址进行相同数量的推广,产生的通信费可能是短网址的数倍。


综上可知,短网址和短ID相当于间接提高了带宽的利用率、节约成本

短网址和短ID的原理

1、六十二进制表示法

前面提到的快递单号和短信链接就引出了今天要说的短网址和短ID,顾名思义短网址就是非常短的网址,比如http://t.cn/EXyAO7T,其中核心的部分EXyAO7T只有7位长度。

其实这里的7位长度是使用 62 进制来表示的,就是常用的 0-9、a-z、A-Z,也就是 10 个数字 + 26 个小写 + 26 个大写 = 62 位。

那么7位长度62进制可以表示多大范围呢?

62^7 = 3,521,614,606,208(合计3.5万亿),这样的话只要算法得当,短网址冲突的概率就很低了。

至于短网址的长度可以根据自己需要来调整,即使6位长度62^6也能达到568亿的范围,所以回答了上面快递单号的问题。

如果有弱加密需求,不想让人明确知道转换前是什么,使用方可以按照自己的需求来调整62进制各位代表的含义,比如A站点将字母c表示32、B站点将字母c表示60,就相当于密码本了。

2、更大进制表示法

看到这里你或许会说,使用108进制(如果有的话)岂不是网址更短,是的,但是108个进制就可能会出现大量的不常用字符 比如 # % & * 这些,通用性和记忆性就变差了,62进制是个权衡折中,已经足够无需过设计。

关于跳链

当打开淘宝的短网址时页面出现了跳转,出现了新的页面,浏览器显示的新网址并不是你打开的短网址了,也就是发生了301/302跳转。

http中返回码301是永久重定向,也就是短网址和长网址是一一对应的,http返回码302表示是临时重定向,也就是可能过段时间短网址就失效了。

由于数据统计和活动临时性等特性,302短网址应用更多,但是302临时短网址对于主站点的SEO有一定的影响,过分使用也会降低站点排名。

所以短网址在平时站点搞活动或者分享页时应用比较多,微博、淘宝、微信基本上都是短网址。

短连接的安全性

虽然短链接便于传输和记忆,但是位数少并且无明确站点信息,容易出现猜测攻击和钓鱼攻击,比如一些黑基站发送短信,如果是短链接点开可能就跳转到非可信任网址,因此不建议使用短链接发送传输核心敏感数据,即使传输也要做好权限鉴别,加强安全处理,软件工程没有银弹,还是要辩证看待。

结语

本文并没有对如何保证短链接和短ID唯一性、生成算法、鉴权等进行详细介绍,仅做抛砖引玉,现实中有很多短链接服务商包括百度、微博、谷歌等,感兴趣的可以进行查阅。

推荐阅读

告别动态规划,连刷40道动规算法题,我总结了动规的套路

动态规划该如何优化?我总结了这些套路,以后优化就是分分钟

写了很久,这是一份适合普通大众/科班/非科班的『学习路线』

普普通通,我的三年大学

历经两个月,我的秋招之路结束了!

程序员必须掌握的算法有哪些?谈谈这这几年学过的算法

【吐血整理】那些让你起飞的计算机基础知识:学什么,怎么学?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存