漫画:什么是基数排序?
————— 第二天 —————
————————————
什么是计数排序呢?让我们举例说明一下。
给定20个随机整数的值如下:
9,3,5,4,9,1,2,7,8,1,3,6,5,3,4,0,10,9 ,7,9
如何最快地把这些无序的随机整数排序?
由于这些整数的范围是从0到10这11个数,我们可以创建一个长度11的空数组,数组从0到10的下标,对应着待排序的随机整数值0到10:
接下来遍历这个无序的随机数列,每一个整数按照其值对号入座,对应数组下标的元素进行加1操作。
比如第一个整数是9,那么数组下标为9的元素加1:
第二个整数是3,那么数组下标为3的元素加1:
继续遍历数列并修改数组......
最终,数列遍历完毕时,数组的状态如下:
数组每一个下标位置的值,代表了数列中对应整数出现的次数。
有了这个“统计结果”,排序就很简单了。直接遍历数组,输出数组元素的下标值,元素的值是几,就输出几次:
0,1,1,2,3,3,3,4,4,5,5,6,7,7,8,9,9,9,9,10
显然,这个输出的数列已经是有序的了。
这就是计数排序的朴素版本。
为了实现稳定排序(排序后,相等元素原本的先后顺序不变),真正的计数排序要稍微复杂一些,感兴趣的小伙伴可以读一读这篇:
计数排序有什么局限呢?让我们看两个特殊的需求:
需求A,为一组给定的手机号排序:
18914021920
13223132981
13566632981
13660891039
13361323035
........
........
按照计数排序的思路,我们要根据手机号的取值范围,创建一个空数组。
可是,11位手机号有多少种组合?恐怕要建立一个大得不可想象的数组,才能装下所有可能出现的11位手机号!
需求B,为一组英文单词排序:
banana
apple
orange
peach
cherry
........
........
计数排序适合的场景是对整数做排序,如果遇到英文单词,就无能为力了。
如何有效处理诸如手机号、英文单词等复杂元素的排序呢?仅仅靠一次计数排序很难实现。
这时候,我们不妨把排序工作拆分成多个阶段,每一个阶段只根据一个字符进行计数排序,一共排序k轮(k是元素长度)。
或许这样的描述有些抽象,我们来举一个例子。
数组中有若干个字符串元素,每个字符串元素都是由三个英文字母组成:
bda,cfd,qwe,yui,abc,rrr,uee
如何将这些字符串按照字母顺序排序呢?
由于每个字符串的长度是3个字符,我们可以把排序工作拆分成3轮:
第一轮:按照最低位字符排序。排序过程使用计数排序,把字母的ascii码对应到数组下标,第一轮排序结果如下:
第二轮:在第一轮排序结果的基础上,按照第二位字符排序。
需要注意的是,这里使用的计数排序必须是稳定排序,这样才能保证第一轮排出的先后顺序在第二轮还能继续保持。
比如在第一轮排序后,元素uue在元素yui之前。那么第二轮排序时,两者的第二位字符虽然同样是u,但先后顺序万万不能变,否则第一轮排序就白做了。
第三轮:在第二轮排序结果的基础上,按照最高位字符排序。
如此一来,这些字符串的顺序就排好了。
像这样把字符串元素按位拆分,每一位进行一次计数排序的算法,就是基数排序(Radix Sort)。
基数排序既可以从高位优先进行排序(Most Significant Digit first,简称MSD),也可以从低位优先进行排序(Least Significant Digit first,简称LSD)。
刚才我们所举的例子,就是典型的LSD方式的基数排序。
什么意思呢?比如给定如下几个单词:
banana
apple
orange
ape
he
这里最长的单词有6个字符,其余不足6个字符的单词在末尾补0即可:
banana
apple0
orange
ape000
he0000
在排序时,我们把字符0当做是比a更小的字符,排序结果如下:
ape000
apple0
banana
he0000
orange
//ascii码的取值范围
public static final int ASCII_RANGE = 128;
public static String[] radixSort(String[] array,int maxLength)
{
//排序结果数组,用于存储每一次按位排序的临时结果
String[] sortedArray = new String[array.length];
//从个位开始比较,一直比较到最高位
for(int k=maxLength-1;k>=0;k--)
{
//计数排序的过程,分成三步:
//1.创建辅助排序的统计数组,并把待排序的字符对号入座,
//这里为了代码简洁,直接使用ascii码范围作为数组长度
int[] count = new int[ASCII_RANGE];
for(int i=0;i<array.length;i++)
{
int index = getCharIndex(array[i],k);
count[index]++;
}
//2.统计数组做变形,后面的元素等于前面的元素之和
for(int i=1;i<count.length;i++)
{
count[i] = count[i] + count[i-1];
}
//3.倒序遍历原始数列,从统计数组找到正确位置,输出到结果数组
for(int i=array.length-1;i>=0;i--) {
int index = getCharIndex(array[i],k);
int sortedIndex = count[index]-1;
sortedArray[sortedIndex] = array[i];
count[index]--;
}
//下一轮排序需要以上一轮的排序结果为基础,因此把结果复制给array
array = sortedArray.clone();
}
return array;
}
//获取字符串第k位字符所对应的ascii码序号
private static int getCharIndex(String str, int k){
//如果字符串长度小于k,直接返回0,相当于给不存在的位置补0
if(str.length() < k+1){
return 0;
}
return str.charAt(k);
}
public static void main(String[] args)
{
String[] array = {"qd","abc", "qwe","hhh","a","cws", "ope"};
System.out.println(Arrays.toString(radixSort(array, 3)));
}
这段代码基于一个大循环来实现,循环进行k次,k就是数组中最长字符串元素的字符数。
在循环体内,执行的是计数排序的逻辑。这个稳定的计数排序算法不太好理解,在小灰往期的漫画中有进行详细讲解(漫画:什么是计数排序?)。
—————END—————
喜欢本文的朋友,欢迎关注公众号 程序员小灰,收看更多精彩内容
欢迎长按二维码关注 小灰学英语,你所学到的不只是英语!