其他
老司机开车,教会女朋友什么是「马拉车算法」
以下文章来源于五分钟学算法 ,作者李威
作者 | 李威
责编 | 阿秃
第 1 步:预处理
"babad"
添加分隔符 "#"
以后得到 "#b#a#b#a#d#"
。第 2 步:计算辅助数组 p
p
记录了新字符串中以每个字符为中心的回文子串的信息。"abbabb"
为例,说明如何手动计算得到辅助数组 p
,我们要填的就是下面这张表。char | # | a | # | b | # | b | # | a | # | b | # | b | # |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
p |
char
:原始字符串加上分隔符以后的每个字符。index
:这个数组是新字符串的索引数组,它的值是从 0 开始的索引编号。我们首先填 p[0]
。
char | # | a | # | b | # | b | # | a | # | b | # | b | # |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
p | 0 |
char[0] = '#'
为中心,同时向左边向右扩散,走 1 步就碰到边界了,因此能扩散的步数为 0,因此 p[0] = 0
;下面填写 p[1]
。
char[1] = 'a'
为中心,同时向左边向右扩散,走 1 步,左右都是 "#"
,构成回文子串,于是再继续同时向左边向右边扩散,左边就碰到边界了,最多能扩散的步数”为 1,因此 p[1] = 1
;char | # | a | # | b | # | b | # | a | # | b | # | b | # |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
p | 0 | 1 |
下面填写 p[2]
。
char[2] = '#'
为中心,同时向左边向右扩散,走 1 步,左边是 "a"
,右边是 "b"
,不匹配,最多能扩散的步数为 0,因此 p[2] = 0
;下面填写 p[3]
。
char[3] = 'b'
为中心,同时向左边向右扩散,走 1 步,左右两边都是 “#”
,构成回文子串,继续同时向左边向右扩散,左边是 "a"
,右边是 "b"
,不匹配,最多能扩散的步数为 1 ,因此 p[3] = 1
;char | # | a | # | b | # | b | # | a | # | b | # | b | # |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
p | 0 | 1 | 0 | 1 |
下面填写 p[4]
。
char[4] = '#'
为中心,同时向左边向右扩散,最多可以走 4 步,左边到达左边界,因此 p[4] = 4
。char | # | a | # | b | # | b | # | a | # | b | # | b | # |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
p | 0 | 1 | 0 | 1 | 4 |
继续填完 p 数组剩下的部分。
char | # | a | # | b | # | b | # | a | # | b | # | b | # |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
p | 0 | 1 | 0 | 1 | 4 | 1 | 0 | 5 | 0 | 1 | 2 | 1 | 0 |
p
定义为回文半径数组,即 p[i]
记录了以新字符串第 i
个字符为中心的回文字符串的半径(包括第 i
个字符),与我们这里定义的辅助数组 p
有一个字符的偏差,本质上是一样的。p
的结论:辅助数组 p
的最大值是 5,对应了原字符串 "abbabb"
的 “最长回文子串” :"bbabb"
。这个结论具有一般性,即:p
的过程中记录这个最大值,并且记录最长回文子串。#
的作用,在新字符串中每扩散两步,虽然实际上只扫到一个有效字符,但是相当于在原始字符串中相当于计算了两个字符。#
,那么原始回文子串的中心就是一个“空隙”。在新回文子串中,向两边扩散的特点是:“先字符,后分隔符”,扩散的步数因为有分隔符 #
的作用,在新字符串中每扩散两步,虽然实际上只扫到一个有效字符,但是相当于在原始字符串中相当于计算了两个字符。p
的最大值就是“最长回文子串”的长度”这个结论是成立的,可以看下面的图理解上面说的 2 点。参考代码
public String longestPalindrome(String s) {
int len = s.length();
if (len < 2) {
return s;
}
String str = addBoundaries(s, '#');
int sLen = 2 * len + 1;
int maxLen = 1;
int start = 0;
for (int i = 0; i < sLen; i++) {
int curLen = centerSpread(str, i);
if (curLen > maxLen) {
maxLen = curLen;
start = (i - maxLen) / 2;
}
}
return s.substring(start, start + maxLen);
}
private int centerSpread(String s, int center) {
// left = right 的时候,此时回文中心是一个空隙,回文串的长度是奇数
// right = left + 1 的时候,此时回文中心是任意一个字符,回文串的长度是偶数
int len = s.length();
int i = center - 1;
int j = center + 1;
int step = 0;
while (i >= 0 && j < len && s.charAt(i) == s.charAt(j)) {
i--;
j++;
step++;
}
return step;
}
/**
* 创建预处理字符串
*
* @param s 原始字符串
* @param divide 分隔字符
* @return 使用分隔字符处理以后得到的字符串
*/
private String addBoundaries(String s, char divide) {
int len = s.length();
if (len == 0) {
return "";
}
if (s.indexOf(divide) != -1) {
throw new IllegalArgumentException("参数错误,您传递的分割字符,在输入字符串中存在!");
}
StringBuilder stringBuilder = new StringBuilder();
for (int i = 0; i < len; i++) {
stringBuilder.append(divide);
stringBuilder.append(s.charAt(i));
}
stringBuilder.append(divide);
return stringBuilder.toString();
}
}
复杂度分析
时间复杂度:O(N2),这里 N 是原始字符串的长度。新字符串的长度是 2 * N + 1,不计系数与常数项,因此时间复杂度仍为 O(N2)。 空间复杂度:O(N)。
科学家的工作
#a#a#a#a#a#a#a#a#
。p
的值的时候,能够参考已经填写过的辅助数组 p
的值,使得新字符串每个字符只访问了一次,整体时间复杂度由 O(N2) 改进到 O(N)。i
以外,我们还需要记录两个变量,它们是 maxRight
和 center
,它们分别的含义如下:maxRight
表示记录当前向右扩展的最远边界,即从开始到现在使用“中心扩散法”能得到的回文子串,它能延伸到的最右端的位置 。maxRight
我们说明 3 点:“向右最远”是在计算辅助数组 p
的过程中,向右边扩散能走的索引最大的位置,注意:得到一个maxRight
所对应的回文子串,并不一定是当前得到的“最长回文子串”,很可能的一种情况是,某个回文子串可能比较短,但是它正好在整个字符串比较靠后的位置;maxRight
的下一个位置可能是被程序看到的,停止的原因有 2 点:(1)左边界不能扩散,导致右边界受限制也不能扩散,maxRight
的下一个位置看不到;(2)正是因为看到了maxRight
的下一个位置,导致maxRight
不能继续扩散。为什么 maxRight
很重要?因为扫描是从左向右进行的,maxRight
能够提供的信息最多,它是一个重要的分类讨论的标准,因此我们需要一个变量记录它。
center
是与 maxRight
相关的一个变量,它是上述 maxRight
的回文中心的索引值。对于 center
的说明如下:center
的形式化定义:x + p[x]
的最大值就是我们定义的 maxRight
,i
是循环变量,0<= x< i
表示是在 i
之前的所有索引里得到的最大值 maxRight
,它对应的回文中心索引就是上述式子。maxRight
与 center
是一一对应的关系,即一个 center
的值唯一对应了一个 maxRight
的值;因此 maxRight
与 center
必须要同时更新。i
与 maxRight
的关系展开讨论:i >= maxRight
的时候,这就是一开始,以及刚刚把一个回文子串扫描完的情况,此时只能够根据“中心扩散法”一个一个扫描,逐渐扩大 maxRight
;i < maxRight
的时候,根据新字符的回文子串的性质,循环变量关于 center
对称的那个索引(记为 mirror
)的 p
值就很重要。mirror
的值是多少,因为 center
是中心,i
和 mirror
关于 center
中心对称,因此 (mirror + i) / 2 = center
,所以 mirror = 2 * center - i
。p[mirror]
的数值从小到大,具体可以分为如下 3 种情况:p[mirror]
的数值比较小,不超过 maxRight - i
。maxRight - i
的值,就是从 i
关于 center
的镜像点开始向左走(不包括它自己),到 maxRight
关于 center
的镜像点的步数center
为中心的回文子串”的对称性,导致了“以 i
为中心的回文子串”与“以 center
为中心的回文子串”也具有对称性,“以 i
为中心的回文子串”与“以 center
为中心的回文子串”不能再扩散了,此时,直接把数值抄过来即可,即 p[i] = p[mirror]
。p[mirror]
的数值恰好等于 maxRight - i
。center
为中心的回文子串”的对称性,导致了“以 i
为中心的回文子串”与“以 center
为中心的回文子串”也具有对称性。因为靠左边的 f
与靠右边的g
的原因,导致“以center
为中心的回文子串”不能继续扩散;但是“以 i
为中心的回文子串” 还可以继续扩散。
p[mirror]
的值抄过来,然后继续“中心扩散法”,继续增加 maxRight
。p[mirror]
的数值大于 maxRight - i
。center
为中心的回文子串”的对称性,导致了“以 i
为中心的回文子串”与“以 center
为中心的回文子串”也具有对称性。下面证明,
p[i] = maxRight - i
,证明的方法还是利用三个回文子串的对称性。center
为中心的回文子串”的对称性, 黄色箭头对应的字符 c
和 e
一定不相等;mirror
为中心的回文子串”的对称性, 绿色箭头对应的字符 c
和 c
一定相等;center
为中心的回文子串”的对称性, 蓝色箭头对应的字符 c
和 c
一定相等;i
为中心的回文子串”的对称性, 红色箭头对应的字符 c
和 e
一定不相等。p[i] = maxRight - i
,不可能再大。上面是因为我画的图,可能看的朋友会觉得理所当然。事实上,可以使用反证法证明:i
为中心的回文子串” 再向两边扩散的两个字符 c
和 e
相等,就能够推出黄色、绿色、蓝色、红色箭头所指向的 8 个变量的值都相等,此时“以 center
为中心的回文子串” 就可以再同时向左边和右边扩散 1 格,与 maxRight
的最大性矛盾。i < maxRight
的时候,p[i]
可以参考 p[mirror]
的信息,以 maxRight - i
作为参考标准,p[i]
的值应该是保守的,即二者之中较小的那个值:参考代码
public String longestPalindrome(String s) {
// 特判
int len = s.length();
if (len < 2) {
return s;
}
// 得到预处理字符串
String str = addBoundaries(s, '#');
// 新字符串的长度
int sLen = 2 * len + 1;
// 数组 p 记录了扫描过的回文子串的信息
int[] p = new int[sLen];
// 双指针,它们是一一对应的,须同时更新
int maxRight = 0;
int center = 0;
// 当前遍历的中心最大扩散步数,其值等于原始字符串的最长回文子串的长度
int maxLen = 1;
// 原始字符串的最长回文子串的起始位置,与 maxLen 必须同时更新
int start = 0;
for (int i = 0; i < sLen; i++) {
if (i < maxRight) {
int mirror = 2 * center - i;
// 这一行代码是 Manacher 算法的关键所在,要结合图形来理解
p[i] = Math.min(maxRight - i, p[mirror]);
}
// 下一次尝试扩散的左右起点,能扩散的步数直接加到 p[i] 中
int left = i - (1 + p[i]);
int right = i + (1 + p[i]);
// left >= 0 && right < sLen 保证不越界
// str.charAt(left) == str.charAt(right) 表示可以扩散 1 次
while (left >= 0 && right < sLen && str.charAt(left) == str.charAt(right)) {
p[i]++;
left--;
right++;
}
// 根据 maxRight 的定义,它是遍历过的 i 的 i + p[i] 的最大者
// 如果 maxRight 的值越大,进入上面 i < maxRight 的判断的可能性就越大,这样就可以重复利用之前判断过的回文信息了
if (i + p[i] > maxRight) {
// maxRight 和 center 需要同时更新
maxRight = i + p[i];
center = i;
}
if (p[i] > maxLen) {
// 记录最长回文子串的长度和相应它在原始字符串中的起点
maxLen = p[i];
start = (i - maxLen) / 2;
}
}
return s.substring(start, start + maxLen);
}
/**
* 创建预处理字符串
*
* @param s 原始字符串
* @param divide 分隔字符
* @return 使用分隔字符处理以后得到的字符串
*/
private String addBoundaries(String s, char divide) {
int len = s.length();
if (len == 0) {
return "";
}
if (s.indexOf(divide) != -1) {
throw new IllegalArgumentException("参数错误,您传递的分割字符,在输入字符串中存在!");
}
StringBuilder stringBuilder = new StringBuilder();
for (int i = 0; i < len; i++) {
stringBuilder.append(divide);
stringBuilder.append(s.charAt(i));
}
stringBuilder.append(divide);
return stringBuilder.toString();
}
}
复杂度分析
时间复杂度:O(N),由于 Manacher 算法只有在遇到还未匹配的位置时才进行匹配,已经匹配过的位置不再匹配,因此对于字符串 S
的每一个位置,都只进行一次匹配,算法的复杂度为 O(N)。空间复杂度:O(N)。
后记
英特尔推出世界最大 FPGA 芯片;任正非表示华为尚未直接和美国公司商谈5G技术授权;OpenTitan开源…… 华为人到底几点钟下班? 当区块链遇上AI,是1+1大于2还是空负一场相遇?
如何写出极致的代码?支付宝程序员有话说 ICLR 2020被爆半数审稿人无相关领域经验,同行评审制度在垮塌?
四项第一!这款芯片让全世界嫉妒!