当前位置:首页 > 开发 > 编程语言 > 编程 > 正文

[多字符串匹配-后缀数组]poj 3450:Corporate Identity

发表于: 2012-02-14   作者:暴风雪   来源:转载   浏览次数:
摘要: 大致题意:    给你n个字符串,求出这n个字符串的最长公共子串。注意这里最长公共子串不是DP里面的LCS,这里必须要连续。   大致思路:     后缀数组的典型运用。首先把这些字符串相连在一起,中间用分隔符隔开,二分枚举公共子串长度。查看是否存在相邻的个后缀,他们分别属于n个字符串,且它们之间的最长公共前缀长度(height)大于枚举的长

大致题意:
    给你n个字符串,求出这n个字符串的最长公共子串。注意这里最长公共子串不是DP里面的LCS,这里必须要连续。

 

大致思路:

    后缀数组的典型运用。首先把这些字符串相连在一起,中间用分隔符隔开,二分枚举公共子串长度。查看是否存在相邻的个后缀,他们分别属于n个字符串,且它们之间的最长公共前缀长度(height)大于枚举的长度

 

 

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;
const int nMax = 200001;

int  num[nMax];
int sa[nMax], rank[nMax], height[nMax];
int wa[nMax], wb[nMax], wv[nMax], wd[nMax];

int cmp(int *r, int a, int b, int l){
    return r[a] == r[b] && r[a+l] == r[b+l];
}

void da(int *r, int n, int m){          //  倍增算法 r为待匹配数组  n为总长度 m为字符范围
    int i, j, p, *x = wa, *y = wb, *t;
    for(i = 0; i < m; i ++) wd[i] = 0;
    for(i = 0; i < n; i ++) wd[x[i]=r[i]] ++;
    for(i = 1; i < m; i ++) wd[i] += wd[i-1];
    for(i = n-1; i >= 0; i --) sa[-- wd[x[i]]] = i;
    for(j = 1, p = 1; p < n; j *= 2, m = p){
        for(p = 0, i = n-j; i < n; i ++) y[p ++] = i;
        for(i = 0; i < n; i ++) if(sa[i] >= j) y[p ++] = sa[i] - j;
        for(i = 0; i < n; i ++) wv[i] = x[y[i]];
        for(i = 0; i < m; i ++) wd[i] = 0;
        for(i = 0; i < n; i ++) wd[wv[i]] ++;
        for(i = 1; i < m; i ++) wd[i] += wd[i-1];
        for(i = n-1; i >= 0; i --) sa[-- wd[wv[i]]] = y[i];
        for(t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i ++){
            x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p - 1: p ++;
        }
    }
}

void calHeight(int *r, int n){           //  求height数组。
    int i, j, k = 0;
    for(i = 1; i <= n; i ++) rank[sa[i]] = i;
    for(i = 0; i < n; height[rank[i ++]] = k){
        for(k ? k -- : 0, j = sa[rank[i]-1]; r[i+k] == r[j+k]; k ++);
    }
}

int loc[nMax],m;
char str[nMax],res[nMax];
bool vis[1004];

bool check(int mid,int len){
    int i,j,tot;
    tot=0;
    memset(vis,0,sizeof(vis));
    for(i=2;i<=len;i++){
        if(height[i]<mid){
            memset(vis,0,sizeof(vis));
            tot=0;
        }
        else{
            if(!vis[loc[sa[i-1]]]){
                vis[loc[sa[i-1]]]=1;
                tot++;
            }
            if(!vis[loc[sa[i]]]){
                vis[loc[sa[i]]]=1;
                tot++;
            }
            if(tot==m){
                for(j=0;j<mid;j++){
                    res[j]=num[sa[i]+j]+'a'-1;
                }res[mid]='\0';
                return 1;
            }
        }
    }
    return 0;
}

int main(){
    int n,k,i,j,a,b,sp,ans;
    while(scanf("%d",&m)&&m){
        sp=29;    //分隔符
        n=0;
        ans=0;
        for(i=1;i<=m;i++){
            scanf("%s",str);
            for(j=0;str[j];j++){
                loc[n]=i;
                num[n++]=str[j]-'a'+1;
            }
            loc[n]=sp;
            num[n++]=sp++;
        }
        num[n]=0;
        da(num, n + 1, sp);
        calHeight(num,n);
        int left=0,right=strlen(str),mid;//开始二分
        while(right>=left){
            mid=(right+left)/2;
            if(check(mid,n)){         //判断长度为mid的串是否是所有字符串的公共子串
                left=mid+1;
                ans=mid;
            }
            else{
                right=mid-1;
            }
        }
        if(ans!=0){
            printf("%s\n",res);
        }
        else{
            printf("IDENTITY LOST\n");
        }
    }
    return 0;
}

[多字符串匹配-后缀数组]poj 3450:Corporate Identity

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
The protection of visual identity is probably one of the most important issues when it comes
http://poj.org/problem?id=3693 题意:给出一串字符,需要求这串字符中的最长重复子串,要是有多个
http://poj.org/problem?id=1743 题意:给出一串字符,求不重合的最长重复子串.......... 我自己的
大致题意: 给出两个长度均不大于100000的字符串,求出这两个字符串的最长公共子串。 大致思路: 具
一、后缀数组 及其对应的名次数组 举例:S=" B A C $ " , 后缀数组长度为n-1= 3 , 假定'$'<字符
一、后缀数组 及其对应的名次数组 举例:S=" B A C $ " , 后缀数组长度为n-1= 3 , 假定'$'<字符
什么是后缀数组 后缀树(Suffix tree)是一种数据结构,能快速解决很多关于字符串的问题,缺点是算
后缀数组 1 背景   后缀数组是处理字符串问题的有效算法,如最长公共字串,最长回文字串,重复次
1 背景   后缀数组是处理字符串问题的有效算法,如最长公共字串,最长回文字串,重复次数最多的字
1.简介 ‍ 后缀数组是处理字符串的有力工具。后缀数组是后缀树的一个非常精巧的替代品,它比后缀树
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号