当前位置:首页 > 开发 > 开源软件 > 正文

jsearch的索引文件结构

发表于: 2015-05-19   作者:yangshangchuan   来源:转载   浏览:
摘要: jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。   jsearch的索引文件结构定义如下:     1、一个词的索引由=分割的三部分组成:        第一部分是词        第二部分是这个词在多少

jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。

 

jsearch的索引文件结构定义如下:

    1、一个词的索引由=分割的三部分组成:
        
第一部分是词
        
第二部分是这个词在多少个文档中出现过(上限1000
        
第三部分是倒排表
    2
、倒排表由多个倒排表项目组成,倒排表项目之间使用|分割
    3
、倒排表项目的组成又分为三部分,用_分割:
        
第一部分是文档ID
        
第二部分是词频
        
第三部分是词的位置
    4
、词的位置用:分割
    
    
例如:
    shingles=31=47466_1_2|1_1_6|1_1_1|2_1_5|67_1_1|903_1_3|17_1_5|1_3_4:6:11
    
表示词 shingles 的索引:
    
词:shingles
    
 31 个文档包含 shingles 这个词
    
包含这个词的第一篇文档的ID47466
    shingles 
的词频是1,出现 shingles 的位置是2
    
文档内容为:
    A better solution is to use shingles, which are compound tokens created 
    from multiple adjacent tokens.
    
对文档内容进行分词并移除停用词之后的结果为:
    [solution, shingles, compound, tokens, created, multiple, adjacent, tokens]
    
    
包含这个词的第二篇文档的ID47466+1=47467
    shingles 
的词频是1,出现 shingles 的位置是6
    
文档内容为:
    Lucene has a sandbox module that simplifies adding shingles to your index, 
    described in section 8.3.2
    
对文档内容进行分词并移除停用词之后的结果为:
    [lucene, sandbox, module, simplifies, adding, shingles, index, section]
    
    
包含这个词的第八篇文档的ID47466+1+1+2+67+903+17+1=48458
    shingles 
的词频是3,出现 shingles 的位置分别是4611
    
文档内容为:
    For example the sentence “please divide this sentence into shingles” 
    might be tokenized into the shingles “please divide”, “divide this”, 
    “this sentence”, “sentence into” and “into shingles”
    
对文档内容进行分词并移除停用词之后的结果为:
    [sentence, divide, sentence, shingles, tokenized, shingles, divide, divide, sentence, sentence, shingles]
    
    
这里需要注意的是位置不是和原文一一对应的,而是和去除停用词后的位置一一对应的
    停用词的定义看这里的链接
分词使用word分词提供的针对纯英文文本的分词器

 

   
    

 

 

 

jsearch的索引文件结构

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
Lucene使用文件扩展名标识不同的索引文件。 如 .fnm文件存储域Fields名称及其属性, .fdt存储文档各
首先理解反向索引(Inverted index)这个概念,反向索引是一种以索引项为中心来组织文档的方式,每个
关键字: lucene 索引文件 结构 分析 首先理解反向索引(Inverted index)这个概念,反向索引是一种
lucence的索引结构是一种反向索引结构,什么是反向索引结构(inverted index)呢,反向索引是以索引
上一篇:WEBUS2.0 In Action - 解析索引文件结构(1) | 下一篇:WEBUS2.0 In Action - 索引操作指
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/42836309 前面我们已经介绍了
SQL索引学习-索引结构 前一阵无意中和同事讨论过一个SQL相关的题(通过一个小问题来学习SQL关联查询)
BLEVEL* NUMBER B*-Tree level: depth of the index from its root block to its leaf blocks. A de
Lucene 源码剖析 3.3 每个Segment包含的文件 剩下的文件(remaining files<span style="font-siz
Lucene源代码剖析 3.3.3 Term频率数据(.frq) Term频率数据文件(.frq文件)存储容纳了每一个term
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号