当前位置:首页 > 开发 > 系统架构 > 架构 > 正文

配置solr的schema.xml加入中文分词器

发表于: 2014-04-16   作者:alleni123   来源:转载   浏览次数:
摘要: solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml 1. 首先在<types></types>中加入fieldType。 这里使用mmseg. 在mmseg文件中, 打开readme.txt, 可以看到: [color=blue]5、在 com.chenlb.mmseg4j.
solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml

1. 首先在<types></types>中加入fieldType。

这里使用mmseg.
在mmseg文件中, 打开readme.txt, 可以看到:

[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFactory。
在 solr的 schema.xml 中定义 field type如:
<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
      </analyzer>
    </fieldType>

   
dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录),mode 指定分词模式(simple|complex|max-word,默认是max-word)。
[/color]

这里的dicPath是词库位置目录, 相对于solr.home目录。
所以要在solr/home目录中建立一个dic文件夹, 把词库文件放进去。

最后的dicPath是绝对路径。 没有的话就设置为dic即可

2. 将mmseg4j-all-1.8.5.jar放入到d:/lucene/solr/server/solr/WEB-INF/lib里。

3. 打开http://localhost:8080/solr/admin/analysis.jsp
选择type, 输入上面的fieldType name="xx"的xx值。

输入中文就可以进行分词了。



4. 设置field。
找到 <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
把type="text_general"修改为textComplex,那么我们建立的名为title的field,就会使用中文分词了。

配置solr的schema.xml加入中文分词器

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
配置solr4.9自带的中文分词器请看这片文章: http://www.cnblogs.com/qiyebao/p/3888181.html 配置
一共3个步骤 添加分词jar包 在schemal.xml文件中,注册分词器类型的fieldType 然后在schemal.xml中
首先将下载解压后的solr-4.9.0的目录里面F:\tools\开发工具\Lucene\solr-4.9.0\contrib\analysis-ex
Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格
\solr-4.3.0\dist\solr-4.3.0.war to D:\JobsDBSolr\solr-Example \solr-4.3.0\example\solr\* to D
标签: solrj 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明
一、下载solr 实验的版本:4.7.0 下载地址:http://mirrors.hust.edu.cn/apache/lucene/solr/4.7.0/
接上篇文章windows+tomcat7安装solr4.6.1 下载解压IK Analyzer 2012FF_hf1(下载列表注意ik的版本,
Solr多核心及分词器(IK)配置 多核心的概念 多核心说白了就是多索引库。也可以理解为多个"数据库表
原文地址:http://blog.csdn.net/fyfmfof/article/details/42122435 1. 准备工作 Solr4.10.2已经在T
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号