当前位置:首页 > 开发 > 开源软件 > 正文

中科院分词系统 ICTCLAS2013 添加新词功能

发表于: 2013-06-13   作者:cjp1989   来源:转载   浏览次数:
摘要:    最近使用ictclas2013版,又名NLPIR汉语分词系统。在分词过程中,总会出现分词不准确的原因,造成很多本来是应该在一起的词,变成了拆分开了的词语,造成了提取关键词的非常不便利。不过幸好ictclas2013版有个新词添加功能。如果不知道怎么加入ictclas2013到项目中,请参考 中科院分词ictclas2013使用java调用    &

   最近使用ictclas2013版,又名NLPIR汉语分词系统。在分词过程中,总会出现分词不准确的原因,造成很多本来是应该在一起的词,变成了拆分开了的词语,造成了提取关键词的非常不便利。不过幸好ictclas2013版有个新词添加功能。如果不知道怎么加入ictclas2013到项目中,请参考

中科院分词ictclas2013使用java调用

      首先查看NLPIR分词系统接口说明文档: NLPIR_AddUserWord(byte[] str) ,这个就是加入新词的方法。如果按照上面的介绍,以及参考了网上一些相关的介绍,但是始终没有配置成功。仔细想想,str.getBytes();方法是有编码格式的,而记得java调用分词都是设置了编码格式为:"GB2312",所以新词添加一定要记得设置编码格式。

 

public static void main(String[] args)
	{
		try
		{
			String sInput = "张华平推出的NLPIR分词系统,又名ICTCLAS2013,新增新词识别、关键词提取、微博分词功能。";
			NLPIR testNLPIR = new NLPIR();
			String argu = "./file/";
			System.out.println("初始化ictclas2013分词系统");
			if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false)
			{
				System.out.println("Init Fail!");
				return;
			}
			/**
			 * 1.添加新词,注意\t是tab键,你也可以用tab键:"分词系统	nn"
			 * 2.getBytes的编码格式统一设置GB2312,否则无法识别新词
			 * 3.新词的词性可以自己添加,这里nn表示了新词
			 */
			String s = "分词系统\tnn";
		    byte[] ret = s.getBytes("GB2312");
		    testNLPIR.NLPIR_AddUserWord(ret);
		    
		    /**
		     * 1.这是永久保存在用户字典中,UserDIct.pdat会增加大小
		     */
//		    testNLPIR.NLPIR_SaveTheUsrDic();
		    
		    /**
		     * 1.去除新词,只需要使用:"分词系统"
		     * 2.去除新词编码格式也必须:"GB2312",否则无法移除新词
		     */
//			String ss = "分词系统";
//			byte[] ress = ss.getBytes("GB2312");
//			testNLPIR.NLPIR_DelUsrWord(ress);
		    
			//执行分词过程
			byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("GB2312"), 1);
			String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
			System.out.println("分词结果为: " + nativeStr);
			testNLPIR.NLPIR_Exit();
			
		}
		catch (Exception ex)
		{
			ex.printStackTrace();
		} 


	}

 

 

中科院分词系统 ICTCLAS2013 添加新词功能

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
ICTCLAS,网址:http://www.ictclas.org 中科院计算所ICTCLAS 5.0 ICTCLAS的含义是: Institute of Com
摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地
ICTCLAS,网址:http://www.ictclas.org 中科院计算所ICTCLAS 5.0 ICTCLAS的含义是: Institute of Com
ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是
ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是
盘古分词--功能简介 作者:eaglet 两年前我开发了一个KTDictSeg 中文分词组件,这个组件推出2年来受
盘古分词--功能简介 作者:eaglet 两年前我开发了一个KTDictSeg 中文分词组件,这个组件推出2年来受
http://www.cnblogs.com/eaglet/archive/2009/08/13/1545420.html 盘古分词--功能简介 Posted on 20
1.下载中文分词器IKAnalyzer 地址:http://code.google.com/p/ik-analyzer/downloads/list 2.修改sc
参考别人的文章:http://www.52itstyle.com/thread-2476-1-1.html cdh最难找的就是solr\WEB-INF\lib
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号