当前位置:  软件>java软件

elasticsearch-analysis-jieba

    来源:    发布时间:2015-01-03

    本文导语:  结巴分词插件(for elasticsearch),目前支持0.90.*以上版本 ---------------------------------------------------- | Jieba Chinese Analysis Plugin | ElasticSearch | ---------------------------------------------------- | 0.0.1-SNAPSHOT (master) | 0.90.* | ---------------...

结巴分词插件(for elasticsearch),目前支持0.90.*以上版本

----------------------------------------------------
| Jieba Chinese Analysis Plugin | ElasticSearch    |
----------------------------------------------------
| 0.0.1-SNAPSHOT (master)       | 0.90.*           |
----------------------------------------------------

支持两种分词模式(seg_mode):

  • index 索引模式,搜索引擎建立索引阶段使用该模式
  • search 搜索模式,搜索时采用该种模式分词
  • 使用说明

    创建mapping

    #!/bin/bash curl -XDELETE '0:9200/test/';echo curl -XPUT '0:9200/test/' -d ' {  "index" : {  "number_of_shards": 1,  "number_of_replicas": 0,  "analysis" : {  "analyzer" : {  "jieba_search" : {  "type" : "jieba",  "seg_mode" : "search",  "stop" : true  },  "jieba_index" : {  "type" : "jieba",  "seg_mode" : "index",  "stop" : true  }  }  }  } }';echo 

    test

    # index mode curl '0:9200/test/_analyze?analyzer=jieba_index' -d '中华人民共和国';echo 

    结果:

    { "tokens": [ { "token": "中华", "start_offset": 0, "end_offset": 2, "type": "word", "position": 1 }, { "token": "华人", "start_offset": 1, "end_offset": 3, "type": "word", "position": 2 }, { "token": "人民", "start_offset": 2, "end_offset": 4, "type": "word", "position": 3 }, { "token": "共和", "start_offset": 4, "end_offset": 6, "type": "word", "position": 4 }, { "token": "共和国", "start_offset": 4, "end_offset": 7, "type": "word", "position": 5 }, { "token": "中华人民共和国", "start_offset": 0, "end_offset": 7, "type": "word", "position": 6 } ] } 
    # search mode curl '0:9200/test/_analyze?analyzer=jieba_search' -d '中华人民共和国';echo 

    结果:

    { "tokens": [ { "token": "中华人民共和国", "start_offset": 0, "end_offset": 7, "type": "word", "position": 1 } ] } 

        
     
     

    您可能感兴趣的文章:

     
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3