• django全文搜索学习心得(三)whoosh 篇


    上一篇是使用的solr,这篇主要介绍使用whoosh

    基于djang-haystack,咱们可以自由切换搜索引擎了。

    whoosh 的使用跟solr 基本一样 ,模板使用什么的都是一样的,主要是对whoosh 进行一些修改,让其支持中文。

    settings.py 的配置

    HAYSTACK_CONNECTIONS = {
        'default': {
            'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',
            'PATH': os.path.join(os.path.dirname(__file__), 'whoosh_index'),
            },
        }

    这里边使用主要参考http://blog.csdn.net/wenxuansoft/article/details/8170714 这篇文章,他给出了实际操作方法,很感谢啊。

    创建中文分析ChineseAnalyzer.py,保存到haystack的安装文件夹\Lib\site-packages\haystack\backends里面。内容如下:

    import jieba
    from whoosh.analysis import RegexAnalyzer
    from whoosh.analysis import Tokenizer,Token
    
    class ChineseTokenizer(Tokenizer):
        def __call__(self, value, positions=False, chars=False,
                     keeporiginal=False, removestops=True,
                     start_pos=0, start_char=0, mode='', **kwargs):
            #assert isinstance(value, text_type), "%r is not unicode" % value
            t = Token(positions, chars, removestops=removestops, mode=mode,
                **kwargs)
            seglist=jieba.cut(value,cut_all=True)
            for w in seglist:
                t.original = t.text = w
                t.boost = 1.0
                if positions:
                    t.pos=start_pos+value.find(w)
                if chars:
                    t.startchar=start_char+value.find(w)
                    t.endchar=start_char+value.find(w)+len(w)
                yield t
    
    def ChineseAnalyzer():
        return ChineseTokenizer()

    然后将\Lib\site-packages\haystack\backends里面的whoosh_backend.py复制为whoosh_cn_backend.py,

    打开whoosh_cn_backend.py进行修改。如下:

    #在whoosh_cn_backend.py里面
    .........
    from ChineseAnalyzer import ChineseAnalyzer
    .............
    #然后找到build_schema函数处,这是一个构建分词模式的
    #找到
    schema_fields[field_class.index_fieldname] = TEXT(stored=True, analyzer=StemmingAnalyzer(), field_boost=field_class.boost)

    将analyzer = StemmingAnalyzer() 更改为 analyzer = ChineseAnalyzer()

    这样就算完工了。

    运行

    python manage.py rebuild_index  创建索引
    python manage.py runserver 运行

    打开浏览器 http://127.0.0.1:8000 搜索试试。

    随缘
  • 相关阅读:
    AngularJs学习笔记Understanding the Controller Component
    AngularJs学习笔记Dependency Injection(DI,依赖注入)
    AngularJs学习笔记Forms
    AngularJs学习笔记Modules
    AngularJs学习笔记IE Compatibility 兼容老版本IE
    Oracle trigger Demo
    Debugging tips in VS
    Adding a Strong Name to an existing DLL that you don't have the source to
    Webservice
    Tips to import DB dump of a big size
  • 原文地址:https://www.cnblogs.com/chang/p/2855321.html
Copyright © 2020-2023  润新知