sphinx 由于中文分词效果不佳,于是就有国内牛人给它改装了,sphinx-for-chinese(简称sfc)就是其中一个。
sphinx-for-chinese采用的分词方法是预设字典,将文本字典转换成二进制后载入内存,作为分词依据,如果分词效果不好,可以根据需要调整词典,性能据称达到官方版的一半。
sfc官网没有提供rpm包,我的包安装方便,集成了字典,初始化时需要生成字典,务必检查字典源文件是utf-8格式的,见下文。
环境CentOS 6.5 X64
安装步骤
yum install yum-utils -yrpm -ivh sphinx-for-chinese-2.2.1-r4311.el6.src.rpmyum-builddep ~/rpmbuild/SPECS/sphinx-for-chinese.specrpmbuild -ba ~/rpmbuild/SPECS/sphinx-for-chinese.specrpm -ivh ~/rpmbuild/RPMS/x86_64/sphinx-for-chinese-2.2.1-r4311.el6.x86_64.rpm
准备字典,将文本字典转换成二进制
yum install dos2unix -ycd /etc/xdicttar zxvf xdict_1.1.tar.gzdos2unix xdict_1.1.txt/usr/bin/mkdict xdict_1.1.txt xdict.bin
确保在/etc/sphinx/sphinx.conf 的index 段中包含下面三行配置
charset_type = utf-8chinese_dictionary = /etc/xdict/xdict.binngram_len = 1
附件有点大,超过了博客附件限制,请移步百度网盘下载
其他配置,参见官方