导航:首页 > 安装方法 > 分词器的安装方法

分词器的安装方法

发布时间：2022-07-05 00:42:14

A. 如何在Elasticsearch中安装中文分词器和拼音分词器

Elasticsearch是一个全文搜索引擎。安装Elasticsearch时需要先安装Java。要求的jdk版本1.7以上的。以下是官方文档：.Specificallyasofthiswriting,

B. 分词器是什么

分词器，是将用户输入的一段文本，分析成符合逻辑的一种工具。到目前为止呢，分词器没有办法做到完全的符合人们的要求。和我们有关的分词器有英文的和中文的英文的分词器过程：输入文本-关键词切分-去停用词-形态还原-转为小写中文的分词器分为：单子分词例：中国人分成中，国，人二分法人词:例中国人：中国，国人词典分词：有基本的语意来进行分词的，例：中国人分成中国，国人，中国人，现在用的是极易分词和庖丁分词。停用词：不影响语意的词。网上有很多说分词器效果的，我在这里就不进行多说了

C. 如何读取elasticsearch的分词索引信息

一、插件准备
网上有介绍说可以直接用plugin -install medcl/elasticsearch-analysis-ik的办法，但是我执行下来的效果只是将插件的源码下载下来，elasticsearch只是将其作为一个_site插件看待。
所以只有执行maven并将打包后的jar文件拷贝到上级目录。（否则在定义mapping的analyzer的时候会提示找不到类的错误）。
由于IK是基于字典的分词，所以还要下载IK的字典文件，在medcl的elasticsearch-RTF中有，可以通过这个地址下载：
http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip
下载之后解压缩到config目录下。到这里，你可能需要重新启动下elasticsearch，好让下一部定义的分词器能立即生效。

二、分词定义
分词插件准备好之后就可以在elasticsearch里定义（声明）这个分词类型了（自带的几个类型，比如standred则不需要特别定义）。跟其他设置一样，分词的定义也可以在系统级（elasticsearch全局范围），也可以在索引级（只在当前index内部可见）。系统级的定义当然是指在conf目录下的
elasticsearch.yml文件里定义，内容大致如下：
index:
analysis:
analyzer:
ikAnalyzer:
alias: [ik]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或者 index.analysis.analyzer.ik.type : "ik"

因为个人喜好，我并没有这么做，而是定义在了需要使用中文分词的index中，这样定义更灵活，也不会影响其他index。
在定义analyze之前，先关闭index。其实并不需要关闭也可以生效，但是为了数据一致性考虑，还是先执行关闭。（如果是线上的系统需要三思）

curl -XPOST http://localhost:9400/application/_close
(很显然，这里的application是我的一个index）

然后执行：
curl -XPUT localhost:9400/application/_settings -d '
{
"analysis": {
"analyzer":{
"ikAnalyzer":{
"type":"org.elasticsearch.index.analysis.IkAnalyzerProvider",
"alias":"ik"
}
}
}
}
'
打开index：

curl -XPOST http://localhost:9400/application/_open

到此为止一个新的类型的分词器就定义好了，接下来就是要如何使用了

或者按如下配置
curl -XPUT localhost:9200/indexname -d '{
"settings" : {
"analysis" : {
"analyzer" : {
"ik" : {
"tokenizer" : "ik"
}
}
}
},
"mappings" : {
"article" : {
"dynamic" : true,
"properties" : {
"title" : {
"type" : "string",
"analyzer" : "ik"
}
}
}
}
}'
如果我们想返回最细粒度的分词结果，需要在elasticsearch.yml中配置如下：

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_smart:
type: ik
use_smart: true
ik_max_word:
type: ik
use_smart: false

三、使用分词器
在将分词器使用到实际数据之前，可以先测验下分词效果：
http://localhost:9400/application/_analyze?analyzer=ik&text=中文分词
分词结果是：
{
"tokens" : [ {
"token" : "中文",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
}, {
"token" : "分词",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
} ]
}
与使用standard分词器的效果更合理了：
{
"tokens" : [ {
"token" : "中",
"start_offset" : 0,
"end_offset" : 1,
"type" : "<IDEOGRAPHIC>",
"position" : 1
}, {
"token" : "文",
"start_offset" : 1,
"end_offset" : 2,
"type" : "<IDEOGRAPHIC>",
"position" : 2
}, {
"token" : "分",
"start_offset" : 2,
"end_offset" : 3,
"type" : "<IDEOGRAPHIC>",
"position" : 3
}, {
"token" : "词",
"start_offset" : 3,
"end_offset" : 4,
"type" : "<IDEOGRAPHIC>",
"position" : 4
} ]
}
新的分词器定义完成，工作正常后就可以在mapping的定义中引用了，比如我定义这样的type：
curl localhost:9400/application/article/_mapping -d '
{
"article": {
"properties": {
"description": {
"type": "string",
"indexAnalyzer":"ikAnalyzer",
"searchAnalyzer":"ikAnalyzer"
},
"title": {
"type": "string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
'
很遗憾，对于已经存在的index来说，要将一个string类型的field从standard的分词器改成别的分词器通常都是失败的：
{
"error": "MergeMappingException[Merge failed with failures {[mapper [description] has different index_analyzer, mapper [description] has
different search_analyzer]}]",
"status": 400
}
而且没有办法解决冲突，唯一的办法是新建一个索引，并制定mapping使用新的分词器（注意要在数据插入之前，否则会使用elasticsearch默认的分词器）
curl -XPUT localhost:9400/application/article/_mapping -d '
{
"article" : {
"properties" : {
"description": {
"type": "string",
"indexAnalyzer":"ikAnalyzer",
"searchAnalyzer":"ikAnalyzer"
},
"title": {
"type": "string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
至此，一个带中文分词的elasticsearch就算搭建完成。想偷懒的可以下载medcl的elasticsearch-RTF直接使用，里面需要的插件和配置基本都已经设置好。
------------
标准分词（standard）配置如下：

curl -XPUT localhost:9200/local -d '{
"settings" : {
"analysis" : {
"analyzer" : {
"stem" : {
"tokenizer" : "standard",
"filter" : ["standard", "lowercase", "stop", "porter_stem"]
}
}
}
},
"mappings" : {
"article" : {
"dynamic" : true,
"properties" : {
"title" : {
"type" : "string",
"analyzer" : "stem"
}
}
}
}
}'

index:local
type:article
default analyzer:stem (filter:小写、停用词等)
field:title
测试：

# Sample Analysis
curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Fight for your life}'
curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Bruno fights Tyson tomorrow}'

# Index Data
curl -XPUT localhost:9200/local/article/1 -d'{"title": "Fight for your life"}'
curl -XPUT localhost:9200/local/article/2 -d'{"title": "Fighting for your life"}'
curl -XPUT localhost:9200/local/article/3 -d'{"title": "My dad fought a dog"}'
curl -XPUT localhost:9200/local/article/4 -d'{"title": "Bruno fights Tyson tomorrow"}'

# search on the title field, which is stemmed on index and search
curl -XGET localhost:9200/local/_search?q=title:fight

# searching on _all will not do anystemming, unless also configured on the mapping to be stemmed...
curl -XGET localhost:9200/local/_search?q=fight

例如：

Fight for your life

分词如下：

{"tokens":[
{"token":"fight","start_offset":1,"end_offset":6,"type":"<ALPHANUM>","position":1},<br>
{"token":"your","start_offset":11,"end_offset":15,"type":"<ALPHANUM>","position":3},<br>
{"token":"life","start_offset":16,"end_offset":20,"type":"<ALPHANUM>","position":4}
]}

-------------------另一篇--------------------
ElasticSearch安装ik分词插件

一、IK简介
IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
IK Analyzer 2012特性:
1.采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；
2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。
3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符
5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

二、安装IK分词插件
假设读者已经安装好ES，如果没有的话，请参考ElasticSearch入门 —— 集群搭建。安装IK分词需要的资源可以从这里下载，整个安装过程需要三个步骤：
1、获取分词的依赖包
通过git clone https://github.com/medcl/elasticsearch-analysis-ik，下载分词器源码，然后进入下载目录，执行命令：mvn clean package，打包生成elasticsearch-analysis-ik-1.2.5.jar。将这个jar拷贝到ES_HOME/plugins/analysis-ik目录下面，如果没有该目录，则先创建该目录。
2、ik目录拷贝
将下载目录中的ik目录拷贝到ES_HOME/config目录下面。
3、分词器配置
打开ES_HOME/config/elasticsearch.yml文件，在文件最后加入如下内容：

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
或
index.analysis.analyzer.default.type: ik

ok！插件安装已经完成，请重新启动ES，接下来测试ik分词效果啦！
三、ik分词测试
1、创建一个索引，名为index。

curl -XPUT http://localhost:9200/index

2、为索引index创建mapping。

curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"analyzer": "ik"
},
"properties": {
"content": {
"type" : "string",
"boost" : 8.0,
"term_vector" : "with_positions_offsets",
"analyzer" : "ik",
"include_in_all" : true
}
}
}
}'

3、测试

curl 'http://localhost:9200/index/_analyze?analyzer=ik&pretty=true' -d '
{
"text":"世界如此之大"
}'

显示结果如下：
{
"tokens" : [ {
"token" : "text",
"start_offset" : 4,
"end_offset" : 8,
"type" : "ENGLISH",
"position" : 1
}, {
"token" : "世界",
"start_offset" : 11,
"end_offset" : 13,
"type" : "CN_WORD",
"position" : 2
}, {
"token" : "如此",
"start_offset" : 13,
"end_offset" : 15,
"type" : "CN_WORD",
"position" : 3
}, {
"token" : "之大",
"start_offset" : 15,
"end_offset" : 17,
"type" : "CN_WORD",
"position" : 4
} ]
}

D. solr具体怎么处理分词

分词器的工作是将一串的文本切成 tokens，这些 token 一般是文本的子集。分析器的处理对象时一个字段，分词器则是面对一串文本，分词器读取一串文本，然后将其切割成一堆的 token 对象。

字符串中的空格或连接符会被删除。字符将被添加或者替换，如映射别名，或者缩写替换缩写为正常格式。分词器可能会产生出与原字段值不一致的token，或者长度与原始文本不一致。这个在token元数据用于文本字段高亮搜索结果时需要注意。

<</code>fieldTypename="text"class="solr.TextField">
<</code>analyzer>
<</code>tokenizerclass="solr.StandardTokenizerFactory"/>
</</code>analyzer>
</</code>fieldType>

元素的类名称不是一个真实的分词器，但是它指向一个实现了org.apache.solr.analysis.TokenizerFactory接口的类。这个工厂在需要的时候会创建一个分词器的实例。工厂创建出来的对象必须继承org.apache.lucene.analysis.TokenStream.

E. 如何使用elasticsearch构建企业级

Elasticsearch实现全文检索，首先要确定分词器，ES默认有很多分词器，可参考官方文档。了解分词器主要是怎么实现的。
一般中文分词器使用第三方的ik分词器、mmsegf分词器和paoding分词器，最初可能构建于lucene，后来移植于ES。目前我们在最新版的ES中，使用的是IK分词。
安装ik分词器到elasticsearch很简单，它有个插件目录analysis-ik，和一个配置目录ik, 分别拷贝到plugins和conf目录就可以了。
当你有大量的文本数据时，ES均会将其进行分词并将这些词语保存在索引中，当输入关键词进行查询时，索引就会起到作用，查找对应的相同的查询词，从而实现全文检索。当然这个过程是很吃内存的。

F. 如何把ES-analysis分词器打成jar包导入至Eclipse，小白初学，求大神给个详细打包过程！

Eclipse到处jar包

第一：普通类导出jar包，我说的普通类就是指此类包含main方法，并且没有用到别的jar包。

1.在eclipse中选择你要导出的类或者package，右击，选择Export子选项；

2.在弹出的对话框中，选择Java文件---选择JAR file，单击next；

3.在JAR file后面的文本框中选择你要生成的jar包的位置以及名字，注意在Export generated class files and resources和Export Java source files and resources前面打上勾，单击next;

4.单击两次next按钮，到达JAR Manifest Specification。注意在最底下的Main class后面的文本框中选择你的jar包的入口类。单击Finish，完成。

你可以在dos环境下，进入你的jar所在的目录，运行 java -jar 名字.jar，检测运行是否正确。
运行cmd->进入jar目录->java–jar文件名.jar

第二、你所要导出的类里边用到了别的jar包。比如说你写的类连接了数据库，用到数据库驱动包oracl.jar.。

1.先把你要导出的类按照上面的步骤导出形成jar包，比如叫test.jar

2.新建一个文件夹main，比如在D盘根目录下；

3.把test.jar和oracl.jar拷贝到main文件下，右击test.jar，解压到当前文件夹。把META-INF\MANIFEST.MF剪切到另外一个地方（比如是桌面！）；

4.右击oracl.jar，解压到当前文件夹。

5.在dos环境下，进入到D盘的main文件夹下，执行 jar cvfm new.jar meta-inf/manifest.mf .，不要忘了最后面的点。

6.用压缩工具打开你新生成的new.jar，用你放在桌面的META-INF\MANIFEST.MF覆盖new.jar原有。

你可以在dos环境下，进入你的jar所在的目录，运行 java -jar 名字.jar，检测运行是否正确。

G. solr ext.dic哪里有

1、将解压包中的solr-4.7.1/dist/solr-4.7.1.war复制到tomcat_dir/webapps/目录，并命名为solr.war。
2、将solr-4.7.1/example/lib/ext/目录下的jar文件复制到tomcat/lib目录下，将solr-4.7.1/example/resources/下的log4j.properties文件复制到tomcat_dir/lib目录下;
切把 solr-4.7.1/example/solr，复制到tomcat_dir/bin下。
3、修改tomcat_dir/conf/server.xml
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8" />
4、创建solr.xml，存放在路径：tomcat/conf/Catalina/localhost/solr.xml，内容：
<Context path="/solr" docBase="C:\Tomcat 7.0\webapps\solr.war"
debug="0" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="C:\Tomcat 7.0\bin\solr\" override="true" />
</Context>
PS：上面的docBase和value路径中不能存在中文字符，否则会出现404错误。
5、将C:\Tomcat 7.0\webapps下的solr.war包，启动项目解压；然后再添加几个jar包：
solr-4.7.1\dist\solr-dataimporthandler-4.7.1.jar;
solr-4.7.1\dist\solr-dataimporthandler-extras-4.7.1.jar;
还要加载数据库驱动包：mysql-connector-java-3.1.13-bin.jar
6、在C:\Tomcat 7.0\bin\solr\collection1\conf 下的solrconfig.xml增加以下数据库配置：
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
7、将tomcat\bin\solr\collection1\conf下增加data-config.xml文件，内容如下：
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://192.168.1.221:3306/tmsdb"
user="root"
password="123456"/>
<document name="content">
<entity name="node" query="select id,author,title,content from solrdb">
<field column="id" name="id" />
<field column="author" name="author" />
<field column="title" name="title" />
<field column="content" name="content" />
</entity>
</document>
</dataConfig>
8、增加中文分词器，ik-analyzer的配置如下：
①目前的中文分词主要有两种
1，基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器，例如smartcn等。（不支持自定义扩展词库）
2，基于正向迭代最细粒度切分算法（正向最大匹配并且最细分词）例如IK，庖丁等（支持自定义扩展词库）
安装分词前，可以去下载IK的分词包：
IK-Analyzer-4.7.1-0.0.1-SNAPSHOT.jar
下载完毕后，将此包放进tomcat\solr的\WEB-INF\lib下面：tomcat\webapps\solr\WEB-INF\lib 。
下面需要在solr的schemal.xml进行分词器注册:

<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>


</analyzer>
<analyzer type="query">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>


</analyzer>
</fieldType>
最后还得配置一个引用字段就OK了
<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>
②它的安装部署十分简单，将IKAnalyzer2012.jar部署亍项目的lib目录中；IKAnalyzer.cfg.xml不stopword.dic文件放置在class根目录（对于web项目，通常是WEB-I NF/classes目彔，同hibernate、log4j等配置文件相同）下即可；然后配置solr4.7中schema.xml配置解析器：
<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>

H. elasticsearch为什么从2.x直接更新到5.x

为了ELK（ElasticSearch, logstash, kibana）技术栈的版本统一，免的给用户带来混乱。

I. 如何根据多语言自动选用不同的分词器

经测试ICUAnalyzer能处理多种语言的混合体，能识别语言，但分词效果不好，都是英文单词，中日韩单字，对俄文的支持就更弱了，会分解成单个字符；
SmartCNAnalyzer能处理中英文混合体，分词效果也不错，但缺点是对其他的语言支持不好；
要同时处理多语言混合体分词，这确实是个NLP难题，我的一种想法是实现一个Analyzer的Facade，实现二次分词：首先是进行一次WhiteSpaceAnalyzer分词，然后再对分词结果来调用不同语言的分词器来分词.

J. java web 怎么用solr

我们下载的Solr包后，进入Solr所在的目录，我们可以看到以下几个目录：build、client、dist、example、lib、site、src。下面分别对其进行介绍。
1) build：该目录是在ant build过程中生成的，其中包含了未被打包成jar或是war的class文件以及一些文档文件。
2) client：该目录包含了特定语言的Solr客户端API，使得使用其他语言的用户能通过HTTP用XML与Solr进行通话。现在该目录里面虽然包含javascript、python、ruby三个子目录，但是到目前为止只包含一部分的ruby的代码，其他语言仍是空的。另外，Solr的Java客户端称为SolrJ，其代码位于src/solrj目录下面。在之后的文章中我会详细介绍Solr客户端的使用。
3) dist：该目录包含build过程中产生的war和jar文件，以及相关的依赖文件。还记得上一篇文章中，我们在build 1.4版本的Solr源代码后需要部署example吗？其实就是将该目录下面的apache-solr-1.4.war部署到Jetty上面去，并重命名为solr.war。
4) example：这个目录实际上是Jetty的安装目录。其中包含了一些样例数据和一些Solr的配置。
其中一些子目录也比较重要，这里也对它们稍作介绍。
l example/etc：该目录包含了Jetty的配置，在这里我们可以将Jetty的默认端口从8983改为80端口。
l 将其中的8983端口换成80端口。注意更改端口后启动Jetty可能会提示你没有权限，你需要使用sudo java -jar start.jar来运行。
l example/multicore：该目录包含了在Solr的multicore中设置的多个home目录。在之后的文章中我会对其进行介绍。
l example/solr：该目录是一个包含了默认配置信息的Solr的home目录。
详见下面的“solr home说明”
l example/webapps：Jetty的webapps目录，该目录通常用来放置Java的Web应用程序。在Solr中，前面提到的solr.war文件就部署在这里。
5) lib：该目录包含了所有Solr的API所依赖的库文件。其中包括Lucene，Apache commons utilities和用来处理XML的Stax库。
6) site：该目录仅仅包含了Solr的官网的网页内容，以及一些教程的PDF文档。
7) src：该目录包含了Solr项目的整个源代码。这里对其各个子目录也做相应的介绍。
l src/java：该目录存放的是Solr使用Java编写的源代码。
l src/scripts：该目录存放的是配置Solr服务器的Unix BashShell脚本，在后面介绍多服务器配置中将会有重要的作用。
l src/solrj：前面提到过该目录存放的是Solr的Java版本的客户端代码。
l src/test：该目录存放的是测试程序的源代码和测试文件。
l src/webapp：该目录存放的是管理Solr的Web页面，包括Servlet和JSP文件，其构成了前面提到的WAR文件。管理Solr的JSP页面在web/admin目录下面，如果你有兴趣折腾Solr可以找到相应的JSP的页面对其进行设置
1.4.2 Solr home说明
所谓的Solr home目录实际上是一个运行的Solr实例所对应的配置和数据（Lucene索引）。在上一篇文章中我提到过在Solr的example/solr目录就是一个Solr用做示例的默认配置home目录。实际上example/multicore也是一个合法的Solr home目录，只不过是用来做mult-core设置的。那么我们来看看example/solr这个目录里面都有些什么。
example/solr目录下主要有以下一些目录和文件：
1) bin：如果你需要对Solr进行更高级的配置，该目录建议用来存放Solr的复制脚本。
2) conf ：该目录下面包含了各种配置文件，下面列出了两个最为重要的配置文件。其余的.txt和.xml文件被这两个文件所引用，如用来对文本进行特殊的处理。
l conf/schema.xml：该文件是索引的schema，包含了域类型的定义以及相关联的analyzer链。
l conf/solrconfig.xml：该文件是Solr的主配置文件。
l conf/xslt：该目录包含了各种XSLT文件，能将Solr的查询响应转换成不同的格式，如：Atom/RSS等。
3) data：包含了Lucene的二进制索引文件。
4) lib：该目录是可选的。用来放置附加的Java JAR文件，Solr在启动时会自动加载该目录下的JAR文件。这就使得用户可以对Solr的发布版本（solr.war）进行扩展。如果你的扩展并不对Solr本身进行修改，那么就可以将你的修改部署到JAR文件中放到这里。

Solr是如何找到运行所需要的home目录的呢？
Solr首先检查名为solr.solr.home的Java系统属性，有几种不同的方式来设置该Java系统属性。一种不管你使用什么样的Java应用服务器或Servlet引擎都通用的方法是在调用Java的命令行中进行设置。所以，你可以在启动Jetty的时候显式地指定Solr的home目录java -Dsolr.solr.home=solr/ -jar start.jar。另一种通用的方法是使用JNDI，将home目录绑定到java:comp/env/solr/home。并向src/webapp/web/WEB-INF/web.xml添加以下一段代码：
1 <env-entry>
2 <env-entry-name>solr/home</env-entry-name>
3 <env-entry-value>solr/</env-entry-value>
4 <env-entry-type>java.lang.String</env-entry-type>
5 </env-entry>
实际上这段XML在web.xml文件中已经存在，你只需要把原来注释掉的xml取消注释，添加你所要指向的home目录即可。因为修改了web.xml文件，所以你需要运行antdist-war来重新打包之后再部署WAR文件。

最后，如果Solr的home目录既没有通过Java系统属性指定也没有通过JNDI指定，那么他将默认指向solr/。
在产品环境中，我们必须设置Solr的home目录而不是让其默认指向solr/。而且应该使用绝对路径，而不是相对路径，因为你有可能从不同的目录下面启动应用服务器。

注：Jetty 是一个开源的servlet容器，它为基于Java的web内容，例如JSP和servlet提供运行环境。Jetty是使用Java语言编写的，它的API以一组JAR包的形式发布。开发人员可以将Jetty容器实例化成一个对象，可以迅速为一些独立运行（stand-alone）的Java应用提供网络和web连接。

我们先从使用者的角度出发，最先看到的当然是servlet,因为Solr本身是个独立的网络应用程序，需要在Servlet容器中运行来提供服务，所以servlet是用户接触的最外层。我们看看org.apache.solr.servlet包。这个包很简单，只有两个类：SolrServlet和SolrUpdateServlet.我们很容易从类名中猜出这两个类的用途。
SolrServlet类继承HttpServlet类，只有四个方法：
· init()
· destroy()
· doGet()
· doPost()
SolrServlet类中除了普通的Java类对象（包括Servlet相关的）外，有四个Solr本身的类，还有一个Solr本身的异常。其中两个类和一个异常属于org.apache.solr.core包，两个类属于org.apache.solr.request包。属于core包的有：
· Config:
· SolrCore:
属于request包的有：
· SolrQueryResponse:
· QueryResponseWriter:
分析一下这个SolrServlet类。首先servlet会调用init()方法进行初始化：通过Context查找java:comp/env/solr/home来确定Solr的主目录（home），接着调用Config.setInstanceDir(home)方法设置这个实例的目录。然后通过SolrCore.getSolrCore()来获得一个SolrCore实例。destroy()方法将会在Servlet对象销毁时调用，仅仅调用core.close()关闭SolrCore实例。
当用户请求进来时doPost()简单地将任务交给doGet()完成，主要的任务由doGet()完成。分析一下doGet()方法：
1) 使用SolrCore和doGet()参数request生成一个SolrServletRequest对象(注意：这个SolrServletRequest类不是公开类，位于org.apache.solr.servlet包中，继承了SolrQueryRequestBase类，仅仅接受SolrCore和HttpServletRequest对象作为参数)
2) 然后SolrCore执行execute()方法（参数为SolrServletRequest和SolrQueryResponse）
由此可见，真正的处理核心是SolrCore的execute方法

阅读全文

与分词器的安装方法相关的资料

热点内容

国外手机截图方法发布：2025-05-14 22:14:19 浏览：701

现实suv侧方停车最简单的方法发布：2025-05-14 22:13:39 浏览：762

宽容哪些方法发布：2025-05-14 22:08:28 浏览：980

中考实心球的方法与技巧发布：2025-05-14 22:03:20 浏览：531

如何瘦脸练成瓜子脸的四种方法发布：2025-05-14 21:38:17 浏览：949

肾阳不足的锻炼方法发布：2025-05-14 21:31:09 浏览：576

新鲜莲子的食用方法视频发布：2025-05-14 21:30:58 浏览：807

如何降低敏感度训练方法发布：2025-05-14 21:29:37 浏览：20

三星5的qq红包铃声在哪里设置方法发布：2025-05-14 21:20:24 浏览：31

刷墙平米计算方法发布：2025-05-14 21:18:54 浏览：164

论文研究方法如何概括发布：2025-05-14 20:59:23 浏览：756

苹果手机网页提取文字的方法发布：2025-05-14 20:41:26 浏览：293

星露谷物语铁锭快速入手方法发布：2025-05-14 20:25:26 浏览：120

摩托机油尺正确的测量方法发布：2025-05-14 20:24:45 浏览：801

炸虾的正确方法图片发布：2025-05-14 20:19:51 浏览：429

a型血人最佳解压方法发布：2025-05-14 20:19:49 浏览：110

调整金牛座的最佳方法发布：2025-05-14 20:09:02 浏览：381

以实践为基础的研究方法及意义发布：2025-05-14 20:09:00 浏览：545

魅蓝拦截的信息在哪里设置方法发布：2025-05-14 19:23:31 浏览：403

雕刻牛字最简单的方法发布：2025-05-14 19:12:48 浏览：36