导航:首页 > 使用方法 > 全文搜索引擎使用方法

全文搜索引擎使用方法

发布时间:2022-05-26 05:18:41

⑴ 搜索引擎的工作过程包括以下哪些步骤

搜索引擎的整个工作过程包括三个部分:

1、抓取

搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么网络,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。

互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。它不停的向各种网站发送请求,将所得到的网页存储起来。

通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。有很多细节要被考虑。比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。

2、索引

索引就是帮助程序进行快速查找的。大家都用过英汉词典。字典前边的按照单词首字母排列的部分就是索引。搜索引擎也一样。这里要介绍第一个最重要的数据结构:反转列表。

搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。

每一个网络文档不仅只有文本信息。它还可能包括文件名,引用等部分。为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。每一部分的单词都要被加入到这个词属于此部分的反转列表里。

3、搜索

有了索引,就可以快速找到所需内容了。前边说过搜索引擎根据用户的信息需求查找匹配的内容。信息需求来自于用户输入。搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。

4、排序

用户输入的关键词,就可以查看到相关的内容了。这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。

排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。

⑵ 搜索引擎的主要功能及检索方法是什么

搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。
3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。

如何快速便捷巧妙的使用搜索引擎

1.使用逻辑词辅助查找
比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND(和)、OR(或)、NOT(否,有些是AND NOT)及NEAR(两个单词的靠近程度),恰当应用它们可以使结果非常精确,另外,也可以使用括号将搜索词分别组合,如在http://www.liszt.con(Liszt)里:((music or jazz) and e) not ("bill morrissey" or indiana)。
**********************************************************
**********************************************************
2.使用双引号进行精确查找
如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。例如在搜索引擎的Search(查询)框中输入"search engine",这会比输入search engine得到更少、更好的结果。如果按上述方法查不到任何结果,可以去掉双引号试试。
**********************************************************
**********************************************************
3.使用加减号限定查找
很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-)限定搜索结果不能包含的词汇。
**********************************************************
**********************************************************
4.有针对性地选择搜索引擎
用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,比如:Dejanews(http://www.dejanews.com)是专用于USENET的搜索引擎,而Liszt(http://www.liszt.com)则是针对邮递列表、IRC等的搜索引擎。
**********************************************************
**********************************************************
5.逐步细化法
按照搜索引擎的分类一层一层地点击下去,这对一些关键字不太确定的资料查询十分有效。Yahoo把网上的各种资料归类整理,分得很细,有休闲与运动、娱乐、健康与医药、艺术与人文等很多类别,而且有每一大类的链接进入后分成很多小类,一层一层地进入链接,分类也就越来越细,离你的目标也就越来越近。由于都是链接形式,所以使用起来又方便又简单,不用我多说了吧。
**********************************************************
**********************************************************
6.根据要求选择查询方法
如果需要快速找到一些相关性比较大的信息,可以使用目录式搜索引擎的查找功能,如使用Yahoo(http://www.yahoo.com)。如果想得到某一方面比较系统的资源信息,可以使用目录一级一级地进行查找。如果要找的信息比较冷门,应该用比较大的全文搜索引擎查找,如Altavista(http://www.altavista.digital.com/)或Hotbot(http://www.hotbot.com/)。
**********************************************************
**********************************************************
7.注意细节
在Internet上进行查询时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,如果您正在搜索人名或地名等关键词,应该正确使用它们的大小写字母形式。
**********************************************************
**********************************************************
8.利用搜索引擎的特性进行查找
不同的搜索引擎有一些专用的特性,应用它们可以使查询事半功倍,比如:若想知道某个新闻组上最近一段时间发表的文章,可以在Dejanews的查找框中输入"~g 组名",例如"~g comp.lang.java.programmer"。
**********************************************************
**********************************************************
9.使用多元搜索引擎
多元搜索引擎是一种只需输入一次关键词就可以对多个搜索引擎进行查询的搜索代理网站,如Searchspaniel(http://www.searchspaniel.com/)就可以同时对200多个搜索引擎进行查询。
**********************************************************
**********************************************************
10.利用选项界定查询
目前越来越多的搜索引擎开始提供更多的查询选项,利用这些选项人们可以轻松地构造比较复杂的搜索模式,进行更为精确的查询,并且能更好地控制查询结果的显示。
**********************************************************
**********************************************************
11.尽可能将搜索范围限制在特定的领域里
比如:在 Yahoo 中文网站中,你要查找的是与电脑相关的知识,那么你没有必要让搜索引擎在休闲与运动、健康与医药、艺术与人文等其他分类中查找。你可以进入“电脑与因特网”这一类,选中“检索此目录下的网站”。然后再开始搜索。
**********************************************************
**********************************************************
12.使用更特定的词汇
比如,不用“服装”,而用“西服”;不用“ flower ”而用“ rose ”。 但要尽可能删去一些同义词或近义词。
**********************************************************
**********************************************************
13.指定关键词出现的字段
在关键词前加t:,搜索引擎将仅在网站名称中查询,即只显示在网站名称中包含关键字的网站。
在关键词前加u:,搜索引擎将仅在网址(URL)中查询。
**********************************************************
**********************************************************
14.限制查询范围
范围限制的能力越强,则越能准确地找到需要的信息。搜索引擎提供的范围限制类型大体有分类范围、地域范围、时间范围、网站类型范围以及其他特殊范围。一些搜索引擎,提供了许多特殊范围的限定,如域名后缀(com、gov、org等)、文件类型(文本、图形、声音等)。这些范围限制、实现的方法各不相同:有些是通过在关键词前加特殊的字符,有些是通过下拉式菜单。
**********************************************************
**********************************************************
15.尽量少用空格
在输入汉字作关键词的时候,不要在汉字后追加不必要的空格,因为空格将被认作特殊操作符,其作用与AND一样。比如,你输入了这样的关键词“电 脑”,那么它不会被当作一个完整词“电脑”去查询,由于中间有空格,会被认为是需要查出所有同时包含“电”“脑”两个字的文档,这个范围就要比“电脑”作关键词的查询结果大多了,更重要的是它偏离了本来的含义。
**********************************************************
**********************************************************
16.修改IE浏览器的默认搜索引擎
在IE4.0/IE5.0的工具栏上,点击“搜索”图标,IE就会调用缺省的搜索引擎Excite为你检索。要想改变缺省的搜索引擎,你必须改动Win98的注册表。IE4.0修改方法是:关闭IE,打开注册表编辑器,找到[HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Main],在右侧窗格中双击“查找”,输入要改变的默认搜索引擎网址,例如把缺省搜索引擎改为google,此时就键入http://www.google.com/。
IE5.0/6.0修改方法是:打开注册表编辑器,找到[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Internet Explorer\Search],在右侧窗格中修改CustomizeSearch和SearchAssistant的内容,输入要改变的默认搜索引擎网址。
**********************************************************
**********************************************************
17.使用词组提速搜索
如果只给出一个单词进行搜索,那么将发现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND(与逻辑)结合起来,或者在每个词前面加上加号,这种与逻辑技术大大地缩小了命中范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样有语法。一个带引号的词组意味着只有完全匹配该词组(包括空格)的网页才是要搜索的网页。例如在搜索说明中,有“this exact phrase(这个确切词组)”这个词组,那么搜索引擎只搜索包含“this exact phrase(这个确切词组)”的网页。
**********************************************************
**********************************************************
18.如何运用词组选择
一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。但是,运用词组搜索涉及到如何使用一个词组来表达某一具体问题。有时简单地输入一个问题作为词组就能奏效,尤其是在Altavista这个站点上,因为它采用了“Ask Jeeves”引擎技术,该技术就常见问题给出预置的答案。
在Altavista上输入“ Why is the sky blue(为什么天是蓝的)”,就会在“Ask Jeeves"部分找到答案,并给出若干网页回答这个问题。然而简单明了的提问方法只对一部分搜索奏效。其他词组也可以作为搜索条件,尤其这些词组中有一个词十分独特或者该词组是几个词独特的组合。试一试用人名、产品名、甚至是嵌入程序中的字符串去搜索。
**********************************************************
**********************************************************
19.巧妙利用错误信息
将全部或部分错误信息作为词组进行搜索。比如:当夏时制时间变化时,Netscape Navigator (浏览器)会产生一条错误信息,该信息包含词组“book marks have changed on disk(磁盘书签已变动)”。在google或HotBot站点上输入该词组,就会找到对该问题的解释以及如何处理。
**********************************************************
**********************************************************
20.最容易忽视的搜索方法
有时词组搜索太精确或者一个词组无法准确表达所需信息。那么可以直接到信息源,这种技术“简单得似乎不值一提”,但却很有效。根本不用搜索引擎,直接到提供某种信息组织的站点去。很多时候我们可以用公式“www.公司名.com”去猜测某一组织的站点。如果猜不中,那么到Yahoo去,或用搜索引擎。例如,要找Dell公司现有附件的说明书,直接去该站点www.dell.com,想知道Oracle公司有什么新闻,试一试www.oracle.com,然后再去新闻栏看一看。人们在搜索引擎中得到很多无用信息,却忘了试一试该方法。这种技术还可用于其他搜索目的,并不一定与公司有关。政府机构、职业协会、教育机构也可以提供很好的信息资源。有关人口统计请去www.census.gov,还能去www.acm.org看看最近的会议清单。
**********************************************************
**********************************************************
21.从页面上部或底部寻找作者姓名、组织机构名称或公司名称
如果是个人页面,那么是否有作者的简介,看看他的受教育程度、职位、所属单位等;如果是一个组织机构或公司,是否有详细的介绍页面,其历史怎样?发布这些信息的目的如何?这些个人或单位你是否听说过?是否是你所熟悉的?信誉是否良好?等这些都有助于让你判读出其页面内容的可信程度。
**********************************************************
**********************************************************
22.从URL上可以得到一些该网站的线索
比如:凡带“ ~ ”符号的大都是个人主页。从域名的后缀上也可以得到一些大概的线索:
.e 是教育类网站,既可能是严肃的学术研究,也可能是学生随意制作的主页。
.gov 或 .gov.cn 是政府网站,一般比较权威、可靠,不会随意发布不准确的信息。
.com 或 .com.cn 是商业网站,最常见。在介绍自己的产品时往往会夸大其辞,所以要注意“批判”性地接受。
.net 网络服务公司,为商业或个人用户提供服务。
.org 一般是非赢利性组织,其观点可能带有倾向性。
**********************************************************
**********************************************************
23.点到该站点的主页上,看一下该组织的相关资料
如果页面上没有其主页的链接,可以直接访问域名前部的地址,那往往就是该网站的首页。如: http://www.chinabyte.com/staticp ... r_schele/asp.html 这一大串网址,你只需要把地址中“/staticpages”以后的所有字母都删去,只留下 http://www.chinabyte.com,然后敲回车,往往就能看到该网址的首页。

⑷ 如何使用mysql的全文索引搜索

你有没有想过如何使用搜索功能在所有整站中实现!互联网博客和网站,大多数都采用MySQL数据库。MySQL提供了一个美妙的方式实施一个小的搜索引擎,在您的网站(全文检索)。所有您需要做的是拥有的MySQL 4.x及以上。MySQL提供全文检索功能,我们可以用它来 ??实现搜索功能。

首先,让我们为我们的例子中设置一个示例表。我们将创建一个名为第一个表。

CREATE TABLE articles (
id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
title VARCHAR(200),
body TEXT,
FULLTEXT (title,body)
);
在此表中还可以添加一些示例数据。执行后,插入查询。

INSERT INTO articles (title,body) VALUES
('MySQL Tutorial','DBMS stands for DataBase ...'),
('How To Use MySQL Well','After you went through a ...'),
('Optimizing MySQL','In this tutorial we will show ...'),
('1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),
('MySQL vs. YourSQL','In the following database comparison ...'),
('MySQL Security','When configured properly, MySQL ...');
一旦样本数据是准备好,我们可以开始我们的全文检索功能。

自然语言全文搜索
尝试我们的示例表上执行下面的SELECT查询。

SELECT * FROM articles
WHERE MATCH (title,body) AGAINST ('database');
你就能看到结果如下:

在下面的数据库比较5 MySQL与YourSQL的...
MySQL教程DBMS 1代表数据库...
我们在上面的SQL查询(标题,正文)反对(“数据库”)的比赛,选择所有的记录,列标题和正文进行全文搜索。

您可以修改该查询,并创建您自己的版本,以自己的数据库中执行全文搜索。

布尔全文搜索
它可能发生,你要指定某些关键字在您的搜索条件。此外,您可能要忽略某些关键字。布尔全文搜索可以用来执行这些要求的全文检索。

检查下面的SELECT查询。

SELECT * FROM articles WHERE MATCH (title,body)
AGAINST ('+MySQL -YourSQL' IN BOOLEAN MODE);
如果您发现上述选择查询,我们增加了布尔MODE反对()。这个查询将获取MySQL的关键字,但不YourSQL关键字的所有记录。请注意+和-我们以前指定的关键字!

在执行此功能,MySQL使用什么有时也被称为布尔逻辑作为暗示,其中:+代表与-代表不是[无操作员]暗示或

以下是几个例子布尔搜索条件。

“苹果香蕉
查找行至少包含两个词之一。

“+苹果+果汁”
寻找包含两个单词的行。

“+苹果Macintosh
查找行包含“苹果”,但排名的行,如果它们也包含“麦金塔”。

“+苹果Macintosh的”
查找行包含“苹果”这个词,而不是“麦金塔”。

'+苹果Macintosh的“
查找包含单词“苹果”的行,但如果该行也包含单词“麦金塔”,速度比如果行不低。这是“软”比“+苹果Macintosh电脑”,为“麦金塔”的存在,导致该行不能在所有返回的搜索。

'+苹果+(>营业额<馅饼)“
行包含“苹果”和“营业额”,或“苹果”和“馅饼”(任何顺序)的话,但排名“苹果的营业额”比“苹果馅饼“。

限制
支持全文检索的MyISAM表只。MySQL 4.1中,使用多个字符设置一个单一的表内的支持。然而,在一个FULLTEXT索引的所有列,必须使用相同的字符集和校对规则。MATCH()列列表必须匹配完全在一些列清单表的FULLTEXT索引定义,除非这场比赛()是在布尔模式。布尔模式搜索,可以做非索引列,虽然他们很可能是缓慢的。

⑸ 全文搜索引擎的使用方法也称为什么

1,在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。

2,搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提 蜘蛛搜索引擎取网站的信息和网址加入自己的数据库。

3, 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

⑹ 运用搜索引擎需要注意哪些问题,有哪些方便的方法呢

搜索引擎的正确使用方法

网络真可谓是信息的海洋。在因特网上获取信息量的多少,往往取决于查询的方法适当与否。如果想要及时而又准确地找出自己需要的资料,搜索引擎就是一件必不可少的上网利器。

近几年,因特网在我国的发展可谓一日千里,速度之快、新网民数量之多都处在世界前列。刚刚上网的“菜鸟”,第一件该做的事情,就是学会使用搜索引擎。也许有人要问:搜索很简单嘛,不就是在搜索栏中敲入自己想要找的东东不就得了,有必要学吗?当然。实际上,很多网虫对搜索引擎的使用是相当有限的,甚至是不正确的。而且搜索引擎的升级换代速度很快,不学就会出现用老秤称新货的情况。既然要学,我们就来学个彻底,由浅入深地细细过它一遍。

搜索引擎的最大用途就是搜索,而说到搜索就不能不提到 keyword (关键字),每一个搜索引擎的制作过程都离不开 keyword ,无论是给一个主类别做分目录,还是管理个人站点,都需要这些关键字,目录下包括的关键字越多、越精确,搜索也就越方便、越准确。这就是有的搜索引擎好用,有的不好用的原因。所以在进行搜索之前,找对、找准 keyword 至关重要。

使用搜索引擎的分类索引没什么技巧,只要找准类别后,一层一层打开即可。下面重点要说的是现有着名搜索引擎的搜索器的使用方法。希望能免去大家的查找之苦,同时也能为大家省点上网费用。

雅虎中国

首先在检索栏内输入你所需要的关键字,按下 Search 键, YAHOO! 就会自动搜寻其中的分类类目、网站、资料库信息及新闻资料库,并依此为你列出所找到的信息。列出资料的排列次序是根据与 keyword 的匹配程度高低为序,而新闻资料的排列还综合了更新时间的因素。除了这种简单的查询方式之外, YAHOO !还支持进阶检索方式,想使用这种检索就要先了解它特定的语法:

1 .使用双引号查询网站,例如输入了“电脑音乐”之后,就只会出现电脑音乐的网站,而忽略包含“电脑与MP3音乐”的网站,注意双引号必须是半角字符。

2 .加字母指定关键字出现的段落,如在关键字前加“ t : " ,搜索引擎仅会查询网站的名称 ; 而在关键字前加“ u : " ,搜索引擎就会只查询所需的网址。

3 .利用“+”、“-”号来限定结果,加了“+”号的关键字一定要在结果中出现;而加了“-”号的关键字就一定不要出现在查询结果中。

搜狐

升级后的中文搜狐检索系统又增加了新的功能,解决了中文的分词问题,如输入“电脑”之后,以前会把带有“电子”、“大脑”的词的网站也检索出来。而现在就能精确定位,节省了使用者的时间和精力。该系统还设有用户字典,允许自行定义词的名称、词性及对应的大五码字体,并将该词加入到词库中。具体的使用方法是:在检索文本栏中输入要查询的关键字,在按下“搜索”钮后,搜狐中文检索系统会从以下四方面检索结果:

搜狐分类:查询符合条件的分类类目。

搜狐网站:查询符合条件的搜狐数据库中收录的网站。

全球网页:搜索 Internet 上符合条件的网页。

搜狐新闻:查询符合条件的搜狐新闻的内容。

影响检索结果的因素,是关键字出现在页面的位置、频率及关键字本身的词性等。对于新闻而言则要参考其更新的日期了,一般新闻检索只包含近三个月的内容。与雅虎相同的是,搜狐也包含了自己的检索语法:

1 .在前后两个关键字之间加上 AND ,表示这两个词是“与”的逻辑关系,搜索出的结果就会是同时包含了这两个关键字的页面。

2 .在前后两个关键字间加 OR ,就表示这两个词是“或”的逻辑关系,搜索的结果更多、更广,只要是包含了这两个关键字中任何一个关键字的页面都会出现,这对查询概念模糊的内容十分适用。

新浪搜索

新浪搜索目前共分 15 大类,一万多细目十余万个站点。新浪网的搜索器查询顺序依次为:目录搜索、网站搜索、网页全文检索。

1 .新浪搜索引擎在关键字查询框中允许单个词或多个词查询,有多种符号都是表示“且”的关系,如 : 空格、逗号、加号和 & 。

2 .新浪搜索引擎还包含了进阶搜索方式 : 在 keyword 前加“ t : " ,表示仅搜索网站标题 ; 在 keyword 前加“ u : " ,则表示搜索网站的网址。除此之外,新浪搜索还能更好地支持对数字的查询。

中文 Excite

中文 Excite 搜索引擎目前只进行网页的搜索,这一点对要找资料的网友很方便,但对于想查找网站的人来说,就毫无用处了。虽然如此,但我还是要详细介绍中文 Excite ,因为它是目前资料及信息最全的网页搜索引擎。这里收集了共两百万个网页,并提供了五个“高性能检索平台”帮助查询者进行查找。最有特点的是检索结果是按你提问的相关程度来排序,一般来说,越排在前面,相关程度越高。如果你发现某一检索结果很符合你的检索要求,按一下 " 检索更多类似该网页的文献”键, Excite 中文检索引擎会检索出更多与此类似的网页。使用比较专指的提问词进行检索,就可以搜索到更多想要找的文献。例如:“电脑杂志”比“报刊杂志”能检索到更多有关电脑信息的资料。有时,许多检索结果都是来自同一网站,但分散在不同的目录下。只要按一下“按网站显示检索结果”功能键,检索结果就会变成一个按网站排列的目录,在每个网站名称下面,按相关程度列出该网站内所有与提问相关的网页。利用“高性能检索平台”,还能像职业信息专家一样快捷准确地搜索到更多相关的文献。我们还可以自己指定检索数据库(全部中文网页数据库,中国网页数据库,香港网页数据库,台湾网页数据库,新加坡网页数据库,以及西方语言网页)来控制检索结果的数量和显示方式,并能十分容易地使用所有高级检索功能。检索时最常用的技巧如下:

1 .输入关键字, Excite 的搜索引擎会自定检索到符合信息需求的文献。

2 .“词组检索”也称“完全符合检索”,检索结果必须含有与提问式完全一样 ( 包括次序 ) 的字串。在搜索比较专指的文献时,就要使用双引号进行词组检索。

3 .在检索词或字前面加上“+”来表示该词或字一定要出现在检索结果中;在检索词或字前面加上“-”来表示该词或字一定不能出现在检索结果中。使用时有一点十分重要,在“+”和“-”与其后面的检索词之间不能留有空格。

4 .使用布尔检索符号。布尔检索符号包括 AND (检索结果必须含有所有用 AND 连接起来的关键字), OR (检索结果必须至少含有一个用 OR 连接起来的关键字), NOT (检索结果不能含有紧接在 NOT 后面的关键字)和()(表示要求检索结果含有所有输入的关键字)。这些符号必须大写,而且前后要有一个空格。如果你使用了布尔检索式, Excite 检索引擎会自动停止概念分析的检索功能,而检索到与关键字吻合的网页。

以上介绍了几个最常用的搜索引擎使用技巧及方法,相信通过上述的学习,绝大部分网虫都能正确而且高效率的使用这些搜索引擎。

⑺ 全文搜索引擎的使用方法也称为

关键词查询
!!!

⑻ 什么叫全文检索

就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术·
主要该系统有TRS系统·天宇系统·等
与其他搜索引擎相比,全文搜索引擎的显着特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。
首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。
搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。
一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;
全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;
有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;
必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。
目前的技术实现有Lucene,Solr,ElasticSearch等。全文检索过程分为索引、搜索两个过程:

索引(Indexing)
从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的。
将源数据采集到一个统一的地方,例如存储系统,要创建索引,将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息,从关键信息中抽取一个一个词,词和源数据是有关联的。也即创建索引时,词和源数据有关联,索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……)。
搜索(Search)
用户执行搜索(全文检索)编写查询关键字。
从索引库中搜索索引,根据查询关键字搜索索引库中的一个一个词。
展示搜索的结果。

⑼ 如何正确高效地使用搜索引擎

最重要的搜索工具,是搜索引擎。人们经常把人工编辑的网站分类目录也叫做搜索引擎,但那是错误的,真正意义上的搜索引擎指的是网页全文搜索引擎。网页全文搜索引擎,其实是个大的索引表,记录了每个网页上出现过哪些关键词,当你输入某个关键词搜索的时候,所有含有这个关键词的网页就被找出来,并按一定顺序排列。网页全文搜索引擎的信息量大、准确性高、功能强、搜寻资料的速度也快,可以搜到你从未想过,甚至你不敢想象的内容,但前提是你要掌握一点使用技巧。下面笔者就来介绍几种最基本也是最有效的搜索技巧。 搜索之前先思考 搜索引擎本事再大,也搜索不到网上没有的内容,而且,有些内容虽然存在网上,却因为各种原因,而成为漏网之鱼。所以在你使用搜索引擎搜索之前,应该先花几秒种想一下,我要找的东西网上可能有吗?如果有,可能在哪里,是什么样子的?网页上会含有哪些关键字? 有些东西你根本用不着麻烦搜索引擎的,比如要找个公司的电话,打个114的速度大概比搜索引擎快得多。又有些问题,可能很难用合适的关键字描述,或者不能直接用搜索引擎搜到,那你可以尝试找个精通这个问题的朋友,或者寻找这方面的热门论坛来问,这也是一种搜索方法。有时,你能选择的最好搜索方法是放弃网络,跑一趟附近的图书馆,图书馆里有网上找不到的成吨的“信息”。当你确认你要找的信息适合通过搜索引擎在网上找之后,搜索到满意结果的概率就大得多了。 各种搜索引擎的特点泾渭分明,如果你没有为每次搜索分别选择正确的搜索工具,你将浪费掉大量的时间。这次搜索,你应该使用新浪还是搜狐? Google还是网络? 分析你的需求,比较不同搜索引擎的强项和弱点,然后为这次搜索选择最适合的搜索工具。 学会使用两个关键词搜索 如果一个陌生人突然走近你,向你问道:“北京”,你会怎样回答?大多数人会觉得莫名其妙,然后会再问这个人到底想问“北京”哪方面的事情。同样,如果你在搜索引擎中输入一个关键词“北京”,搜索引擎也不知道你要找什么,它也可能返回很多莫名其妙的结果。因此你要养成使用多个关键词搜索的习惯,当然,大多数情况下使用两个关键词搜索已经足够了,关键词与关键词之间以空格隔开。 比如,你想了解北京旅游方面的信息,就输入“北京 旅游”这样才能获取与北京旅游有关的信息;如果想了解北京暂住证方面的信息,可以输入“北京 暂住证”搜索;如果要下载名叫“xxxx”的MP3,就输入“xxxx 下载”来搜索。 学会使用减号“-” “-”的作用是为了去除无关的搜索结果,提高搜索结果相关性。有的时候,你在搜索结果中见到一些想要的结果,但也发现很多不相关的搜索结果,这时你可以找出那些不相关结果的特征关键词,把它减掉。 比如,你要找“申花”的企业信息,输入“申花”却找到一大堆申花队踢足球的新闻,在发现这些新闻的共同特征是“足球”后,输入“申花 -足球”来搜索,就不会再有体育新闻来麻烦你了。 点击搜索结果前先思考 一次成功的搜索由两个部分组成:正确的搜索关键词,有用的搜索结果。在你点击任何一条搜索结果之前,快速地分析一下你的搜索结果的标题、网址、摘要,会有助于你选出更准确的结果,帮你节省大量的时间。当然,到底哪一个是你需要的内容,取决于你在寻找什么,评估网络内容的质量和权威性是搜索的重要步骤。 一次成功的搜索也经常是由好几次搜索组成的,如果对自己搜索的内容不熟,即使是搜索专家,也不能保证第一次搜索就能找到想要的内容。搜索专家会先用简单的关键词测试,他们不会忙着仔细查看各条搜索结果,而是先从搜索结果页面里寻找更多的信息,再设计一个更好的关键词重新搜索,这样重复多次以后,就能设计出很棒的搜索关键词,也就能搜索到满意的搜索结果了。 善于改正错误 经常会有这样的事情发生:你似乎已尽了全力来搜索,但是依然没有找到需要的答案。这个时候,请不要放弃,认真回顾检查你的搜索过程,也许只是因为一个小差错。一个看上去毫无希望的搜索,很有可能在你检讨完自己的搜索策略后获得成功。 下面描述了初学者搜索时容易犯的5个低级错误和解决方法,正是因为你经常犯这些错误,所以你总是得到无用的、荒谬的或者完全没有意义的搜索结果。而一旦你认识到这些错误,将很容易把这些小鬼从你的搜索经历中永远驱逐出去。 常见错误1:错别字 经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。 常见错误2:关键词太常见 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如,搜索“电话”, 有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。当然,如果你想找的是一串汽车网站或一串MP3网站,那么用“汽车”、“MP3”搜索就是正确的。 常见错误3:多义词 要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种着名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。 常见错误4:不会输关键词,想要什么输什么 搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。 网友错把搜索引擎当成是听话的服务员了,其实搜索引擎是很机械的,当你用关键词搜索的时候,它只会把含有这个关键词的网页找出来,根本不管网页上的内容是什么。 而问题在于,没有一个网页上会含有“现代爱情故事歌词”和“上海到成都列车时刻表”这样的关键词,所以搜索引擎也找不到这样的网页。但是真正含有你想找的内容的网页,应该含有的关键词是“现代爱情故事”、“歌词”,“上海”、“成都”、“列车”、“时刻表”,所以你应该这样搜索:“现代爱情故事 歌词”、“信息早报 济南 发行”、“铃羊车 图案”“上海 成都 列车 时刻表”。 明白了吗?不要用你心中想的大白话去搜索,当搜索结果太少甚至没有的时候,你应该输入更简单的关键词来搜索,猜测你找的网页中可能含有的关键词,然后用那些关键词搜索。 常见错误5:在错误的地方搜索 2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务搜索引擎是当仁不让的。 在你逐渐获得网络搜索经验的过程中,避免这些常见的搜索错误将成为一种自然而然的习惯。无论何时,当你得不到或得到意料之外的搜索结果时,记得检查一下你用的搜索关键词,分析一下搜索结果,弄明白发生了什么事,你可能会发现又一个需要避免的搜索错误。 搜索引擎是个好东西,掌握使用技巧后,你会发现互联网远比想象中的精彩,而你竟能自由自在地翱翔于互联网之上。让笔者用一句话表达自己的感受——“我们若能更妥善地搜寻资料,实在已经改变世界。”

⑽ 全文搜索引擎的采用的技术

目前全文搜索引擎通常使用倒排索引技术。倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
有两种不同的反向索引形式:
一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。[1] 后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。

阅读全文

与全文搜索引擎使用方法相关的资料

热点内容
旅行社如何引进客流的十种方法 浏览:209
秃顶快速治疗方法 浏览:625
华为清理手机垃圾方法 浏览:940
秒开手机壳的方法 浏览:652
胎儿月份计算方法 浏览:298
电暖地暖的安装方法 浏览:757
季节性肠炎治疗方法 浏览:105
研究资料的分析方法论文 浏览:551
40425的简便方法计算 浏览:842
定性定量决策分析方法 浏览:408
青芒果的食用方法 浏览:832
塑料瓶微生物检测方法国标法 浏览:484
ahc眼膜使用方法 浏览:330
最简单的补肾治早泄方法 浏览:520
静电手环的使用方法 浏览:997
开账的步骤与方法 浏览:280
养金鱼简单方法 浏览:827
手机遥控长虹电视方法 浏览:36
蒸芋头粉中间夹生有什么补救方法 浏览:503
非瘟治疗土方法 浏览:663