導航:首頁 > 使用方法 > 全文搜索引擎使用方法

全文搜索引擎使用方法

發布時間:2022-05-26 05:18:41

⑴ 搜索引擎的工作過程包括以下哪些步驟

搜索引擎的整個工作過程包括三個部分:

1、抓取

搜索引擎為想要抓取互聯網站的頁面,不可能手動去完成,那麼網路,google的工程師就編寫了一個程序,他們給這個自動抓取的程序起了一個名字,蜘蛛(也可以叫做「機器人」或者「網路爬蟲」)。

互聯網上的信息存儲在無數個伺服器上,任何搜索引擎要想回答用戶的搜索,首先要把網頁存在自己本地的伺服器上,這靠的就是網路爬蟲。它不停的向各種網站發送請求,將所得到的網頁存儲起來。

通常的做法是利用網頁之間的鏈接從一個網頁出發,提取出指向其他頁面的鏈接,把它們當成將下次要請求的對象,不停重復這個過程。有很多細節要被考慮。比如避免循環鏈接的網頁;解析網頁文檔,提取里邊的鏈接;當鏈接無法打開時對錯誤進行處理等。

2、索引

索引就是幫助程序進行快速查找的。大家都用過英漢詞典。字典前邊的按照單詞首字母排列的部分就是索引。搜索引擎也一樣。這里要介紹第一個最重要的數據結構:反轉列表。

搜索引擎所擁有的文檔中出現的每一個單詞都擁有一個反轉列表。它記錄了這個單詞在多少文檔中出現,分別是哪些文檔,每個文檔分部出現多少次,分別出現在什麼位置等信息。這樣當搜索相關單詞時,Google就不用遍歷所有的文檔,只需要查找每個單詞對應的反轉列表就可以知道這個詞在哪裡出現了。

每一個網路文檔不僅只有文本信息。它還可能包括文件名,引用等部分。為了提高搜索質量,搜索引擎需要對文檔的不同部分分別處理,構造反轉列表。每一部分的單詞都要被加入到這個詞屬於此部分的反轉列表裡。

3、搜索

有了索引,就可以快速找到所需內容了。前邊說過搜索引擎根據用戶的信息需求查找匹配的內容。信息需求來自於用戶輸入。搜索引擎用把用戶輸入的搜索字元進行一些類似於創建索引時對文本的處理,然後生成解析樹。總之,以上技巧最終目標是幫助搜索引擎更好理解用戶的信息需求,以便查找出更高質量的文檔。

4、排序

用戶輸入的關鍵詞,就可以查看到相關的內容了。這個時候,就會一條一條的展示,那誰排在第一,誰排在第二,我們把這種結果的排序,稱為排名。

排名會是很復雜的,系統會對其進行一系列復雜的分析,並根據分析的結論在索引庫中尋找與之最為匹配的一系列網頁,按照用戶輸入的關鍵詞所體現的需求強弱和網頁的優劣進行打分,並按照最終的分數進行排列。

⑵ 搜索引擎的主要功能及檢索方法是什麼

搜索引擎建立索引的方法 資料庫中的索引一般是按照倒排文檔的文件格式存放,在建立例排索引的時候,不同的搜索引擎有不同的選項。有些搜索引擎對於信息頁面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;還有些搜索引擎,比如Google建立索引的時候,同時還考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為所指向的頁面的重要信息。Google、infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構,利用這些結果信息可以提高頁面相關度判別時的准確度。由於索引不同,在檢索信息時產生的結果會不同。
3.2 搜索引擎的檢索功能搜索引擎所支持的檢索功能的多少及其實現的優劣,直接決定了檢索效果的好壞,所以網路檢索工具除了要支持諸如布爾檢索、鄰近檢索、截詞檢索、欄位檢索等基本的檢索功能之外,更應該根據網上信息資源的變化,及時地應用新技術、新方法,提高高級檢索功能。另外,由於中文信息特有的編碼不統一問題,所以如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶就會全面檢索大陸、港台乃至全世界的中文信息。這樣不但提高了搜索引擎的質量,而且會得到用戶的支持。

如何快速便捷巧妙的使用搜索引擎

1.使用邏輯詞輔助查找
比較大的搜索引擎都支持使用邏輯詞進行更復雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否,有些是AND NOT)及NEAR(兩個單詞的靠近程度),恰當應用它們可以使結果非常精確,另外,也可以使用括弧將搜索詞分別組合,如在http://www.liszt.con(Liszt)里:((music or jazz) and e) not ("bill morrissey" or indiana)。
**********************************************************
**********************************************************
2.使用雙引號進行精確查找
如果查找的是一個片語或多個漢字,最好的辦法就是將它們用雙引號括起來,這樣得到的結果最少、最精確。例如在搜索引擎的Search(查詢)框中輸入"search engine",這會比輸入search engine得到更少、更好的結果。如果按上述方法查不到任何結果,可以去掉雙引號試試。
**********************************************************
**********************************************************
3.使用加減號限定查找
很多搜索引擎都支持在搜索詞前冠以加號(+)限定搜索結果中必須包含的詞彙,用減號(-)限定搜索結果不能包含的詞彙。
**********************************************************
**********************************************************
4.有針對性地選擇搜索引擎
用不同的搜索引擎進行查詢得到的結果常常有很大的差異,這是因為它們的設計目的和發展走向存在著許多的不同,比如:Dejanews(http://www.dejanews.com)是專用於USENET的搜索引擎,而Liszt(http://www.liszt.com)則是針對郵遞列表、IRC等的搜索引擎。
**********************************************************
**********************************************************
5.逐步細化法
按照搜索引擎的分類一層一層地點擊下去,這對一些關鍵字不太確定的資料查詢十分有效。Yahoo把網上的各種資料歸類整理,分得很細,有休閑與運動、娛樂、健康與醫葯、藝術與人文等很多類別,而且有每一大類的鏈接進入後分成很多小類,一層一層地進入鏈接,分類也就越來越細,離你的目標也就越來越近。由於都是鏈接形式,所以使用起來又方便又簡單,不用我多說了吧。
**********************************************************
**********************************************************
6.根據要求選擇查詢方法
如果需要快速找到一些相關性比較大的信息,可以使用目錄式搜索引擎的查找功能,如使用Yahoo(http://www.yahoo.com)。如果想得到某一方面比較系統的資源信息,可以使用目錄一級一級地進行查找。如果要找的信息比較冷門,應該用比較大的全文搜索引擎查找,如Altavista(http://www.altavista.digital.com/)或Hotbot(http://www.hotbot.com/)。
**********************************************************
**********************************************************
7.注意細節
在Internet上進行查詢時如果能注意一些細節問題,常常能增加搜索結果的准確性,如許多搜索引擎都區分字母的大小寫,因此,如果您正在搜索人名或地名等關鍵詞,應該正確使用它們的大小寫字母形式。
**********************************************************
**********************************************************
8.利用搜索引擎的特性進行查找
不同的搜索引擎有一些專用的特性,應用它們可以使查詢事半功倍,比如:若想知道某個新聞組上最近一段時間發表的文章,可以在Dejanews的查找框中輸入"~g 組名",例如"~g comp.lang.java.programmer"。
**********************************************************
**********************************************************
9.使用多元搜索引擎
多元搜索引擎是一種只需輸入一次關鍵詞就可以對多個搜索引擎進行查詢的搜索代理網站,如Searchspaniel(http://www.searchspaniel.com/)就可以同時對200多個搜索引擎進行查詢。
**********************************************************
**********************************************************
10.利用選項界定查詢
目前越來越多的搜索引擎開始提供更多的查詢選項,利用這些選項人們可以輕松地構造比較復雜的搜索模式,進行更為精確的查詢,並且能更好地控制查詢結果的顯示。
**********************************************************
**********************************************************
11.盡可能將搜索范圍限制在特定的領域里
比如:在 Yahoo 中文網站中,你要查找的是與電腦相關的知識,那麼你沒有必要讓搜索引擎在休閑與運動、健康與醫葯、藝術與人文等其他分類中查找。你可以進入「電腦與網際網路」這一類,選中「檢索此目錄下的網站」。然後再開始搜索。
**********************************************************
**********************************************************
12.使用更特定的詞彙
比如,不用「服裝」,而用「西服」;不用「 flower 」而用「 rose 」。 但要盡可能刪去一些同義詞或近義詞。
**********************************************************
**********************************************************
13.指定關鍵詞出現的欄位
在關鍵詞前加t:,搜索引擎將僅在網站名稱中查詢,即只顯示在網站名稱中包含關鍵字的網站。
在關鍵詞前加u:,搜索引擎將僅在網址(URL)中查詢。
**********************************************************
**********************************************************
14.限制查詢范圍
范圍限制的能力越強,則越能准確地找到需要的信息。搜索引擎提供的范圍限制類型大體有分類范圍、地域范圍、時間范圍、網站類型範圍以及其他特殊范圍。一些搜索引擎,提供了許多特殊范圍的限定,如域名後綴(com、gov、org等)、文件類型(文本、圖形、聲音等)。這些范圍限制、實現的方法各不相同:有些是通過在關鍵詞前加特殊的字元,有些是通過下拉式菜單。
**********************************************************
**********************************************************
15.盡量少用空格
在輸入漢字作關鍵詞的時候,不要在漢字後追加不必要的空格,因為空格將被認作特殊操作符,其作用與AND一樣。比如,你輸入了這樣的關鍵詞「電 腦」,那麼它不會被當作一個完整詞「電腦」去查詢,由於中間有空格,會被認為是需要查出所有同時包含「電」「腦」兩個字的文檔,這個范圍就要比「電腦」作關鍵詞的查詢結果大多了,更重要的是它偏離了本來的含義。
**********************************************************
**********************************************************
16.修改IE瀏覽器的默認搜索引擎
在IE4.0/IE5.0的工具欄上,點擊「搜索」圖標,IE就會調用預設的搜索引擎Excite為你檢索。要想改變預設的搜索引擎,你必須改動Win98的注冊表。IE4.0修改方法是:關閉IE,打開注冊表編輯器,找到[HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\Main],在右側窗格中雙擊「查找」,輸入要改變的默認搜索引擎網址,例如把預設搜索引擎改為google,此時就鍵入http://www.google.com/。
IE5.0/6.0修改方法是:打開注冊表編輯器,找到[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Internet Explorer\Search],在右側窗格中修改CustomizeSearch和SearchAssistant的內容,輸入要改變的默認搜索引擎網址。
**********************************************************
**********************************************************
17.使用片語提速搜索
如果只給出一個單詞進行搜索,那麼將發現數以千計甚至以百萬計的匹配網頁。然而如果再加上一個單詞,那麼搜索結果會更加切題。在搜索時,給出兩個關鍵詞,並將兩個詞用AND(與邏輯)結合起來,或者在每個詞前面加上加號,這種與邏輯技術大大地縮小了命中范圍,從而加快了搜索。幸運的是,所有主要的搜索引擎都使用同樣有語法。一個帶引號的片語意味著只有完全匹配該片語(包括空格)的網頁才是要搜索的網頁。例如在搜索說明中,有「this exact phrase(這個確切片語)」這個片語,那麼搜索引擎只搜索包含「this exact phrase(這個確切片語)」的網頁。
**********************************************************
**********************************************************
18.如何運用片語選擇
一般說來在網頁搜索引擎中,用片語搜索來縮小范圍從而找到搜索結果是最好的辦法。但是,運用片語搜索涉及到如何使用一個片語來表達某一具體問題。有時簡單地輸入一個問題作為片語就能奏效,尤其是在Altavista這個站點上,因為它採用了「Ask Jeeves」引擎技術,該技術就常見問題給出預置的答案。
在Altavista上輸入「 Why is the sky blue(為什麼天是藍的)」,就會在「Ask Jeeves"部分找到答案,並給出若干網頁回答這個問題。然而簡單明了的提問方法只對一部分搜索奏效。其他片語也可以作為搜索條件,尤其這些片語中有一個詞十分獨特或者該片語是幾個詞獨特的組合。試一試用人名、產品名、甚至是嵌入程序中的字元串去搜索。
**********************************************************
**********************************************************
19.巧妙利用錯誤信息
將全部或部分錯誤信息作為片語進行搜索。比如:當夏時制時間變化時,Netscape Navigator (瀏覽器)會產生一條錯誤信息,該信息包含片語「book marks have changed on disk(磁碟書簽已變動)」。在google或HotBot站點上輸入該片語,就會找到對該問題的解釋以及如何處理。
**********************************************************
**********************************************************
20.最容易忽視的搜索方法
有時片語搜索太精確或者一個片語無法准確表達所需信息。那麼可以直接到信息源,這種技術「簡單得似乎不值一提」,但卻很有效。根本不用搜索引擎,直接到提供某種信息組織的站點去。很多時候我們可以用公式「www.公司名.com」去猜測某一組織的站點。如果猜不中,那麼到Yahoo去,或用搜索引擎。例如,要找Dell公司現有附件的說明書,直接去該站點www.dell.com,想知道Oracle公司有什麼新聞,試一試www.oracle.com,然後再去新聞欄看一看。人們在搜索引擎中得到很多無用信息,卻忘了試一試該方法。這種技術還可用於其他搜索目的,並不一定與公司有關。政府機構、職業協會、教育機構也可以提供很好的信息資源。有關人口統計請去www.census.gov,還能去www.acm.org看看最近的會議清單。
**********************************************************
**********************************************************
21.從頁面上部或底部尋找作者姓名、組織機構名稱或公司名稱
如果是個人頁面,那麼是否有作者的簡介,看看他的受教育程度、職位、所屬單位等;如果是一個組織機構或公司,是否有詳細的介紹頁面,其歷史怎樣?發布這些信息的目的如何?這些個人或單位你是否聽說過?是否是你所熟悉的?信譽是否良好?等這些都有助於讓你判讀出其頁面內容的可信程度。
**********************************************************
**********************************************************
22.從URL上可以得到一些該網站的線索
比如:凡帶「 ~ 」符號的大都是個人主頁。從域名的後綴上也可以得到一些大概的線索:
.e 是教育類網站,既可能是嚴肅的學術研究,也可能是學生隨意製作的主頁。
.gov 或 .gov.cn 是政府網站,一般比較權威、可靠,不會隨意發布不準確的信息。
.com 或 .com.cn 是商業網站,最常見。在介紹自己的產品時往往會誇大其辭,所以要注意「批判」性地接受。
.net 網路服務公司,為商業或個人用戶提供服務。
.org 一般是非贏利性組織,其觀點可能帶有傾向性。
**********************************************************
**********************************************************
23.點到該站點的主頁上,看一下該組織的相關資料
如果頁面上沒有其主頁的鏈接,可以直接訪問域名前部的地址,那往往就是該網站的首頁。如: http://www.chinabyte.com/staticp ... r_schele/asp.html 這一大串網址,你只需要把地址中「/staticpages」以後的所有字母都刪去,只留下 http://www.chinabyte.com,然後敲回車,往往就能看到該網址的首頁。

⑷ 如何使用mysql的全文索引搜索

你有沒有想過如何使用搜索功能在所有整站中實現!互聯網博客和網站,大多數都採用MySQL資料庫。MySQL提供了一個美妙的方式實施一個小的搜索引擎,在您的網站(全文檢索)。所有您需要做的是擁有的MySQL 4.x及以上。MySQL提供全文檢索功能,我們可以用它來 ??實現搜索功能。

首先,讓我們為我們的例子中設置一個示例表。我們將創建一個名為第一個表。

CREATE TABLE articles (
id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
title VARCHAR(200),
body TEXT,
FULLTEXT (title,body)
);
在此表中還可以添加一些示例數據。執行後,插入查詢。

INSERT INTO articles (title,body) VALUES
('MySQL Tutorial','DBMS stands for DataBase ...'),
('How To Use MySQL Well','After you went through a ...'),
('Optimizing MySQL','In this tutorial we will show ...'),
('1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),
('MySQL vs. YourSQL','In the following database comparison ...'),
('MySQL Security','When configured properly, MySQL ...');
一旦樣本數據是准備好,我們可以開始我們的全文檢索功能。

自然語言全文搜索
嘗試我們的示例表上執行下面的SELECT查詢。

SELECT * FROM articles
WHERE MATCH (title,body) AGAINST ('database');
你就能看到結果如下:

在下面的資料庫比較5 MySQL與YourSQL的...
MySQL教程DBMS 1代表資料庫...
我們在上面的SQL查詢(標題,正文)反對(「資料庫」)的比賽,選擇所有的記錄,列標題和正文進行全文搜索。

您可以修改該查詢,並創建您自己的版本,以自己的資料庫中執行全文搜索。

布爾全文搜索
它可能發生,你要指定某些關鍵字在您的搜索條件。此外,您可能要忽略某些關鍵字。布爾全文搜索可以用來執行這些要求的全文檢索。

檢查下面的SELECT查詢。

SELECT * FROM articles WHERE MATCH (title,body)
AGAINST ('+MySQL -YourSQL' IN BOOLEAN MODE);
如果您發現上述選擇查詢,我們增加了布爾MODE反對()。這個查詢將獲取MySQL的關鍵字,但不YourSQL關鍵字的所有記錄。請注意+和-我們以前指定的關鍵字!

在執行此功能,MySQL使用什麼有時也被稱為布爾邏輯作為暗示,其中:+代表與-代表不是[無操作員]暗示或

以下是幾個例子布爾搜索條件。

「蘋果香蕉
查找行至少包含兩個詞之一。

「+蘋果+果汁」
尋找包含兩個單詞的行。

「+蘋果Macintosh
查找行包含「蘋果」,但排名的行,如果它們也包含「麥金塔」。

「+蘋果Macintosh的」
查找行包含「蘋果」這個詞,而不是「麥金塔」。

'+蘋果Macintosh的「
查找包含單詞「蘋果」的行,但如果該行也包含單詞「麥金塔」,速度比如果行不低。這是「軟」比「+蘋果Macintosh電腦」,為「麥金塔」的存在,導致該行不能在所有返回的搜索。

'+蘋果+(>營業額<餡餅)「
行包含「蘋果」和「營業額」,或「蘋果」和「餡餅」(任何順序)的話,但排名「蘋果的營業額」比「蘋果餡餅「。

限制
支持全文檢索的MyISAM表只。MySQL 4.1中,使用多個字元設置一個單一的表內的支持。然而,在一個FULLTEXT索引的所有列,必須使用相同的字元集和校對規則。MATCH()列列表必須匹配完全在一些列清單表的FULLTEXT索引定義,除非這場比賽()是在布爾模式。布爾模式搜索,可以做非索引列,雖然他們很可能是緩慢的。

⑸ 全文搜索引擎的使用方法也稱為什麼

1,在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。

2,搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提 蜘蛛搜索引擎取網站的信息和網址加入自己的資料庫。

3, 另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出「蜘蛛」程序,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。

⑹ 運用搜索引擎需要注意哪些問題,有哪些方便的方法呢

搜索引擎的正確使用方法

網路真可謂是信息的海洋。在網際網路上獲取信息量的多少,往往取決於查詢的方法適當與否。如果想要及時而又准確地找出自己需要的資料,搜索引擎就是一件必不可少的上網利器。

近幾年,網際網路在我國的發展可謂一日千里,速度之快、新網民數量之多都處在世界前列。剛剛上網的「菜鳥」,第一件該做的事情,就是學會使用搜索引擎。也許有人要問:搜索很簡單嘛,不就是在搜索欄中敲入自己想要找的東東不就得了,有必要學嗎?當然。實際上,很多網蟲對搜索引擎的使用是相當有限的,甚至是不正確的。而且搜索引擎的升級換代速度很快,不學就會出現用老秤稱新貨的情況。既然要學,我們就來學個徹底,由淺入深地細細過它一遍。

搜索引擎的最大用途就是搜索,而說到搜索就不能不提到 keyword (關鍵字),每一個搜索引擎的製作過程都離不開 keyword ,無論是給一個主類別做分目錄,還是管理個人站點,都需要這些關鍵字,目錄下包括的關鍵字越多、越精確,搜索也就越方便、越准確。這就是有的搜索引擎好用,有的不好用的原因。所以在進行搜索之前,找對、找准 keyword 至關重要。

使用搜索引擎的分類索引沒什麼技巧,只要找准類別後,一層一層打開即可。下面重點要說的是現有著名搜索引擎的搜索器的使用方法。希望能免去大家的查找之苦,同時也能為大家省點上網費用。

雅虎中國

首先在檢索欄內輸入你所需要的關鍵字,按下 Search 鍵, YAHOO! 就會自動搜尋其中的分類類目、網站、資料庫信息及新聞資料庫,並依此為你列出所找到的信息。列出資料的排列次序是根據與 keyword 的匹配程度高低為序,而新聞資料的排列還綜合了更新時間的因素。除了這種簡單的查詢方式之外, YAHOO !還支持進階檢索方式,想使用這種檢索就要先了解它特定的語法:

1 .使用雙引號查詢網站,例如輸入了「電腦音樂」之後,就只會出現電腦音樂的網站,而忽略包含「電腦與MP3音樂」的網站,注意雙引號必須是半形字元。

2 .加字母指定關鍵字出現的段落,如在關鍵字前加「 t : " ,搜索引擎僅會查詢網站的名稱 ; 而在關鍵字前加「 u : " ,搜索引擎就會只查詢所需的網址。

3 .利用「+」、「-」號來限定結果,加了「+」號的關鍵字一定要在結果中出現;而加了「-」號的關鍵字就一定不要出現在查詢結果中。

搜狐

升級後的中文搜狐檢索系統又增加了新的功能,解決了中文的分詞問題,如輸入「電腦」之後,以前會把帶有「電子」、「大腦」的詞的網站也檢索出來。而現在就能精確定位,節省了使用者的時間和精力。該系統還設有用戶字典,允許自行定義詞的名稱、詞性及對應的大五碼字體,並將該詞加入到詞庫中。具體的使用方法是:在檢索文本欄中輸入要查詢的關鍵字,在按下「搜索」鈕後,搜狐中文檢索系統會從以下四方面檢索結果:

搜狐分類:查詢符合條件的分類類目。

搜狐網站:查詢符合條件的搜狐資料庫中收錄的網站。

全球網頁:搜索 Internet 上符合條件的網頁。

搜狐新聞:查詢符合條件的搜狐新聞的內容。

影響檢索結果的因素,是關鍵字出現在頁面的位置、頻率及關鍵字本身的詞性等。對於新聞而言則要參考其更新的日期了,一般新聞檢索只包含近三個月的內容。與雅虎相同的是,搜狐也包含了自己的檢索語法:

1 .在前後兩個關鍵字之間加上 AND ,表示這兩個詞是「與」的邏輯關系,搜索出的結果就會是同時包含了這兩個關鍵字的頁面。

2 .在前後兩個關鍵字間加 OR ,就表示這兩個詞是「或」的邏輯關系,搜索的結果更多、更廣,只要是包含了這兩個關鍵字中任何一個關鍵字的頁面都會出現,這對查詢概念模糊的內容十分適用。

新浪搜索

新浪搜索目前共分 15 大類,一萬多細目十餘萬個站點。新浪網的搜索器查詢順序依次為:目錄搜索、網站搜索、網頁全文檢索。

1 .新浪搜索引擎在關鍵字查詢框中允許單個詞或多個詞查詢,有多種符號都是表示「且」的關系,如 : 空格、逗號、加號和 & 。

2 .新浪搜索引擎還包含了進階搜索方式 : 在 keyword 前加「 t : " ,表示僅搜索網站標題 ; 在 keyword 前加「 u : " ,則表示搜索網站的網址。除此之外,新浪搜索還能更好地支持對數字的查詢。

中文 Excite

中文 Excite 搜索引擎目前只進行網頁的搜索,這一點對要找資料的網友很方便,但對於想查找網站的人來說,就毫無用處了。雖然如此,但我還是要詳細介紹中文 Excite ,因為它是目前資料及信息最全的網頁搜索引擎。這里收集了共兩百萬個網頁,並提供了五個「高性能檢索平台」幫助查詢者進行查找。最有特點的是檢索結果是按你提問的相關程度來排序,一般來說,越排在前面,相關程度越高。如果你發現某一檢索結果很符合你的檢索要求,按一下 " 檢索更多類似該網頁的文獻」鍵, Excite 中文檢索引擎會檢索出更多與此類似的網頁。使用比較專指的提問詞進行檢索,就可以搜索到更多想要找的文獻。例如:「電腦雜志」比「報刊雜志」能檢索到更多有關電腦信息的資料。有時,許多檢索結果都是來自同一網站,但分散在不同的目錄下。只要按一下「按網站顯示檢索結果」功能鍵,檢索結果就會變成一個按網站排列的目錄,在每個網站名稱下面,按相關程度列出該網站內所有與提問相關的網頁。利用「高性能檢索平台」,還能像職業信息專家一樣快捷准確地搜索到更多相關的文獻。我們還可以自己指定檢索資料庫(全部中文網頁資料庫,中國網頁資料庫,香港網頁資料庫,台灣網頁資料庫,新加坡網頁資料庫,以及西方語言網頁)來控制檢索結果的數量和顯示方式,並能十分容易地使用所有高級檢索功能。檢索時最常用的技巧如下:

1 .輸入關鍵字, Excite 的搜索引擎會自定檢索到符合信息需求的文獻。

2 .「片語檢索」也稱「完全符合檢索」,檢索結果必須含有與提問式完全一樣 ( 包括次序 ) 的字串。在搜索比較專指的文獻時,就要使用雙引號進行片語檢索。

3 .在檢索詞或字前面加上「+」來表示該詞或字一定要出現在檢索結果中;在檢索詞或字前面加上「-」來表示該詞或字一定不能出現在檢索結果中。使用時有一點十分重要,在「+」和「-」與其後面的檢索詞之間不能留有空格。

4 .使用布爾檢索符號。布爾檢索符號包括 AND (檢索結果必須含有所有用 AND 連接起來的關鍵字), OR (檢索結果必須至少含有一個用 OR 連接起來的關鍵字), NOT (檢索結果不能含有緊接在 NOT 後面的關鍵字)和()(表示要求檢索結果含有所有輸入的關鍵字)。這些符號必須大寫,而且前後要有一個空格。如果你使用了布爾檢索式, Excite 檢索引擎會自動停止概念分析的檢索功能,而檢索到與關鍵字吻合的網頁。

以上介紹了幾個最常用的搜索引擎使用技巧及方法,相信通過上述的學習,絕大部分網蟲都能正確而且高效率的使用這些搜索引擎。

⑺ 全文搜索引擎的使用方法也稱為

關鍵詞查詢
!!!

⑻ 什麼叫全文檢索

就是以數據諸如文字,聲音,圖像等為主要內容,以檢索文獻資料的內容而不是外表特徵的一種檢索技術·
主要該系統有TRS系統·天宇系統·等
與其他搜索引擎相比,全文搜索引擎的顯著特點是它能夠以文中任何一個有檢索意義的詞作為檢索入口,而且取得的檢索結果是原始文獻,而不是文獻線索
隨著計算機產業的發展,以計算機存儲設備為載體的電子信息愈來愈多,這些信息大致可分為兩類:結構化數據和非結構化數據,結構化數據指的是諸如企業財務帳目和生產數據、學生的分數數據等等,非結構化數據的則是一些文本數據、圖象聲音等多媒體數據等等。據統計,非結構化數據佔有整個信息量的80%以上。對於結構化數據,用RDBMS(關系資料庫管理系統)技術來管理是目前最好的一種方式。但是由於RDBMS自身底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢。而通過全文檢索技術就能高效地管理這些非結構化數據。
經過幾年的發展,全文檢索從最初的字元串匹配程序已經演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的大型軟體。由於內涵和外延的深刻變化,全文檢索系統已成為新一代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規范。
首先,我們關注的是查全率,即系統在進行某一檢索時,檢索出的相關資料量與系統資料庫中相關資料總量的比率。查准率則是保證我們找到最有用資料的一個關鍵,是系統在進行某一檢索時,檢索出的有用資料數量與檢索出資料總量的比率。檢索速度或者說響應時間是提高工作效率的保障,指的是從提交檢索課題到查出資料結果所需的時間。最基本的檢索速度是應該達「千萬漢字,秒級響應"。還有諸如收錄范圍(所查找的范圍)、用戶負擔(用戶在檢索過程中付出精力的總和)、輸出形式 (輸出信息表現形式)等指標也是衡量全文檢索系統優劣的要素。
搜索引擎應該是全文檢索技術最主要的一個應用。目前,搜索引擎的使用已成為排在收發電子郵件之後的第二大互聯網應用技術。搜索引擎起源於傳統的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的到排文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進行排序,最後輸出排序的結果。全文檢索技術是搜索引擎的核心支撐技術。
一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應是分類目錄導航和全文檢索的完美結合,具體包括以下幾個方面:
分類目錄導航的關鍵是檢索范圍,檢索范圍的限制能使得檢索結果不會太多、太濫;
全文檢索對於站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網頁;
有時利用分類目錄導航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;
必須有相關排序功能,因為當檢索結果太多時,用戶不可能一一瀏覽,大多數用戶只瀏覽前面幾條,沒有相關排序,可能准確的檢索結果排在後面,用戶不能瀏覽到,而排在前面的檢索結果卻相關性很少,造成用戶的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量並發用戶突發訪問、Web站點的動態特性、要求索引維護效率很高等方面。
目前的技術實現有Lucene,Solr,ElasticSearch等。全文檢索過程分為索引、搜索兩個過程:

索引(Indexing)
從關系資料庫中、互聯網上、文件系統採集源數據(要搜索的目標信息),源數據的來源是非常廣泛的。
將源數據採集到一個統一的地方,例如存儲系統,要創建索引,將索引創建到一個索引庫(文件系統)中,從源資料庫中提取關鍵信息,從關鍵信息中抽取一個一個詞,詞和源數據是有關聯的。也即創建索引時,詞和源數據有關聯,索引庫中記錄了這個關聯,如果找到了詞就說明找到了源數據(http的網頁、電子書、新聞等……)。
搜索(Search)
用戶執行搜索(全文檢索)編寫查詢關鍵字。
從索引庫中搜索索引,根據查詢關鍵字搜索索引庫中的一個一個詞。
展示搜索的結果。

⑼ 如何正確高效地使用搜索引擎

最重要的搜索工具,是搜索引擎。人們經常把人工編輯的網站分類目錄也叫做搜索引擎,但那是錯誤的,真正意義上的搜索引擎指的是網頁全文搜索引擎。網頁全文搜索引擎,其實是個大的索引表,記錄了每個網頁上出現過哪些關鍵詞,當你輸入某個關鍵詞搜索的時候,所有含有這個關鍵詞的網頁就被找出來,並按一定順序排列。網頁全文搜索引擎的信息量大、准確性高、功能強、搜尋資料的速度也快,可以搜到你從未想過,甚至你不敢想像的內容,但前提是你要掌握一點使用技巧。下面筆者就來介紹幾種最基本也是最有效的搜索技巧。 搜索之前先思考 搜索引擎本事再大,也搜索不到網上沒有的內容,而且,有些內容雖然存在網上,卻因為各種原因,而成為漏網之魚。所以在你使用搜索引擎搜索之前,應該先花幾秒種想一下,我要找的東西網上可能有嗎?如果有,可能在哪裡,是什麼樣子的?網頁上會含有哪些關鍵字? 有些東西你根本用不著麻煩搜索引擎的,比如要找個公司的電話,打個114的速度大概比搜索引擎快得多。又有些問題,可能很難用合適的關鍵字描述,或者不能直接用搜索引擎搜到,那你可以嘗試找個精通這個問題的朋友,或者尋找這方面的熱門論壇來問,這也是一種搜索方法。有時,你能選擇的最好搜索方法是放棄網路,跑一趟附近的圖書館,圖書館里有網上找不到的成噸的「信息」。當你確認你要找的信息適合通過搜索引擎在網上找之後,搜索到滿意結果的概率就大得多了。 各種搜索引擎的特點涇渭分明,如果你沒有為每次搜索分別選擇正確的搜索工具,你將浪費掉大量的時間。這次搜索,你應該使用新浪還是搜狐? Google還是網路? 分析你的需求,比較不同搜索引擎的強項和弱點,然後為這次搜索選擇最適合的搜索工具。 學會使用兩個關鍵詞搜索 如果一個陌生人突然走近你,向你問道:「北京」,你會怎樣回答?大多數人會覺得莫名其妙,然後會再問這個人到底想問「北京」哪方面的事情。同樣,如果你在搜索引擎中輸入一個關鍵詞「北京」,搜索引擎也不知道你要找什麼,它也可能返回很多莫名其妙的結果。因此你要養成使用多個關鍵詞搜索的習慣,當然,大多數情況下使用兩個關鍵詞搜索已經足夠了,關鍵詞與關鍵詞之間以空格隔開。 比如,你想了解北京旅遊方面的信息,就輸入「北京 旅遊」這樣才能獲取與北京旅遊有關的信息;如果想了解北京暫住證方面的信息,可以輸入「北京 暫住證」搜索;如果要下載名叫「xxxx」的MP3,就輸入「xxxx 下載」來搜索。 學會使用減號「-」 「-」的作用是為了去除無關的搜索結果,提高搜索結果相關性。有的時候,你在搜索結果中見到一些想要的結果,但也發現很多不相關的搜索結果,這時你可以找出那些不相關結果的特徵關鍵詞,把它減掉。 比如,你要找「申花」的企業信息,輸入「申花」卻找到一大堆申花隊踢足球的新聞,在發現這些新聞的共同特徵是「足球」後,輸入「申花 -足球」來搜索,就不會再有體育新聞來麻煩你了。 點擊搜索結果前先思考 一次成功的搜索由兩個部分組成:正確的搜索關鍵詞,有用的搜索結果。在你點擊任何一條搜索結果之前,快速地分析一下你的搜索結果的標題、網址、摘要,會有助於你選出更准確的結果,幫你節省大量的時間。當然,到底哪一個是你需要的內容,取決於你在尋找什麼,評估網路內容的質量和權威性是搜索的重要步驟。 一次成功的搜索也經常是由好幾次搜索組成的,如果對自己搜索的內容不熟,即使是搜索專家,也不能保證第一次搜索就能找到想要的內容。搜索專家會先用簡單的關鍵詞測試,他們不會忙著仔細查看各條搜索結果,而是先從搜索結果頁面里尋找更多的信息,再設計一個更好的關鍵詞重新搜索,這樣重復多次以後,就能設計出很棒的搜索關鍵詞,也就能搜索到滿意的搜索結果了。 善於改正錯誤 經常會有這樣的事情發生:你似乎已盡了全力來搜索,但是依然沒有找到需要的答案。這個時候,請不要放棄,認真回顧檢查你的搜索過程,也許只是因為一個小差錯。一個看上去毫無希望的搜索,很有可能在你檢討完自己的搜索策略後獲得成功。 下面描述了初學者搜索時容易犯的5個低級錯誤和解決方法,正是因為你經常犯這些錯誤,所以你總是得到無用的、荒謬的或者完全沒有意義的搜索結果。而一旦你認識到這些錯誤,將很容易把這些小鬼從你的搜索經歷中永遠驅逐出去。 常見錯誤1:錯別字 經常發生的一種錯誤是,你輸入的關鍵詞含有錯別字。筆者所做的統計表明,常有大量的錯誤搜索,光一個謝霆鋒就有「謝霆鋒」、「謝庭鋒」、「謝霆峰」、「謝廷鋒」、「謝庭峰」、「謝廷峰」6種查法,還有什麼「星際爭吧」、「以德制國」之類的,這樣的關鍵詞能搜索到什麼有用資料嗎?所以每當你覺得某種內容網上應該有不少、卻搜索不到結果時,你應該先查一下是否有錯別字。 常見錯誤2:關鍵詞太常見 搜索引擎對常見詞的搜索存在缺陷,因為這些詞曝光率太高了,以至於出現在成百萬網頁中,使得它們事實上不能被用來幫你找到什麼有用的內容。比如,搜索「電話」, 有無數網站提供跟「電話」相關的信息,從網上黃頁到電話零售商到個人電話號碼都有。所以當搜索結果太多太亂的時候,你應該嘗試使用更多的關鍵詞或者減號來搜索,不使用過於通用的詞彙來搜索,設計一個類似「上海 常用電話」這樣特殊的搜索關鍵詞,會給你真正有用的結果。當然,如果你想找的是一串汽車網站或一串MP3網站,那麼用「汽車」、「MP3」搜索就是正確的。 常見錯誤3:多義詞 要小心使用多義詞,比如搜索「Java」,你要找的信息究竟是太平洋上的一個島、一種著名的咖啡、還是一種計算機語言?搜索引擎是不能理解辨別多義詞的。最好的解決辦法是,在搜索之前先問自己這個問題,然後用短語、用多個關鍵詞或者用其他的詞語來代替多義詞作為搜索關鍵詞。比如用「爪哇 印尼」、「爪哇 咖啡」、「Java 語言」分別搜索可以滿足不同的需求。 常見錯誤4:不會輸關鍵詞,想要什麼輸什麼 搜索失敗的另一個常見原因是類似這樣的搜索:「現代愛情故事歌詞」、「信息早報在濟南發行情況」、「鈴羊車的各種圖案」、「上海到成都列車時刻表」。 網友錯把搜索引擎當成是聽話的服務員了,其實搜索引擎是很機械的,當你用關鍵詞搜索的時候,它只會把含有這個關鍵詞的網頁找出來,根本不管網頁上的內容是什麼。 而問題在於,沒有一個網頁上會含有「現代愛情故事歌詞」和「上海到成都列車時刻表」這樣的關鍵詞,所以搜索引擎也找不到這樣的網頁。但是真正含有你想找的內容的網頁,應該含有的關鍵詞是「現代愛情故事」、「歌詞」,「上海」、「成都」、「列車」、「時刻表」,所以你應該這樣搜索:「現代愛情故事 歌詞」、「信息早報 濟南 發行」、「鈴羊車 圖案」「上海 成都 列車 時刻表」。 明白了嗎?不要用你心中想的大白話去搜索,當搜索結果太少甚至沒有的時候,你應該輸入更簡單的關鍵詞來搜索,猜測你找的網頁中可能含有的關鍵詞,然後用那些關鍵詞搜索。 常見錯誤5:在錯誤的地方搜索 2001年7月23日這一天,正逢高考發榜,各大搜索引擎竟有超過100萬次以上的搜索跟高考查分有關。考生們不知道,搜索引擎從抓取網頁、解析、索引到提供檢索是有一個周期的,各搜索引擎的信息滯後周期從一周到一月不等,所以找最新內容應該去看新聞,用搜索引擎是找不到最新內容,只能找到一個星期或一個月以前的內容。另外,搜索引擎對動態內容,如:論壇、資料庫內容,以及帶frame結構的網頁檢索能力較弱,所以這類信息也不適合用搜索引擎搜索,而是應該去相關的網站尋找,當然,尋找相關網站的任務搜索引擎是當仁不讓的。 在你逐漸獲得網路搜索經驗的過程中,避免這些常見的搜索錯誤將成為一種自然而然的習慣。無論何時,當你得不到或得到意料之外的搜索結果時,記得檢查一下你用的搜索關鍵詞,分析一下搜索結果,弄明白發生了什麼事,你可能會發現又一個需要避免的搜索錯誤。 搜索引擎是個好東西,掌握使用技巧後,你會發現互聯網遠比想像中的精彩,而你竟能自由自在地翱翔於互聯網之上。讓筆者用一句話表達自己的感受——「我們若能更妥善地搜尋資料,實在已經改變世界。」

⑽ 全文搜索引擎的採用的技術

目前全文搜索引擎通常使用倒排索引技術。倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。
有兩種不同的反向索引形式:
一條記錄的水平反向索引(或者反向檔案索引)包含每個引用單詞的文檔的列表。 一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。[1] 後者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時間和空間來創建。

閱讀全文

與全文搜索引擎使用方法相關的資料

熱點內容
高壓消防水泵安裝方法 瀏覽:466
捕兔子最佳方法 瀏覽:418
組合鍵電腦有什麼記憶方法嗎 瀏覽:366
治療肩周炎的土方法 瀏覽:729
文胸正確的折疊方法 瀏覽:746
海姆立克法個人急救方法圖片 瀏覽:419
appleid在哪裡設置方法 瀏覽:337
sumifs的使用方法及實例 瀏覽:883
第三次復婚的最佳方法 瀏覽:144
明星怎麼增肥方法 瀏覽:467
安卓home虛擬鍵在哪裡設置方法 瀏覽:281
燒傷痛癢用什麼方法治療 瀏覽:985
碧緹福按摩儀使用方法 瀏覽:589
國家隊排球線路專項訓練方法 瀏覽:979
矛盾與解決方法作文 瀏覽:382
排列三計算方法視頻 瀏覽:334
正宗的干條燕窩食用方法 瀏覽:891
米蕎的食用方法是什麼 瀏覽:650
論工作分析的基本方法 瀏覽:92
前列腺癌治療新方法上海 瀏覽:757