Ⅰ 怎樣利用互聯網學習和研究
在互聯網上如何尋找信息
要在互聯網上獲得信息有不少基本方法:
1 如果有網址,直接訪問該網站
2瀏覽
3探索一個主題目錄
4使用網路搜索引擎進行搜索
5在Web上的資料庫中檢索信息,即所謂的「深度Web」
6 加入 e-mail討論組或者 Usenet新聞組
下面將詳細介紹上面的每一個方法。
1. 如果有網址,就直接訪問該網站
如果你知道要訪問的網站的網址,可以使用 Web瀏覽器來訪問該站點。需要的是在地址窗口輸入該URL。URL代表統一資源定位符( Uniform Resource Locator)。 URL指明了對應的電子文檔的互聯網地址。互聯網上的每個文件,無論其訪問協議是什麼,都有一個獨一無二的URL。 Web瀏覽器使用 URL來存取主機目錄中的文件。該文件隨之顯示在用戶計算機的屏幕上。
URL的格式為 protocol://host/path/filename
2. 瀏覽
瀏覽Web主頁可以找到有用的信息,這個方法雖然有趣但不常見。 因為鏈接是由主頁的創建者設定的,你不會預先知道這些鏈接會連接到哪裡。質量高的起始頁面通常包含高質量的鏈接。大學圖書館的網站就包含了鏈接到Web中的好的鏈接,這是你開始探索的好地方。
3.探索主題目錄
越來越多的大學,圖書館,公司,機構,甚至志願者正在創建主題目錄,以便對互聯網上部分信息進行分類。這些目錄按著主題分類,包含著同這些主題相關的互聯網資源的鏈接。Web上的主題目錄存儲在有重復但各不相同的資料庫中。大多數主題目錄提供搜索功能,可以讓用戶根據需要查詢資料庫。
何時使用主題目錄?對於一般的,需要探索的論題,以及供用戶瀏覽的論題,主題目錄是有用的。
有兩種基本類型的主題目錄:學術和專業目錄通常由行業專家創建和維護,以便為研究服務,而商業門戶網站中包含的目錄通常是為了滿足普通大眾的需要,且為了吸引用戶的訪問量。你需要判斷有關主題目錄是否適合你的需要。
位於美國加州大學的INFOMINE,就是一個學術性的主題目錄的範例。
Yahoo就是一個最著名的商業門戶的例子
不同的主題目錄在內容選擇方面,差別很大。例如著名的Yahoo在添加網頁到其資料庫中時,對於用戶提交的內容並不作仔細審核。因此它不是一個可靠的研究資源,且不應該用作研究。而INFOMINE僅選擇對於學術和研究團體有用的資源。需要考慮到你所訪問的目錄的搜集策略。對於這個問題的一個挑戰是:不是所有的目錄服務供應者都願意披露其搜集策略,同樣他們也不願意透露對其網站進行評論的人的身份和資質。不少主題目錄包含描述或者評估網站內容的註解的鏈接。來自知名評論人士的質量好的註解比諸如Yahoo! 這樣的由網站創建者寫的註解更有價值。
某些目錄是多年來的人們的智力勞動成果的結晶,了解這一點是有用的。所以,當在Web上開展研究時,查詢主題目錄是很重要的。
建議:
如果你打算查找大量的資源,可以試一試 圖書館的互聯網索引 。由美國聯邦政府支持的該索引,搜集了大量的加州圖書館的資源,以及對大量論題的網路資源的註解。 經過精心的和細致的搜集整理,加上其客觀的富有價值的註解,以及層次化的組織,使得該索引成為「知識界的 Yahoo」。
WWW虛擬圖書館是網路上最久遠的,也是最令人動心的主題了。其目錄包含了單個的主題的集合,其中不少主題是由位於全球的大學來維護的。
INFOMINE 是一個由加州大學維護的大型學術網站目錄,該目錄可以通過主題,關鍵字,或者標題來瀏覽。對於每個列出的網站都有描述。
4. 使用Web搜索引擎,開展研究
一個互聯網搜索引擎可以讓用戶輸入同論題相關的關鍵字,查到包含相關信息的網站。有多種支持各種互聯網協議的搜索引擎。例如,Archie用於搜索存儲在匿名FTP網站中的文件。
目前,Web本身已經成為互聯網環境的首選,位於Web中的搜索引擎越來越受到歡迎。Web搜索引擎能夠提供位於互聯網中的大量網站的信息。不少搜索引擎匯集了多種互聯網協議的資料庫,包括HTTP, FTP和Usenet。它們也能夠在Web中深入搜索到多媒體或者其他類型的文件,且可進行單項搜索。雖然Web搜索引擎主要由私營公司開發,但其中的大多數是免費的。
一個Web搜索引擎包含三個部分:
爬蟲:能夠從一個鏈接到另外一個鏈接,遍歷網路,且識別和閱讀網頁的程序。 索引:包含由爬蟲搜集的網頁的副本的資料庫 搜索引擎機制: 可以讓用戶查詢索引的軟體,通常根據相關度返回結果。
注意爬蟲程序是不加選擇地進行遍歷的,要知道一些搜集到的資源可能是過時的,不準確或者不完整的。剔除這些不準確的資源,其他的查到的資源當然是有根有據的和有價值的。需要仔細評估所有的搜索結果。
大多數搜索引擎使用時,是在搜索項中填寫表格,之後請求搜索。該搜索引擎查詢其索引,之後生成一個包含你的搜索項的部分或者全部內容的鏈接資源的頁面。這些資源列表的排列通常是有次序的,對於搜索內容的打分比較曾經是個流行的方法,如果你的搜索項在一個文檔中(包括在文檔的標題中,在文檔的開始,在文檔的結束位置等)出現的次數越多,那麼該文檔在就在搜索結果列表中就越處於開始的地位。 這類引擎被認為是第一代搜索引擎。
在搜索引擎技術中更為復雜的一項技術是根據概念,關鍵字,網址,鏈接或者流行度來對搜索結果排序。支持這些功能的搜索引擎被認為是第二代搜索引擎。這些搜索引擎對排序結果進行了改進。這是因為在決定相關度的時候,需要加上人為因素。例如,Google根據鏈接到其他頁面的網頁的排序得分對搜索結果進行排序。 如果有其他得分高的頁面鏈接到該頁面,那麼該頁面的得分就高。這個策略結合了技術和人為的判斷。
所有的搜索引擎都有查尋規則。在開始搜索之前,你需要閱讀幫助文件,在線教程也可以幫助你學會這些規則。本文的最後列出了一些推薦教程。
建議:
從Google開始。這是個著名的第二代搜索引擎,其頁面的排序是基於熱門網頁鏈接到的數量來決定的。包含這些鏈接的網頁越熱門,該頁面的排列位置越靠前。這些熱門網頁的排列位置同樣也是這樣確定的。 這里用到的思想是:高質量的網頁可以通過另外一個高質量的網頁的鏈接找到。Google在市場上大獲成功,這就是該排序理念的見證。
另外一個有趣的鏈接排序引擎是Teoma。該搜索工具把搜索結果組成為三個部分:按照得分高低排序的網頁列表,專家給出的相關網站的鏈接, 以及基於論題關鍵字的概念分類。這些分類是動態生成的,可以細化你的搜索結果。排序同Google有些不同,Teoma在搜索論題時,在同一類別中來對網頁排序。 它們被稱為「特定主題的流行度」。
如果你的論題不太明確,或者你打算一次用一個搜索語句獲得多個搜索引擎的結果,那麼Ixquick 是個好去處。該服務同時使用多個搜索工具,並返回剔除了重復頁面的搜索結果。這種搜索處理稱為元搜索。值得一提的是:Ixquick在源搜索服務中,僅僅返回最靠前的10個相關結果。這就意味著你一次可以使用多個搜索引擎來查詢。其他推薦的元搜索引擎包括 Vivisimo和ProFusion。
5. 探索「深度Web」
「深度」或者「不可見」Web的概念近來開始浮現,這是指存儲在Web資料庫中的,但搜索引擎訪問不到的內容。換句話說,對於搜索引擎來說是「不可見」的。不同於檢索靜態頁面,爬蟲程序無法進入到資料庫中檢索內容,以往,這些資料庫數量少,被稱為專門資料庫,主題資料庫等。
在不可見Web中訪問信息的最好方法是搜索這些資料庫,這些資料庫包羅萬象,從學術資源到商業信息。近來,動態生成的信息很可能是存儲在資料庫中,包括新聞,求職信息,飛機航班信息等等。隨著通過Web訪問的資料庫數量的增加,通過資料庫來在Web上尋找信息將成為主流。
其他未被爬蟲搜集的內容包括非文本文件,諸如多媒體文件,圖像文件,以及象PDF這樣的非標准格式文件。Google對此是個例外,它可以檢索到PDF, Word和其他文檔。
注意:不少搜索引擎網站以及商業門戶網站把能夠搜索深度Web作為其服務項目之一,這種內容匯集是大勢所趨。例如,你可以訪問AltaVista,查找新聞,地圖,職位信息,拍賣,購物信息等等,所有這些都處於爬蟲程序搜索的范圍之外,另外一個例子,Google把 PDF和Microsoft Office文件的檢索功能集成到其通用搜索服務中。
此處列舉了一些能夠搜索深度Web的網站:
The Invisible Web
http://www.profusion.com/
擁有超過10,000個資料庫的目錄,可以搜索你所需要的資料庫
Invisible-web.net
http://www.invisible-web.net/
尤其適合於研究人員,擁有高質量的資料庫
Search.Com
http://www.search.com/
來自CNET的數十個基於論題的資料庫
6. 加入電子郵件討論組或者USENET新聞組
加入數以千計的電子郵件討論組或者Usenet新聞組。這些討論組涵蓋了大量論題。你可以提出專業問題且能夠得到來自其他人的回答。加入這些組之後,你每天就會收到一份你所感興趣的論題的新聞簡報。在互聯網上,這些討論組提供了一個很好的途徑來跟蹤你的專業課題。另外,討論組可以幫助你找到你需要的信息,無論是在線的和離線的。
有一些學術機構的電子郵件討論組,不少論題是關於自然科學的,如果在參與者中找到一些專家是不奇怪的,Usenet新聞組涵蓋的論題的范圍更廣,參與者中有不少專業人士。對於任何論壇中的觀點和信息要小心評估。也要注意一小部分電子郵件討論組也發布到Usenet新聞組。例如,早期音樂電子郵件組EARLYM-L也存在於新聞組 rec.music.early。
電子郵件討論組由軟體程序管理,常見的程序有三種:Listserv, Majordomo和Listproc。使用這些程序的命令類似。
新聞組列表可以通過新聞閱讀程序訪問,諸如Netscape Communicator 這樣的Web瀏覽器也包含新聞閱讀器。這就可以在圖形環境下方便地訪問Usenet。
有一個很好的,基於Web的目錄可以幫助找到電子郵件討論組和Usenet新聞組,這就是Tilen.et, 網址為: http://tile.net/.
WEB搜索引擎實戰
如何形成查詢語句
進行資料庫搜索需要進行三個步驟:
1明確你的概念
當進行資料庫搜索時,你需要把你的論題分解成幾個部分,例如,如果你打算尋找美國總統布希和民主黨之間的預算協定的信息, 這里有三個概念:布希,民主黨,預算。
2對於每個概念,列出關鍵字
一旦明確了概念,就需要列出描述每個概念的關鍵字,一些概念也許只有一個關鍵字,其他一些概念則可能有若干關鍵字。
3 在你的關鍵字中明確邏輯關系
一旦明確了進行搜索的關鍵字,就需要建立這些關鍵字之間的邏輯關系。此處正式的名稱是布爾邏輯。布爾邏輯可以通過使用邏輯運算符 AND, OR和 NOT 來明確搜索項之間的關系。
搜索語句 搜索結果
World War I ANDWorld War II 這兩個條件都滿足的條件
World War I OR World War II 至少包含其中之一的條件
World War I NOT World War II 包含條件World War I 但不包括World War II的條件
一些搜索引擎可以進行布爾搜索,但沒有顯式用到邏輯運算符。 例如,你被要求列出所有搜索條件,並選擇搜索所有這些條件。這就表示AND邏輯。指明使用其中的任何一個條件,就表示OR邏輯。大多數搜索引擎使用一種隱含的布爾邏輯,其中用符號或者空格來表邏輯關系。例如, +bears +hibernation 表示 AND邏輯。
某些搜索引擎可以使用鄰近度運算符。這是一種規定了源文件中單詞之間的距離的AND邏輯。例如, AltaVista使用NEAR運算符。考慮如下搜索:布希 NEAR預算。在AltaVista中,這兩個單詞在源文件中相距不超過10個單詞。這就可以幫助你在搜索結果中保證了相關度。
大多數Web搜索引擎不能用一個搜索語句處理包含上面步驟2中的所有條件。 你可能需要使用不同的組合來修正的你的搜索,直到找到滿意的結果。例如,你可以從布希,民主黨,預算協定開始,用AND邏輯連接這些條件。看看你的搜索結果,如果找不到,,用預算概念中的替換關鍵字重復上述過程。根據一開始的搜索結果,來看看需要添加哪些新搜索項。
要了解更多規范化搜索的信息,請參見互聯網上的布爾搜索。
進行搜索的11條技巧
1在每個搜索網站上閱讀指南,搜索的技巧取決於你使用的搜索引擎。在不同的搜索引擎中有大量選項。
2如果你進行多項條件的搜索,要清楚使用的布爾邏輯類型。例如,關於緯度和溫度的關系的搜索在不少Web搜索引擎上可以組合成: +緯度 +溫度,採用邏輯AND。
3 採用邏輯OR時,在搜索語句中包含同義詞或替代詞。
4 檢查拼寫。
5 如果搜索引擎區分大小寫,利用大寫的好處。
6 如不滿意搜索結果,用替代詞語再次搜索。
7 嘗試從不同的信息源,進行搜索,以便獲得多種結果。信息源包括 Usenet新聞組,互聯網FAQ,目錄中的評論頁面等等。
8 嘗試不同的搜索引擎,沒有兩個搜索引擎在同一索引中檢索。
9 嘗試可以同時啟動多個搜索引擎的搜索引擎。注意你將失去高級查詢選項功能,因為不是所有引擎都支持同一種查詢格式。
10 如果得到的搜索結果太多,或得到不相關的結果:
進行相關領域搜索
添加概念單詞,一些引擎支持在現有的搜索結果中再次搜索。 可以在Hotbot或者 Lycos上試試該功能。
使用針對你的論題的單詞,除非打算進行領域搜索,避免使用內涵廣泛的單詞。
使用布爾邏輯運算符AND(+),連接合適的項,這樣每一項都出現在搜索結果中。
如果可以的話,使用鄰近度運算符尋找文檔中靠近的項。Lycos提供了多種搜索項的鄰近度選項。
如果搜索項是個語句,用引號把它括起來,例如「全球變暖」
使用布爾運算符NOT,剔除不需要的條件。
11如果你得到的結果太少:
丟棄不太重要的概念,以便加寬主題內涵。
使用更為一般化的詞彙。
對於單個的概念,使用替代性的項或者拼寫,並用布爾邏輯運算符OR連接。
在一些搜索引擎上,嘗試尋找相似或者相關文檔選項。 例如Google和ProFusion就提供該功能。