本科《信息檢索與利用》教材配套PPT課件
本科《信息檢索與利用》教材配套PPT課件,信息檢索與利用,本科,信息,檢索,利用,教材,配套,PPT,課件
信息檢索與利用信息檢索與利用第6章 計算機與互聯(lián)網(wǎng)信息檢索6.16.26.3計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識搜 索 引 擎計算機信息檢索技術6.4電子信息資源6.5百度和谷歌6.6計算機檢索過程與基本功能6.7網(wǎng)絡信息檢索策略與技巧學習目標了解計算機信息檢索的發(fā)展過程及網(wǎng)絡基礎知識。了解搜索引擎有關知識。了解計算機信息檢索技術。掌握百度和谷歌的使用方法。了解計算機檢索過程與基本功能。掌握網(wǎng)絡信息檢索策略和技巧。第6章 計算機與互聯(lián)網(wǎng)信息檢索6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識 計算機信息檢索的發(fā)展過程6.1.1 (1)20世紀50年代末至60年代末,國外研制和建立了許多信息檢索系統(tǒng),并取得了一定的進展。其工作方式是傳統(tǒng)的批處理檢索方式。這一階段數(shù)據(jù)的存取與通信能力比較差。(2)20世紀70年代初至80年代末,產(chǎn)生并發(fā)展了聯(lián)機情報檢索系統(tǒng)。其中,美國國家醫(yī)藥圖書館中心建立的在線計算機圖書館中心OCLC、SDC公司建立的System Development Company及Lockheed Corporation的Dialog系統(tǒng)都是在線商用數(shù)據(jù)庫查詢系統(tǒng)。這一階段的特點是聯(lián)機數(shù)據(jù)庫集中管理,具有完備的數(shù)據(jù)庫聯(lián)機檢索功能,但其數(shù)據(jù)庫通信能力較差。(3)20世紀90年代以來,系統(tǒng)大多采用分布式的網(wǎng)絡化管理,其信息資源的主要特點是:數(shù)字形式表達、多媒體和多載體、內(nèi)容覆蓋社會各領域、分布無序、難于規(guī)范化和結構化、內(nèi)容特征抽取復雜、用戶界面要求較高等。這些特點導致了信息處理從傳統(tǒng)模式向新型模式的轉(zhuǎn)變,如體系結構從終端主機方式到客戶服務器結構方式;網(wǎng)絡環(huán)境從局域網(wǎng)到廣域網(wǎng)等開放網(wǎng);應用接口從封閉界面到WWW和Z39.50等;信息結構從結構化到非結構化;系統(tǒng)功能從單純信息檢索到綜合信息管理和服務等。其中較著名的系統(tǒng)有Altavista、Yahoo、Web Crawler等。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識InternetInternet1 1)網(wǎng)絡基礎知識6.1.2 Internet(因特網(wǎng))是一個以TCP/IP網(wǎng)絡協(xié)議連接各個國家、各個地區(qū)、各個機構的計算機網(wǎng)絡的數(shù)據(jù)通信網(wǎng),它將數(shù)萬個計算機網(wǎng)絡、數(shù)千萬個主機互聯(lián)在一起,覆蓋全球。從信息資源的角度講,Internet是一個集各部門、各領域的信息資源為一體的,供網(wǎng)絡用戶共享的信息資源網(wǎng)。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識WWWWWW2)2)WWW(萬維網(wǎng))是近年來在Internet上廣泛使用的網(wǎng)絡信息查詢系統(tǒng),是一個相互連接在一起,通過Web瀏覽器來訪問的超文本文檔系統(tǒng)。瀏覽器中看到的網(wǎng)頁,可能包含文本、圖像及其他的多媒體,通過文檔之間的超鏈接,可以從一個網(wǎng)頁瀏覽到其他網(wǎng)頁,它采用Client/Server(客戶/服務器)結構。Server一般建在Windows NT或UNIX等操作系統(tǒng)上,提供瀏覽器瀏覽所需的資源。其中在Windows系統(tǒng)上運行的WWW瀏覽器主要有IE、360瀏覽器、火狐瀏覽器、搜狗瀏覽器等。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識HTMLHTML3)3)HTML(超文本標識語言)是為WWW建立超文本文件的語言。普通文本文件和印刷型文獻的內(nèi)容以線性排列,知識點之間固有的網(wǎng)狀聯(lián)系無法予以體現(xiàn)。在超文本文件中,文本中的某些內(nèi)容通過鏈接項(由高亮度、下畫線或編號等進行標示的一些詞和其他文本或文件)連接起來,即超文本文件是指含有多個指向其他文本、圖像、聲音或動畫文件的指針,使它們連接在一起的文件,由此實現(xiàn)在Internet上的漫游。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識網(wǎng)站和網(wǎng)頁網(wǎng)站和網(wǎng)頁4)4)網(wǎng)頁是用HTML等語言寫成的文本文件,而網(wǎng)站則是有獨立的域名,由若干相關的網(wǎng)頁組成的一個站點。一般情況下,一個網(wǎng)站都有一個被稱為主頁的頁面,起著引導訪問者瀏覽網(wǎng)站的作用,或者說是用戶通過超鏈接訪問其他web頁或服務器的起始點。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識WWWWWW瀏覽器瀏覽器5)5)瀏覽器是WWW用來瀏覽網(wǎng)站和頁面信息的客戶程序。要獲取WWW服務,用戶必須使用合適的瀏覽軟件。通過瀏覽器,用戶可以十分方便地在Internet上獲取所需要的信息。目前最為普遍的瀏覽器有微軟公司開發(fā)的Internet Explorer。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識互聯(lián)網(wǎng)協(xié)議地址、域名和互聯(lián)網(wǎng)協(xié)議地址、域名和URLURL6)6)互聯(lián)網(wǎng)協(xié)議(簡稱IP)地址是互聯(lián)網(wǎng)信息定位必需的地址,一般為4段數(shù)字,中間用圓點隔開,如2118517771。每臺上網(wǎng)計算機都有一個唯一的IP地址,它的作用類似于上網(wǎng)計算機在信息高速公路上的門牌號碼。6.1 計算機信息檢索的發(fā)展過程和網(wǎng)絡基礎知識6.2 搜 索 引 擎 搜 索 引 擎6.2.1 搜索引擎也稱為蜘蛛或者爬蟲,這是因為它們會派出一個機器人到各個網(wǎng)站上去搜索特定的內(nèi)容。它們將找回來的內(nèi)容編成索引,方便用戶在用關鍵字檢索時,能夠快速查到相應結果,并呈現(xiàn)在用戶面前。搜索引擎是一種利用網(wǎng)絡自動搜索技術采集、索引Internet上的各種信息資源,并為用戶提供檢索服務的工具,其功能包括信息采集、信息加工、信息檢索;或者說搜索引擎是提供給用戶進行關鍵詞、詞組或自然語言檢索的工具。簡言之,搜索引擎就是一種在 Internet上查找信息的工具。用戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中進行檢索,并將檢索結果反饋給用戶。搜索引擎一般都有固定的顯示格式,內(nèi)容詳簡程度不一,常常帶有URL、題名、標題、關鍵詞、摘要、超鏈接文件大小、檢索結果總數(shù)、相關度估計、評論等,如圖6-1所示。圖圖6-1 6-1 百度搜索引擎頁面(示例)百度搜索引擎頁面(示例)6.2 搜 索 引 擎 搜索引擎的檢索方法6.2.2搜索引擎的常用檢索方法搜索引擎的常用檢索方法1)1)(1)(1)簡單搜索簡單搜索 簡單搜索是指輸入一個單詞(關鍵詞),提交搜索引擎檢索并反饋結果。它也稱為單詞搜索。這是最基本的檢索方法。6.2 搜 索 引 擎(2)(2)詞組搜索詞組搜索 詞組搜索是指輸入兩個單詞以上的同組(短語),提交搜索引擎檢索并反饋結果。它也稱為短語搜索?,F(xiàn)有搜索引擎一般都約定把詞組或短語放在引號(“”)內(nèi)。如果查找的是一個詞組或多個漢字,最好的辦法是將它們用雙引號括起來,這樣得到的結果最精確。這就稱為使用雙引號進行精確查找。一般來說,在網(wǎng)頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結果是最好的辦法。6.2 搜 索 引 擎(3)(3)高級搜索高級搜索 高級搜索是指用布爾邏輯組配方式檢索或在高級搜索界面將檢索策略輸入檢索框中進行檢索。常用的邏輯算符為AND(與)、OR(或)、NOT(非)。恰當應用這些邏輯運算,可以使搜索結果非常精確,而且可以用括號將搜索詞組合起來,如(火星)OR金星AND探測NOT(行星探測)。6.2 搜 索 引 擎搜索引擎的其他檢索方法搜索引擎的其他檢索方法2)2)(1)(1)語句搜索語句搜索 語句搜索是指輸入任意自然語言文句,提交搜索引擎檢索并反饋結果,這種方式也稱為任意檢索,實際上就是自然語言檢索。并非所有的搜索引擎都支持這樣的檢索,而且不同搜索引擎對語句中詞與詞之間的關系處理方式不同。6.2 搜 索 引 擎(2)(2)目錄搜索目錄搜索 目錄搜索是指按搜索引擎提供的分類目錄逐級檢索。用戶一般不需要輸入檢索詞,而是按照檢索系統(tǒng)所給的幾種分類項目,選擇類別進行搜索。它也稱為分類搜索6.2 搜 索 引 擎 搜索引擎的檢索方法6.2.3獨立搜索引擎獨立搜索引擎1)1)(1)(1)國外搜索引擎國外搜索引擎Google雅虎Ask eeves Excite6.2 搜 索 引 擎(2)(2)中文搜索引擎中文搜索引擎搜狗搜狗 百度百度360360搜索搜索天網(wǎng)天網(wǎng)中搜中搜6.2 搜 索 引 擎元搜索引擎元搜索引擎2)2)元搜索引擎又稱為多元搜索引擎、集成搜索引擎、集合型搜索引擎,是指在一個統(tǒng)一的檢索界面下,可選擇多個搜索引擎同時進行查詢。元搜索引擎把用戶輸入的關鍵詞以特定的格式發(fā)送至多個獨立搜索引擎,將多個獨立搜索引擎返回的結果按一定次序和格式再返回到用戶。6.2 搜 索 引 擎目錄式搜索引擎目錄式搜索引擎3)3)目錄式搜索引擎一般又稱為網(wǎng)絡目錄、分類式搜索引擎、主題指南等,它是將所搜集的網(wǎng)絡信息按一定的分類方法進行加工整理,建立以分類查詢和分類導航為主,并集成關鍵詞檢索方法的搜索引擎,如Yahoo(http:/)。6.2 搜 索 引 擎其他搜索引擎其他搜索引擎4)4)FTP搜索引擎 Blog(博客)搜索引擎 答案搜索引擎和咨詢服務系統(tǒng)BT搜索引擎(1 1)(2 2)(4 4)(3 3)6.2 搜 索 引 擎6.3 計算機信息檢索技術 全文檢索技術6.3.1 全文檢索(full-text retrieval)是指以文本信息作為檢索對象建立全文數(shù)據(jù)庫,除了具有布爾邏輯檢索功能外,還具有文本檢索功能,并允許用戶以自然語言檢索,直接獲得原文中的有關章節(jié)和段句。在信息檢索領域,全文檢索一直是一個比較復雜的問題。與普通數(shù)據(jù)庫檢索所涉及的結構化數(shù)據(jù)查詢不同,全文檢索不僅要查詢結構化數(shù)據(jù),而且還要查詢非結構化數(shù)據(jù),這就必然會涉及自然語言的理解、分詞、切詞技術以及人工智能技術等。全文檢索技術的出現(xiàn)促使了信息領域的一場革命。與標引檢索相比,全文檢索提供了全新的、強大的檢索功能,可以直接根據(jù)文獻資料的內(nèi)容進行檢索,支持多角度、多側(cè)面地綜合利用信息資源;全文檢索技術是發(fā)現(xiàn)信息、分析和過濾信息、信息代理、信息安全控制等應用的主要技術基礎。以全文檢索為核心技術的搜索引擎已經(jīng)成為網(wǎng)絡時代的主流技術之一。6.3 計算機信息檢索技術 多媒體信息檢索技術6.3.3 超文本信息檢索系統(tǒng)是以超文本網(wǎng)絡為基礎的文獻檢索系統(tǒng)。正文信息是以節(jié)點而不是以字符串作為信息的基本單元,節(jié)點間通過鏈進行連接。在檢索文獻時,節(jié)點間的多種鏈接關系可以動態(tài)地選擇性激發(fā),從而可根據(jù)思維聯(lián)想或新信息的需要,通過鏈從一個節(jié)點跳到另一個節(jié)點,由此形成隨著人們思維和需要的流動而構成的數(shù)據(jù)鏈,體現(xiàn)出一種完全不同于過去順序檢索方式的聯(lián)想式檢索。6.3 計算機信息檢索技術 檢索多媒體信息早期的方法是基于文本描述(對多媒體信息添加文本說明),現(xiàn)在主要研究基于內(nèi)容的多媒體檢索技術?;趦?nèi)容的檢索是指根據(jù)媒體和媒體對象的內(nèi)容語義及上下文聯(lián)系進行檢索,它利用圖像處理、模式識別、計算機視覺、圖像理解等學科中的一些方法作為部分基礎技術,首先進行特征抽取,再計算其相似性。對多媒體內(nèi)容的分析、自動摘要、索引和查詢方法的研究已取得較大的進步。為解決多媒體數(shù)據(jù)的檢索問題,除了可以分別利用基于關鍵字和基于內(nèi)容等檢索方法各自的優(yōu)勢外,還可以通過相關反饋技術、語義傳播技術以及交互學習技術把這兩種方法有機地結合起來,從而大幅提高檢索系統(tǒng)的檢索效率。6.3 計算機信息檢索技術 多媒體信息檢索技術6.3.3 多媒體信息檢索是對圖像、文本、聲音、動畫等多媒體信息進行識別和獲取所需信息的過程。多媒體信息檢索與傳統(tǒng)信息檢索相比,具有信息類型復雜、交互、同步、實時、界面友好、操作簡單等特性。多媒體信息檢索系統(tǒng)并不是簡單地對多種媒體進行檢索,它必須既能對以文本信息為代表的離散媒體進行檢索,也能對以圖像、聲音等為代表的連續(xù)媒體的內(nèi)容進行檢索。6.3 計算機信息檢索技術 基于內(nèi)容的檢索技術6.3.4 基于內(nèi)容的檢索(簡稱CBR)是隨著多媒體技術的發(fā)展而出現(xiàn)的多媒體數(shù)據(jù)庫查詢與檢索技術。基于內(nèi)容的檢索是指根據(jù)媒體對象的語義、特征進行檢索,如圖像中的顏色、紋理、形狀,視頻中的鏡頭、場景、鏡頭的運動,聲音中的音調(diào)、響度、音色等?;趦?nèi)容的檢索是一項實用性強的高技術,能廣泛用于遙感圖像處理和空間探測、醫(yī)療圖像、建筑工程圖、天氣預報、公安、藝術館藏資料管理等許多領域。尤其隨著Internet的發(fā)展,視頻、音頻、圖形、圖像將成為網(wǎng)上的主要資源,基于內(nèi)容的檢索技術則是不可缺少的檢索手段。6.3 計算機信息檢索技術6.4 電子信息資源 搜索引擎的檢索方法6.4.1機編文獻目錄數(shù)據(jù)庫信息階段機編文獻目錄數(shù)據(jù)庫信息階段1)1)電子信息資源的真正起源是美國國立醫(yī)學圖書館在20世紀60年代中期用電子計算機建立的MEDLARS系統(tǒng),用于醫(yī)學文獻的檢索。隨后,美國其他一些機構也相繼使用電子計算機編輯文摘期刊,從而客觀上編制成了機器可讀的書目文檔,稱為文獻目錄型數(shù)據(jù)庫。這種文獻目錄型數(shù)據(jù)庫由于使用計算機來編輯、檢索文獻信息,因此可以將機編文獻目錄型數(shù)據(jù)庫的研制視為電子信息資源形成的開端。機編文獻目錄數(shù)據(jù)庫信息階段機編文獻目錄數(shù)據(jù)庫信息階段2)2)國際聯(lián)機檢索就是用戶使用終端設備,遠距離地從國際聯(lián)機檢索中心迅速而準確地獲取電子文獻信息,使知識信息得到廣泛而有效的傳播和利用,其實質(zhì)是數(shù)據(jù)庫和通信的結合。6.4 電子信息資源光盤信息階段光盤信息階段3)3)由于光盤在存儲電子信息資源方面具有記錄密度高、容量大、成本低、體積小、壽命長、可實現(xiàn)隨機存取和檢索費用低廉等優(yōu)點,因此,光盤被廣泛用于存儲、檢索電子信息資源,并產(chǎn)生了一批生產(chǎn)系列光盤的公司,如美國UMI公司和銀盤公司等。光盤記載的電子信息資源并不局限于文獻信息,還包括各種軟件,但可用于檢索的仍以文獻信息為主。6.4 電子信息資源網(wǎng)絡信息階段網(wǎng)絡信息階段4)4)Internet是網(wǎng)絡的網(wǎng)絡,是網(wǎng)絡通過互聯(lián)而形成的全球網(wǎng),已延伸到地球上幾乎每個國家。在Internet上的所有主機都采用TCP/IP連接和通信,網(wǎng)上各種計算機都以該協(xié)議規(guī)定的方式進行數(shù)據(jù)交換,使Internet信息資源主要包括電子報刊、電子新聞、電子報告、電子論壇、會議資料、各種軟件資料、圖像文件、聲音文件和電子游戲等實現(xiàn)共享。總之,Internet是目前世界上資料最多、門類最全、規(guī)模最大的信息庫,是人們獲取信息的重要來源。6.4 電子信息資源 電子信息資源的類型和特點6.4.2電子信息資源的類型電子信息資源的類型1)1)(1)(1)按信息的載體分類按信息的載體分類聯(lián)機網(wǎng)絡信息資源單獨發(fā)行的信息資源,以光盤出版物為主。6.4 電子信息資源(2)(2)按信息的媒體形式分類按信息的媒體形式分類文本信息資源超文本信息資源多媒體信息資源超媒體信息資源6.4 電子信息資源電子信息資源的特點電子信息資源的特點2)2)(3)(3)(2 2)(4)(4)(1)(1)信息存儲形式為文本超文本多媒體超媒體。以現(xiàn)代信息技術為記錄手段,是一種數(shù)字化的信息資源。內(nèi)容豐富。存儲介質(zhì)發(fā)生轉(zhuǎn)換。6.4 電子信息資源 (7)(7)(6)(6)(8)(8)(5)(5)數(shù)據(jù)結構具有通用性、開放性和標準化的特點。便于各種媒介信息的一體化。交互式性能增強。具有高度的整合性。6.4 電子信息資源6.5 百度和谷歌 百度6.5.1百度簡介百度簡介1)1)百度于2000年1月創(chuàng)立于北京中關村,是全球最大的中文搜索引擎之一。百度是中文搜索引擎中的后起之秀,其目標是成為全球最大的中文搜索引擎,目前的數(shù)據(jù)庫中收錄的中文頁面已經(jīng)過億,而且還在以每天數(shù)十萬的速度增加。百度提供相關搜索和網(wǎng)頁快照等功能,高級搜索中還可以按地區(qū)(中國的省、市、自治區(qū))進行相關搜索,以限定網(wǎng)站(site:)、限定地址(url:)、限定在網(wǎng)頁標題(intitle:)搜索。百度搜索幫助中心可以幫助用戶解決許多問題。百度幫助中心包括新手指南、百度產(chǎn)品、搜索特色、搜索技巧等。百度搜索中比較常用的有網(wǎng)頁搜索、新聞搜索、圖片搜索、博客搜索、視頻搜索、文檔搜索等。在百度的“知道”里可以尋求某一問題的答案。工具書有萬年歷、成語詞典、漢語字典、百科詞典等。百度首頁如圖所示。6.5 百度和谷歌網(wǎng)頁搜索特色功能網(wǎng)頁搜索特色功能2)2)(1)(1)百度快照百度快照 如果無法打開某個搜索結果,或者打開速度特別慢,該怎么辦?“百度快照”能幫助解決問題。每個被收錄的網(wǎng)頁,在百度上都存有一個純文本的備份,稱為“百度快照”。百度速度較快,可以通過“快照”快速瀏覽頁面內(nèi)容。不過,百度只保留文本內(nèi)容,所以對于圖片、音樂等非文本信息,快照頁面還是直接從原網(wǎng)頁調(diào)用。如果無法連接原網(wǎng)頁,那么快照上的圖片等非文本內(nèi)容就無法顯示。6.5 百度和谷歌(2)(2)相關搜索相關搜索 有時候搜索結果不佳是因為選擇的查詢詞不妥,可以通過參考別人是怎么搜索的來獲得一些啟發(fā)。百度的“相關搜索”,就是和想要的搜索很相似的一系列查詢詞。百度相關搜索排列在搜索結果頁的下方,按搜索熱門度排序。6.5 百度和谷歌(3)(3)專業(yè)文檔搜索專業(yè)文檔搜索 很多有價值的資料在互聯(lián)網(wǎng)上并非是普通的網(wǎng)頁,而是以Word、PowerPoint、PDF等格式存在。百度支持對Office文檔(包括Word、Excel、PowerPoint)、Adobe PDF文檔、RTF文檔的全文搜索。要搜索這類文檔,需要在普通的查詢詞后面加一個“filetype:文檔類型”限定?!癴iletype:”后可以跟以下文件格式:doc、xls、ppt、pdf、rtf、all。其中,all表示搜索所有這些文件類型。6.5 百度和谷歌(4)(4)高級搜索語法高級搜索語法把搜索范圍限定在url鏈接中inurl。把搜索范圍限定在特定站點中site。精確匹配雙引號和書名號。要求搜索結果中不含特定查詢詞。把搜索范圍限定在網(wǎng) 頁標題中intitle。6.5 百度和谷歌 谷歌6.5.2谷歌簡介谷歌簡介1)1)谷歌是當今最流行的搜索引擎,自1999年創(chuàng)立以來,很快超過了其他的搜索引擎,業(yè)界排名第一,據(jù)目前的統(tǒng)計表明,谷歌占據(jù)了搜索市場的80。同時,谷歌也為其他搜索站點提供服務,其中包括著名的Yahoo和網(wǎng)易。6.5 百度和谷歌 谷歌擁有巨大的檢索數(shù)據(jù)庫,支持包括中文簡體和中文繁體在內(nèi)的43種語言,并能根據(jù)用戶的瀏覽器設定自動使用本地語言界面;谷歌的搜索速度極快,其專利網(wǎng)頁級別技術PageRank能夠提供準確率極高的搜索結果;智能化的“手氣不錯”功能,可盡可能提供最符合要求的網(wǎng)站;“網(wǎng)頁快照”能從谷歌服務器里直接取出緩存的網(wǎng)頁,使被查網(wǎng)站在出現(xiàn)故障時,用戶仍能獲得一部分資料;谷歌可直接搜索圖片、新聞組及多種二進制文件。6.5 百度和谷歌 谷歌支持布爾邏輯“與”“或”“非”運算,支持“+”“”“()”符號操作,支持詞組精確檢索。谷歌最大的檢索特性還在于提供了豐富的字段檢索功能,而且為不同資源類型提供了不同字段的限定檢索功能。谷歌的高級檢索功能包括限定網(wǎng)站檢索(包括某網(wǎng)站或排除某網(wǎng)站)、限定語言檢索、檢索鏈接指向某個網(wǎng)頁的所有頁面、相關網(wǎng)頁檢索等。G網(wǎng)站只支持簡體中文界面。如果要使用其他語言的界面,可訪問。谷歌的搜索服務包括網(wǎng)頁搜索、圖片搜索、資訊搜索、地圖搜索、博客搜索、視頻搜索、大學搜索、圖書搜索、學術搜索、網(wǎng)站導航等。6.5 百度和谷歌 在使用偏好界面(見圖6-3)中可根據(jù)個人的情況選擇界面語言、搜索語言、結果數(shù)量、結果視窗、簡繁轉(zhuǎn)換、查詢建議等,此界面實際上提供了一種個性化的設置。圖圖6-3 6-3 谷歌使用偏好界面谷歌使用偏好界面6.5 百度和谷歌 在語言工具界面(見圖6-4)中可以設置搜索用某一特定語言編寫的網(wǎng)頁或搜索某一特定國家的網(wǎng)頁,還可翻譯文字和網(wǎng)頁以及在字典里查找字詞。圖圖6-4 6-4 谷歌語言工具界面谷歌語言工具界面6.5 百度和谷歌檢索方法檢索方法2)2)(1)(1)簡單搜索簡單搜索 簡單搜索是谷歌的基本搜索,檢索簡潔且方便,僅需輸入檢索內(nèi)容并按回車鍵,或者單擊“Google搜索”按鈕,即可得到相關資料。簡單搜索界面如圖6-5所示。圖圖6-5 6-5 谷歌簡單搜索界面谷歌簡單搜索界面6.5 百度和谷歌(2)(2)詞組搜索詞組搜索 谷歌搜索引擎使用英文雙引號。在谷歌中,可以通過添加英文雙引號來搜索短語。為提供最準確的資料,谷歌不使用“詞干法”,也不支持“通配符”(*)搜索。也就是說,谷歌只搜索與輸入的關鍵詞完全一樣的字詞。谷歌搜索也不區(qū)分英文字母大小寫,所有的字母均當成小寫處理。谷歌運用智能型漢字簡繁自動轉(zhuǎn)換系統(tǒng),進行中文檢索時可找到更多相關信息。6.5 百度和谷歌(3)(3)高級搜索高級搜索 可以將檢索策略輸入谷歌主頁面的檢索框中進行檢索,也可以進入高級檢索界面(見圖6-6)后,將檢索策略輸入檢索框中。圖圖6-6 6-6 谷歌高級搜索界面谷歌高級搜索界面6.5 百度和谷歌谷歌的特殊功能谷歌的特殊功能3)3)(1)(1)信息挖掘信息挖掘 如果要查找網(wǎng)絡上的PDF、DOC、PPT、XLS、RTF、SWF等類型的文件,只需在檢索詞后加上PDF、DOC、PPT、XLS、RTF、SWF等信息,谷歌會自動到服務器,甚至數(shù)據(jù)庫中搜索這些文件,體現(xiàn)了新穎的信息挖掘功能。6.5 百度和谷歌 谷歌可以支持13種非HTML文件的搜索。除了PDF文檔,谷歌現(xiàn)在還可以搜索 Microsoft Office(DOC、PPT、X1S、RTF)、Shockwave Flash(SWF)、PostScript(PS)和其他類型文檔。新的文檔類型只要與用戶的搜索相關,就會自動顯示在搜索結果中。谷歌也提供用戶不同類型文件的“HTML版”,方便用戶在即使沒有安裝相應應用程序的情況下,也能閱讀各種類型文件的內(nèi)容。6.5 百度和谷歌(2)(2)手氣不錯手氣不錯 單擊“手氣不錯”按鈕會自動進入谷歌查詢到的第一個網(wǎng)頁,完全看不到其他的搜索結果。使用“手氣不錯”進行搜索表示用于搜索網(wǎng)頁的時間較少而用于檢查網(wǎng)頁的時間較多。6.5 百度和谷歌(3)(3)網(wǎng)頁快照網(wǎng)頁快照 谷歌在訪問網(wǎng)站時,會將看過的網(wǎng)頁復制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時使用。單擊“網(wǎng)頁快照”時,可看到谷歌將該網(wǎng)頁編入索引時的頁面。谷歌依據(jù)這些快照來分析網(wǎng)頁是否符合用戶的要求。6.5 百度和谷歌(4)(4)類似網(wǎng)頁類似網(wǎng)頁 單擊“類似網(wǎng)頁”時,谷歌偵察兵便開始尋找與這一網(wǎng)頁相關的網(wǎng)頁。谷歌偵察兵可以“一兵多用”。如果對某一網(wǎng)站的內(nèi)容很感興趣,但又嫌資料不夠時,谷歌偵察兵會找到其他有類似資料的網(wǎng)站;如果要尋找產(chǎn)品信息,谷歌偵察兵會提供相關信息,供用戶比較,讓用戶盡可能貨比三家;如果用戶在某一領域做學問,谷歌偵察兵會成為助手,幫助快速找到大量資料。6.5 百度和谷歌(5)(5)相關搜索相關搜索 谷歌能夠提供與原搜索相關的搜索詞。這些相關的搜索詞是根據(jù)過去谷歌所有用戶的搜索習慣和谷歌提供的計算兩個搜索詞之間相關度的獨家技術而產(chǎn)生的。這些相關的搜索詞一般比原搜索詞更常用,并且更可能產(chǎn)生相關的結果。點擊提供的相關搜索詞就會自動進入這個詞的結果頁。谷歌相關搜索將幫助用戶更快地找到更有價值的結果。6.5 百度和谷歌(6)(6)按鏈接搜索按鏈接搜索 有一些詞后面加上冒號對谷歌有特殊的含義。其中的一個詞是“l(fā)ink:”。查詢“l(fā)ink:”顯示所有指向該網(wǎng)址的網(wǎng)頁。例如,“l(fā)ink:wwwgooglecom”將找出所有指向谷歌主頁的網(wǎng)頁。不能將“l(fā)ink:”搜索與普通關鍵詞搜索結合使用。6.5 百度和谷歌(7)(7)指定網(wǎng)域指定網(wǎng)域 有一些詞后面加上冒號對谷歌有特殊的含義。其中的一個詞是“site:”。要在某個特定的域或站點中搜索,可以在谷歌搜索框中輸入“site:xxxxxcom”。6.5 百度和谷歌(8)(8)定義定義 要查看字詞或詞組的定義,輸入“define”,接著輸入一個空格,然后輸入需要其定義的詞。如果谷歌在網(wǎng)絡上找到了該字詞或詞組的定義,則會檢索該信息并在搜索結果的頂部顯示它們。6.5 百度和谷歌6.6 計算機檢索過程與基本功能 檢索策略的構造與執(zhí)行過程6.6.1 所謂檢索策略,即為達到檢索目標而確定或采取的途徑、程序、方法和步驟。光盤檢索策略由邏輯提問式表達。邏輯提問式由布爾代數(shù)的邏輯算符號與檢索詞、位置符號和截詞符號等合理組配而成。在檢索過程中,檢索策略還須根據(jù)檢索效果的評價來修正。因此,一個完整的檢索策略應是一個動態(tài)的執(zhí)行過程,如圖6-7所示。圖圖6-7 6-7 檢索策略的構造與執(zhí)行過程示意圖檢索策略的構造與執(zhí)行過程示意圖6.6 計算機檢索過程與基本功能 機檢基本功能6.6.2布爾邏輯布爾邏輯1)1)(1)(2)(3)“與”邏輯乘?!盎颉边壿嫼汀!胺恰边壿嫴睢?.6 計算機檢索過程與基本功能位置邏輯位置邏輯2)2)(L)“Link”。(C)“Citation”。(F)“Feild”。(nw)“n words”。(W)“With”。(1)(5)(4)(3)(2)6.6 計算機檢索過程與基本功能截詞與屏截詞與屏3)3)(1)(1)截詞截詞 無限截詞。無限截詞是在檢索詞的詞干后加一個“?”,表示不限制詞尾部可變化的字符位數(shù)。有限截詞。有限截詞在檢索詞的詞干后加一個或一個以上的(最多不超過4個)“?”,然后空一格,再加一個“?”。前面的14個“?”表示限定所截字符的位數(shù),最后一個“?”表示截詞停止的符號。6.6 計算機檢索過程與基本功能(2)(2)屏蔽屏蔽 屏蔽檢索是在檢索詞的一串字符中插入一個或多個“?”(屏蔽符號),表示在問號的相應位置上可置換數(shù)目相當?shù)淖址?。對一些單、復?shù)變化異常或英、美拼法不同的詞,采用屏蔽法可減少輸入步驟,提高檢索效率。6.6 計算機檢索過程與基本功能字段檢索字段檢索4)4)字段檢索是限定檢索詞在數(shù)據(jù)庫內(nèi)查找區(qū)域的一種檢索技巧。數(shù)據(jù)庫中的字段是指數(shù)據(jù)庫文獻記錄中包含某一專門信息的部分。例如,作者字段就全部由作者的姓和名組成,見表6-1。6.6 計算機檢索過程與基本功能6.6 計算機檢索過程與基本功能檢索項檢索項5)5)索提問式由檢索項和邏輯運算符構成。檢索項主要有語詞性檢索項和非語詞性檢索項兩種形式,語詞性檢索項是各種數(shù)據(jù)庫中必不可少的基本檢索項,常用的語詞性檢索項分為受控詞和非受控詞兩大類,它們均顯示在不同數(shù)據(jù)庫的不同字段里。語詞性檢索項主要包括主題詞、單元詞、關鍵詞、標題詞、敘詞、自由詞等。非語詞性檢索項主要包括分類號、專利號、年代號、登記號、期刊代碼等。6.6 計算機檢索過程與基本功能6.7 網(wǎng)絡信息檢索策略與技巧 分析檢索的主題6.7.1 要確切了解所要查詢的目的和要求、確定需要的信息類型(全文、摘要、名錄等,文本、圖像、聲音)、查詢方式(瀏覽、分類檢索、關鍵詞檢索)、查詢范圍(所有網(wǎng)頁、標題、新聞組文章、FTP、軟件、中文、外文)、查詢時間(所有年份、最近幾年、最近幾周、最近幾天、當天)等。選擇合適的檢索工具6.7.2 各種搜索引擎在查詢范圍、檢索功能等方面各有千秋,不同目的的檢索應選擇不同的搜索引擎。選擇合適的檢索工具主要從工具的類型、收錄范圍、檢索問題的類型、檢索具體要求等方面綜合考慮。如果渴望有一個比較完美的搜索引擎,不妨使用Ask Jeeves(http:/),這是一個能提供回答問題的確切網(wǎng)頁的搜索引擎。6.7 網(wǎng)絡信息檢索策略與技巧 對搜索引擎的了解與選擇,可以借助于各搜索引擎主頁的介紹與聯(lián)機幫助(about us、help、搜索建議等),或利用搜索引擎的集合與評價站點。最重要的評價和介紹搜索引擎的英文站點是搜索引擎跟蹤(http:/)。搜索引擎匯總(search engine collection)的網(wǎng)站還有http:/,http:/和http:/。6.7 網(wǎng)絡信息檢索策略與技巧 抽取適當?shù)年P鍵詞6.7.3 (3)(3)(2 2)(4)(4)(5)(5)(6)(6)(1)(1)使用名詞或物體做關鍵詞。使用截詞檢索。通過OR連接同義詞、近義詞、相關詞或同一術語的不同表達方式。檢索式中使用23個關鍵詞。對專有名詞?!皩潭ǘ陶Z,用“”引起進行短語檢索。(7)(7)用括號將各個概念分開。6.7 網(wǎng)絡信息檢索策略與技巧 正確構造檢索式6.7.4 構造檢索式時,要充分利用檢索工具支持的檢索運算(網(wǎng)上一流的搜索引擎幾乎都支持布爾邏輯檢索)、允許使用的檢索標識、各種限定,這是進行有效檢索的基礎。許多搜索引擎都提供簡單查詢和高級查詢,建議使用后者,如組合使用布爾邏輯運算符AND(+)、NOT()、雙引號、使用日期與語種限定等,可使檢索結果控制在一定范圍內(nèi)。OR可能是用處最小的,因為它檢索出的信息太多,有許多網(wǎng)上服務器甚至不對帶有這種運算符的請求進行加工,但當檢索術語有兩種或兩種以上的表達方式時,一般可用OR。充分利用進階檢索,即某些工具提供的refine、search within these results等功能,在前一次檢索產(chǎn)生結果的基礎上做進一步的檢索。6.7 網(wǎng)絡信息檢索策略與技巧 及時調(diào)整檢索策略6.7.5擴大檢索范圍擴大檢索范圍1)1)利用某些搜索引擎的自動擴檢功能進行相關檢索。使用多個搜索引擎。使用截斷技術。使用同義詞、近義詞或相關詞。使用元搜索引擎。(5)(4)(3)(2)(1)6.7 網(wǎng)絡信息檢索策略與技巧縮小檢索范圍縮小檢索范圍2)2)(1)使用邏輯“與”。使用邏輯“非”。(2)(3)位置算符。固定詞組檢索(短語檢索)。(4)(5)使用縮寫與全稱。利用某些搜索引擎的進階檢索功能限制查詢范圍。(6)6.7 網(wǎng)絡信息檢索策略與技巧 及時調(diào)整檢索策略6.7.6直接進入相關站點直接進入相關站點1)1)檢索不一定每次都要從搜索引擎入手,可以利用平時積累的有用網(wǎng)址,這就需要注意搜集常用的網(wǎng)址,或利用瀏覽器的“書簽”功能,將經(jīng)常訪問的網(wǎng)站加入“收藏夾”對其進行保存,再次使用時,直接單擊便可進入,省去大量輸入網(wǎng)址和利用工具搜索的時間。6.7 網(wǎng)絡信息檢索策略與技巧多開幾個窗口多開幾個窗口2)2)多打開幾個瀏覽窗口同時瀏覽或檢索,可相對縮短等候時間,降低檢索費用。方法是:單擊Internet Explorer中“File”菜單內(nèi)的“Newwindow”,打開新窗口,在不同的窗口中輸入不同的地址,同時進行檢索或瀏覽。6.7 網(wǎng)絡信息檢索策略與技巧只選用文本方式傳輸只選用文本方式傳輸3)3)網(wǎng)上多媒體信息,尤其是圖像信息數(shù)據(jù)量大,傳輸速度慢。為提高檢索速度,可以只選用文本方式傳輸而不傳輸圖片。方法是:在Internet Explorer中的“查看”菜單中選擇“Internet選項”,再選“高級”,然后清除“顯示圖片”選項。這樣,所有的圖片不再顯示,而只顯示文字信息。有的網(wǎng)站同時提供文本與多媒體兩種版本。6.7 網(wǎng)絡信息檢索策略與技巧使用脫機工作方式閱讀使用脫機工作方式閱讀4)4)單擊Internet Explorer中“文件”菜單中的“脫機工作方式”命令,可暫時中斷網(wǎng)絡連接,節(jié)省流量。6.7 網(wǎng)絡信息檢索策略與技巧使用網(wǎng)絡復制,進行適時復制或打印使用網(wǎng)絡復制,進行適時復制或打印5)5)將網(wǎng)站的內(nèi)存下載到計算機硬盤或U盤上,既可以節(jié)省時間,也可省去日后搜索的麻煩,還可以避免有價值信息的消失。6.7 網(wǎng)絡信息檢索策略與技巧就近選擇站點就近選擇站點6)6)如果一種網(wǎng)絡資源有幾個網(wǎng)站,則選擇一個距離最近的網(wǎng)站,可以加快檢索速度。6.7 網(wǎng)絡信息檢索策略與技巧 擇時檢索擇時檢索7)7)每天9:0024:00為上網(wǎng)高峰期,要避開這一時間段,而凌晨速度比較快。6.7 網(wǎng)絡信息檢索策略與技巧 及時調(diào)整檢索策略6.7.7域名服務器查找失敗域名服務器查找失敗1)1)域名服務器查找失敗表明瀏覽器不能與該域名服務器連接,或服務器找不到這個網(wǎng)址。這時要分析原因,是不是域名拼錯了,應確保域名完全正確。6.7 網(wǎng)絡信息檢索策略與技巧沒有反應沒有反應2)2)檢索過程中出現(xiàn)沒有反應的情況,說明URL不正確,此時要檢查URL的拼寫,確保無誤后再進行檢索。6.7 網(wǎng)絡信息檢索策略與技巧文件找不到文件找不到3)3)出現(xiàn)這種情況,表明該頁不存在,或已移到另一地址。6.7 網(wǎng)絡信息檢索策略與技巧服務器出錯或服務器太忙服務器出錯或服務器太忙4)4)服務器出錯或服務器太忙表明試圖連接的計算機處于脫機狀態(tài),或毀壞,或太忙,可稍后再試。6.7 網(wǎng)絡信息檢索策略與技巧不能連接站點不能連接站點5)5)不能連接站點表明站點不存在或URL不正確。將URL中的字母大小寫互換,或?qū)RL中第一個斜線后面的部分去掉。6.7 網(wǎng)絡信息檢索策略與技巧沒有命中文獻沒有命中文獻6)6)沒有命中文獻表明需要調(diào)整檢索策略(擴大檢索范圍或減少檢索限制)??傊灰莆照_的方法,經(jīng)常實踐,就一定能從網(wǎng)上獲取許多有價值的信息。當然,網(wǎng)上檢索也有其局限性。Internet并非無所不包,無所不能,而且通過檢索獲得的信息并非都是正確、可靠的。由于網(wǎng)上信息具有動態(tài)性、多變性,今天能看到的信息也許明天便不復存在,要注意保存有價值的信息。6.7 網(wǎng)絡信息檢索策略與技巧謝謝觀看!
收藏
編號:65494732
類型:共享資源
大小:11.41MB
格式:ZIP
上傳時間:2022-03-24
35
積分
- 關 鍵 詞:
-
信息檢索與利用
本科
信息
檢索
利用
教材
配套
PPT
課件
- 資源描述:
-
本科《信息檢索與利用》教材配套PPT課件,信息檢索與利用,本科,信息,檢索,利用,教材,配套,PPT,課件
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。