《信息檢索系統(tǒng)》PPT課件.ppt
《《信息檢索系統(tǒng)》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《信息檢索系統(tǒng)》PPT課件.ppt(69頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
,1信息檢索系統(tǒng)的類型2信息檢索系統(tǒng)的構(gòu)成3標(biāo)引處理4數(shù)據(jù)庫(kù)的文檔結(jié)構(gòu)5倒排文檔的檢索技術(shù),第三章信息檢索系統(tǒng),3.1信息檢索系統(tǒng)及其類型,3.1.1信息檢索系統(tǒng)的概念(1)定義:具有信息存儲(chǔ)和信息查詢功能的一類信息服務(wù)設(shè)施或者工具(2)構(gòu)成要素:明確的目標(biāo)信息資源技術(shù)裝備方法與措施功能,(1)按設(shè)備劃分書本式檢索系統(tǒng)卡片式檢索系統(tǒng)穿孔卡片檢索系統(tǒng)縮微膠卷檢索系統(tǒng)計(jì)算機(jī)檢索系統(tǒng)光盤檢索系統(tǒng)多媒體檢索系統(tǒng),3.1.2信息檢索系統(tǒng)的類型,(2)按照功能劃分文獻(xiàn)檢索系統(tǒng):狹義的信息檢索系統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng):面向結(jié)構(gòu)化數(shù)據(jù)自動(dòng)問答系統(tǒng):自然語(yǔ)言處理、事實(shí)檢索管理信息系統(tǒng):面向管理人員決策支持系統(tǒng):數(shù)據(jù)分析,3.1.2信息檢索系統(tǒng)的類型,2020/5/13,,5,3.2信息檢索系統(tǒng)的構(gòu)成,3.2.1計(jì)算機(jī)檢索系統(tǒng)的物理結(jié)構(gòu)計(jì)算機(jī)檢索系統(tǒng)由計(jì)算機(jī)硬件、軟件、數(shù)據(jù)庫(kù)和通訊網(wǎng)絡(luò)構(gòu)成。(1)硬件:是包括具有一定性能的主計(jì)算機(jī)、外圍設(shè)備以及與數(shù)據(jù)處理或數(shù)據(jù)傳送有關(guān)的其他設(shè)備。(2)軟件:由系統(tǒng)維護(hù)軟件與檢索軟件構(gòu)成。檢索效果。(3)數(shù)據(jù)庫(kù):在計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定方式存儲(chǔ)的相互關(guān)聯(lián)的數(shù)據(jù)集合。,2020/5/13,,6,,3.2信息檢索系統(tǒng)的構(gòu)成,3.2.2檢索系統(tǒng)的邏輯結(jié)構(gòu),信息檢索系統(tǒng)的邏輯構(gòu)成,(1)信息源選擇與采集子系統(tǒng)。該功能模塊的任務(wù)主要是根據(jù)系統(tǒng)需要,采取人工或者計(jì)算機(jī)自動(dòng)方式,從眾多信息源中選擇和采集符合需要的信息資源。在有些計(jì)算機(jī)檢索系統(tǒng)中,此部分還承擔(dān)轉(zhuǎn)換數(shù)據(jù)格式的任務(wù)。(2)標(biāo)引子系統(tǒng)。該功能模塊的任務(wù)主要是對(duì)收集的信息資源進(jìn)行內(nèi)外部特征分析,并借助詞表系統(tǒng),對(duì)每條數(shù)據(jù)進(jìn)行標(biāo)引。目前,主題標(biāo)引和分類標(biāo)引主要是靠人工標(biāo)引,而抽詞標(biāo)引主要是由計(jì)算機(jī)完成。,,,8,(3)建庫(kù)子系統(tǒng)。該功能模塊的任務(wù)是建立和維護(hù)可直接用于計(jì)算機(jī)檢索的數(shù)據(jù)庫(kù)。主要工作包括數(shù)據(jù)錄入、錯(cuò)誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成和更新各種文檔、建立各種索引數(shù)據(jù)庫(kù)等。(4)詞表管理子系統(tǒng)。該功能模塊的任務(wù)是建立和管理維護(hù)系統(tǒng)中的主題詞表和分類表,并使它們和標(biāo)引、建庫(kù)等子系統(tǒng)相連接,支持用戶的各種詞匯查詢操作。該系統(tǒng)可以獨(dú)立存在,也可以和建庫(kù)子系統(tǒng)中的詞典文檔合并在一起。,,信息檢索系統(tǒng)的邏輯構(gòu)成,(5)用戶接口子系統(tǒng)。它的全稱為“系統(tǒng)-用戶接口”(system-userinterface),簡(jiǎn)稱用戶接口。它的任務(wù)是承擔(dān)用戶與系統(tǒng)之間的通信功能,通常由用戶模型、信息顯示、命令語(yǔ)言和反饋機(jī)制等部分構(gòu)成。(6)提問處理子系統(tǒng)。該功能模塊的任務(wù)是負(fù)責(zé)處理用戶輸入的提問式,并將它們與數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)進(jìn)行比較運(yùn)算,然后將運(yùn)算結(jié)果輸入給用戶。該模塊主要由檢索程序構(gòu)成,包括:接收提問、提問校驗(yàn)、提問加工和檢索。,信息檢索系統(tǒng)的邏輯構(gòu)成,3.3標(biāo)引處理,3.3.1基本概念標(biāo)引:indexing,對(duì)信息資源的各種檢索特征進(jìn)行分析并使之顯性化。標(biāo)引深度:衡量標(biāo)引詳盡性,標(biāo)引詞對(duì)每條記錄各方面內(nèi)容表達(dá)和識(shí)別的詳盡程度標(biāo)引專指度:衡量標(biāo)引詞對(duì)記錄特定內(nèi)容描述的精細(xì)程度。標(biāo)引方式:人工標(biāo)引和自動(dòng)標(biāo)引抽詞標(biāo)引和賦詞標(biāo)引,11,Documentindexing,Goal=identifytheimportantmeaningsandcreateaninternalrepresentationFactorstoconsider:Accuracytorepresentmeanings(semantics)Exhaustiveness(coverallthecontents)FacilityforcomputertomanipulateWhatisthebestrepresentationofcontents?Char.string(charbigrams):notpreciseenoughWord:goodcoverage,notprecisePhrase:poorcoverage,morepreciseConcept:poorcoverage,precise,,Coverage(Recall),Accuracy(Precision),StringWordPhraseConcept,3.3.2自動(dòng)標(biāo)引處理流程,圖見教材60頁(yè)。,3.3標(biāo)引處理,3.3.3自動(dòng)標(biāo)引中的詞語(yǔ)加權(quán)方案,(1)絕對(duì)詞頻法根據(jù)每個(gè)詞在特定文檔(集合)中的出現(xiàn)頻次來確定該詞重要程度的一種方法,最早有盧恩提出?;驹斫o定一個(gè)由N篇文檔組成的文檔集合,計(jì)算出每篇文檔中每個(gè)不同的詞的出現(xiàn)次數(shù)。把每個(gè)不同的詞在N篇文檔的出現(xiàn)次數(shù)相加,得到詞K的集合頻率。按集合頻率遞減順序排列這些詞,并確定高頻詞和低頻詞的閾值。挑選剩下的中頻詞作為標(biāo)引詞,并按照他們?cè)谙鄳?yīng)文檔的出現(xiàn)頻次確定權(quán)重。缺點(diǎn)是什么?,3.3標(biāo)引處理,14,Keywordselectionandweighting,Howtoselectimportantkeywords?Simplemethod:usingmiddle-frequencywords,,(2)逆文檔頻率法英文InverseDocumentFrequency,基于以下假設(shè):某詞的重要性與它在特定文檔中的出現(xiàn)次數(shù)成正比,與含有該詞的文檔數(shù)成反比。詞頻加逆文檔詞頻確定權(quán)值的方法得到了廣泛的應(yīng)用。,3.3標(biāo)引處理,3.3.3自動(dòng)標(biāo)引中的詞語(yǔ)加權(quán)方案,16,tf=termfrequencyfrequencyofaterm/keywordinadocumentThehigherthetf,thehighertheimportance(weight)forthedoc.df=documentfrequencyno.ofdocumentscontainingthetermdistributionofthetermidf=inversedocumentfrequencytheunevennessoftermdistributioninthecorpusthespecificityoftermtoadocumentThemorethetermisdistributedevenly,thelessitisspecifictoadocumentweight(t,D)=tf(t,D)*idf(t),tf*idfweightingschema,3.3.3自動(dòng)標(biāo)引中的詞語(yǔ)加權(quán)方案,3.3標(biāo)引處理,3.3.4中文自動(dòng)標(biāo)引,中文和西文(英文)的不同中文標(biāo)引關(guān)注詞語(yǔ)切分,對(duì)于詞語(yǔ)加權(quán)關(guān)注較少。詞語(yǔ)切分方法(1)詞典切分法(2)單漢字法,3.3標(biāo)引處理,19,Resultofindexing,Eachdocumentisrepresentedbyasetofweightedkeywords(terms):D1?{(t1,w1),(t2,w2),…}e.g.D1?{(comput,0.2),(architect,0.3),…}D2?{(comput,0.1),(network,0.5),…}Invertedfile:comput?{(D1,0.2),(D2,0.1),…}Invertedfileisusedduringretrievalforhigherefficiency.,3.4數(shù)據(jù)庫(kù)的建立和維護(hù),3.4.1數(shù)據(jù)庫(kù)的類型參考數(shù)據(jù)庫(kù)源數(shù)據(jù)庫(kù),參考數(shù)據(jù)庫(kù)(Referencedatabases),是指引用戶到另一信息源以獲得原文或其他細(xì)節(jié)的一類數(shù)據(jù)庫(kù)。它包括書目數(shù)據(jù)庫(kù)(Bibliographicdatabases)指南數(shù)據(jù)庫(kù)(Referraldatabase或Directorydatabase)兩種,參考數(shù)據(jù)庫(kù),(1)書目數(shù)據(jù)庫(kù)是指存儲(chǔ)某個(gè)領(lǐng)域的二次文獻(xiàn)(如文摘、題錄、目錄等書目數(shù)據(jù))的一類數(shù)據(jù)庫(kù),如中國(guó)機(jī)械工程文摘數(shù)據(jù)庫(kù),屬于此類型數(shù)據(jù)庫(kù)。(2)指南數(shù)據(jù)庫(kù)也稱指示性數(shù)據(jù)庫(kù),是指存儲(chǔ)關(guān)于某些機(jī)構(gòu)、人物、出版物、項(xiàng)目、程序、活動(dòng)等對(duì)象的簡(jiǎn)要描述,指引用戶從其他有關(guān)信息源獲取更詳細(xì)的信息的一類數(shù)據(jù)庫(kù)。如產(chǎn)品目錄、機(jī)構(gòu)名錄、研發(fā)項(xiàng)目、基金項(xiàng)目等數(shù)據(jù)庫(kù)均屬于此類型。,源數(shù)據(jù)庫(kù)(Sourcedatabases),是指能直接提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫(kù),用戶不必再查閱其他信息源。它可以分為:(1)數(shù)值數(shù)據(jù)庫(kù):這是一種專門提供以數(shù)值方式表示的數(shù)據(jù)的源數(shù)據(jù)庫(kù),如統(tǒng)計(jì)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)等。(2)文本-數(shù)值數(shù)據(jù)庫(kù):這是一種能同時(shí)提供文本信息和數(shù)值數(shù)據(jù)的源數(shù)據(jù)庫(kù),如企業(yè)信息數(shù)據(jù)庫(kù)、產(chǎn)品數(shù)據(jù)庫(kù)等。(3)全文數(shù)據(jù)庫(kù):這是一種存儲(chǔ)文獻(xiàn)全文或其中主要部分的源數(shù)據(jù)庫(kù),如法律法規(guī)全文庫(kù)、期刊全文庫(kù)等。,,(4)術(shù)語(yǔ)數(shù)據(jù)庫(kù):這是一種專門存儲(chǔ)名詞術(shù)語(yǔ)信息、詞語(yǔ)信息以及術(shù)語(yǔ)工作和語(yǔ)言規(guī)范工作成果的源數(shù)據(jù)庫(kù),如名詞術(shù)語(yǔ)信息庫(kù)、各種電子化辭書等。(5)圖像數(shù)據(jù)庫(kù):這是一種用來存儲(chǔ)各種圖像或圖形信息及有關(guān)文字說明資料的源數(shù)據(jù)庫(kù),主要應(yīng)用于建筑、設(shè)計(jì)、廣告、產(chǎn)品、圖片或照片等資料類型的計(jì)算機(jī)存儲(chǔ)與檢索。,,(1)記錄與字段記錄(record)是作為一個(gè)單位來處理的有關(guān)數(shù)據(jù)的集合,是對(duì)某一實(shí)體的屬性進(jìn)行描述的結(jié)果。在書目數(shù)據(jù)庫(kù)中,被描述的實(shí)體是某一特定的文獻(xiàn),實(shí)體的屬性就是該文獻(xiàn)的特征,例如文獻(xiàn)的題名、作者、發(fā)表時(shí)間、語(yǔ)種、分類號(hào)、主題詞等。。,,,3.4.2書目數(shù)據(jù)庫(kù)的結(jié)構(gòu),,字段(field)是記錄的下級(jí)數(shù)據(jù)單位,用來描述實(shí)體的某一屬性。一個(gè)記錄中通常含有文獻(xiàn)號(hào)字段、題名字段、作者字段、出版字段、語(yǔ)種字段、文摘字段、主題詞字段、分類號(hào)字段等各種必要的字段。每個(gè)字段的具體內(nèi)容稱為字段值(fieldvalue)或?qū)傩灾?attributevalue)。、子字段(subfield)是字段的下一級(jí)數(shù)據(jù)單位。在有些字段中,它們的值往往由多個(gè)子項(xiàng)構(gòu)成。例如,作者字段可能含有多個(gè)作者,出版字段含有出版者、出版地和出版年,主題詞字段含有若干個(gè)主題詞。,,,,(4)文檔:若干個(gè)邏輯紀(jì)錄構(gòu)成的信息集合。(5)邏輯記錄:某些邏輯上相關(guān)聯(lián)的數(shù)據(jù)組織在一起的數(shù)據(jù)集合稱為邏輯記錄。(6)物理記錄:硬件設(shè)備上一個(gè)基本存儲(chǔ)單位,塊,block。,,,(2)文檔的類型,若干個(gè)邏輯記錄構(gòu)成的信息集合稱為文檔(file)。文檔是書目數(shù)據(jù)庫(kù)和文獻(xiàn)檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。,(2)文檔的類型,順序文檔順序文檔(sequentialfile)是文檔在計(jì)算機(jī)存儲(chǔ)器中的一種存放形式,文檔中的全部記錄按順序一個(gè)接一個(gè)地存放,記錄的物理位置通常由記錄的鍵值決定,記錄之間的邏輯順序與物理順序一致。文檔的修改和刪除操作比較簡(jiǎn)單,但插入操作較為麻煩,存取時(shí)間與數(shù)據(jù)的物理位置有關(guān)。,隨機(jī)文檔文檔中的記錄按隨機(jī)方式存放在支持直接存取的磁盤、磁鼓或內(nèi)存中。在記錄的關(guān)鍵碼與存放該記錄的地址之間建立某種關(guān)系,根據(jù)這種關(guān)系來確定該記錄在文檔中的位置以及對(duì)文檔進(jìn)行存取的方式。對(duì)文檔中的記錄可以隨機(jī)存取,不考慮記錄在文檔中的排列次序,數(shù)據(jù)的存取時(shí)間與數(shù)據(jù)的存儲(chǔ)位置無關(guān)。實(shí)現(xiàn)隨機(jī)文檔快速存取的關(guān)鍵是尋址技術(shù)。,(2)文檔的類型,主文檔(masterfile)書目數(shù)據(jù)庫(kù)中描述每篇文獻(xiàn)的完整記錄通常以線性排列方式存放在磁帶或磁盤上。檢索時(shí),只能按其物理順序讀取這些記錄及其中的字段。由于它存儲(chǔ)有關(guān)于每篇文獻(xiàn)的最完整信息,所以通常又把它稱為主文檔(masterfile)。,(2)文檔的類型,倒排文檔所謂倒排檔,就是把記錄中一切可檢字段或?qū)傩灾?如著者名、主題詞等)抽出,按某種順序重新加以組織后所得到的一種文檔。既可以按不同類型的字段組成不同的倒排檔(如著者倒排檔、主題詞倒排檔等),也可以把所有不同的字段組成一個(gè)混合倒排檔。,(2)文檔的類型,Documentsareparsedtoextractwords(orstems)andthesearesavedwiththeDocumentID.,HowAreInvertedFilesCreated倒排檔的生成,Nowisthetimeforallgoodmentocometotheaidoftheircountry,Itwasadarkandstormynightinthecountrymanor.Thetimewaspastmidnight,,,HowInvertedFilesareCreated,Afteralldocumenthavebeenparsedtheinvertedfileissorted,,HowInvertedFilesareCreated,Multipletermentriesforasingledocumentaremergedandfrequencyinformationadded,,ThefileiscommonlysplitintoaDictionaryandaPostingsfile,HowInvertedFilesareCreated,,,,,,,,,,,,,,,,,,,,,,,,,(3)文檔的存貯結(jié)構(gòu),A固定格式、固定長(zhǎng)字段1)物理記錄和邏輯記錄相一致,可以理解為一個(gè)邏輯記錄一個(gè)塊。2)每條記錄中的字段數(shù)量、字段長(zhǎng)度、子字段的長(zhǎng)度以及排列位置順序都是不變的。3)物理塊的大小必須依據(jù)邏輯記錄的最大可能的長(zhǎng)度來確定。4)優(yōu)缺點(diǎn):優(yōu)點(diǎn):便于處理缺點(diǎn):造成空間的浪費(fèi),造成數(shù)據(jù)的遺失。,B固定格式、可變長(zhǎng)記錄中字段數(shù)目和位置的排列是固定的,但各字段的長(zhǎng)度是可變的。一些早期的圖書采購(gòu)磁帶格式采用這種方式,國(guó)際標(biāo)準(zhǔn)書號(hào)、訂購(gòu)號(hào)、書名項(xiàng)、出版項(xiàng)、單價(jià)、發(fā)票號(hào)、訂購(gòu)數(shù),書商、訂購(gòu)日期需要識(shí)別字段的開始、結(jié)束以及記錄的結(jié)束,引入字段標(biāo)識(shí)符、字段結(jié)束符、記錄結(jié)束符。,(3)文檔的存貯結(jié)構(gòu),C可變格式、可變長(zhǎng)沒有任何空間上的浪費(fèi)。記錄頭標(biāo)區(qū):固定長(zhǎng),24目次區(qū):有多個(gè)目次項(xiàng)和一個(gè)分隔符組成。每個(gè)目次項(xiàng)占12個(gè)字節(jié)。結(jié)構(gòu)如下:標(biāo)識(shí)符段長(zhǎng)段起始位置345目次區(qū)的長(zhǎng)度依目次項(xiàng)的數(shù)量而定,長(zhǎng)度為12N+1數(shù)據(jù)區(qū):記錄分隔符,(3)文檔的存貯結(jié)構(gòu),書目數(shù)據(jù)庫(kù)的記錄格式,“ISO-2709格式”記錄頭標(biāo)(1eader)、目次(directory)、數(shù)據(jù)區(qū)(datafield)記錄分隔符。,,,,頭標(biāo)區(qū),頭標(biāo)是對(duì)一條書目記錄的簡(jiǎn)要說明,固定長(zhǎng)度,共含24字節(jié),其信息內(nèi)容及布局如下:記錄總長(zhǎng)(字符位置o~4)。用5位十進(jìn)制數(shù)表示記錄中字符的個(gè)數(shù),包括頭標(biāo)區(qū)、目次區(qū)、數(shù)據(jù)區(qū)和記錄分隔符。記錄狀態(tài)(字符位置5)。用單一字符,如字母N或C等,標(biāo)示該記錄是新增、修改,還是刪除過的。記錄類型與目錄級(jí)別(-7符位置6~9)。用代碼表示記錄類型(圖書、期刊、文章、地圖、圖片等)和文獻(xiàn)目錄級(jí)別(分析性、專題性和連續(xù)出版物等)。指示符長(zhǎng)(-7符位置10)。以一個(gè)十進(jìn)制數(shù)給出指示符位數(shù),若不用指示符,則長(zhǎng)度為0。,,,,頭標(biāo)區(qū),標(biāo)識(shí)符長(zhǎng)(字符位置11)。以一個(gè)十進(jìn)制數(shù)給出子字段標(biāo)識(shí)符位數(shù)。若沒有標(biāo)識(shí)符,則長(zhǎng)度為0。若有標(biāo)識(shí)符,則其第一個(gè)字符必須是IS0646的ISl(相當(dāng)于16進(jìn)制的代碼1E,通常記為(1E)16)。數(shù)據(jù)基地址(字符位置12~16)。用5位十進(jìn)制數(shù)給出記錄頭標(biāo)區(qū)與目次區(qū)的總長(zhǎng)度。用戶自由利用區(qū)(字符位置17~19,23)。段長(zhǎng)信息(字符位置20~22),,,,目次區(qū),目次區(qū)由多個(gè)目次項(xiàng)加一個(gè)域(段)分隔符組成。每個(gè)目次項(xiàng)分為標(biāo)識(shí)符、段(域)長(zhǎng)和段(域)起始字符位置以及“指定執(zhí)行部分”(可選)等部分,共占12個(gè)字節(jié)。,,,,數(shù)據(jù)區(qū),在目錄數(shù)據(jù)區(qū)中,用字段指示符(域指示符)標(biāo)識(shí)某一字段的性質(zhì)或與其他字段的關(guān)系,字段分隔符用ISO-646的IS2表示,相當(dāng)于十六進(jìn)制代碼1F(寫作(1F)16);在字段中可以用子字段標(biāo)識(shí)符(子域標(biāo)識(shí)符)進(jìn)一步標(biāo)識(shí)子字段。,,,,(4)記錄分隔符記錄分隔符,亦稱記錄結(jié)束符,用ISO一646的IS。表示,相當(dāng)于十六進(jìn)制代碼1D(寫作(1D)16).例如:頭標(biāo)區(qū):01041cam2200265a4500目次區(qū)001002000000003000400020005001700024008004100041010002400082020002500106030004400131040001800175050002400193082001800217。。。^,,,,數(shù)據(jù)區(qū)891101s1990####maua###j######000#0#eng##^##$a###89048230#/AC/r91^##$a0316107514:$c$12.95^##$a0316107506(pbk.):$c$5.95($6.95Can.)^##$aDLC$cDLC$dDLC^00$aGV943.25$b.B741990^00$a796.334/2$220^10$aBrenner,RichardJ.,$d1941-^10$aMaketheteam.$pSoccer:$baheadsupguidetosupersoccer!/$cRichardJ.Brenner.^30$aHeadsupguidetosupersoccer.^##$a1sted.^##$aBoston:$bLittle,Brown,$cc1990.^##$a127p.:$bill.;$c19cm.^##$a"ASportsillustratedforkidsbook."^##$aInstructionsforimprovingsoccerskills.Discussesdribbling,heading,playmaking,defense,conditioning,mentalattitude,howtohandleproblemswithcoaches,parents,andotherplayers,andthehistoryofsoccer.^#0$aSoccer$vJuvenileliterature.^#1$aSoccer.^\,,,,(5)數(shù)據(jù)庫(kù)的文檔結(jié)構(gòu),不是所有的檢索系統(tǒng)的文檔結(jié)構(gòu)都是一致的,但是基本上包括主文檔MF、主文檔的索引文檔MX、倒排檔IF、倒排檔的索引文檔(IX)和詞表文檔。,1)主文檔MF—MainFiles一般按照順序文檔方式。采取可變長(zhǎng)格式、組塊存儲(chǔ)。大型的數(shù)據(jù)庫(kù)一般可以分成若干個(gè)主文檔來存儲(chǔ)。如DIALOG的化學(xué)文摘數(shù)據(jù)庫(kù)就分為六個(gè)文檔。,2)主文檔索引(MX)即主文檔的索引文檔,指明每條記錄在磁盤上的存貯起始地址。結(jié)構(gòu)如下:存取號(hào)地址指針,(5)數(shù)據(jù)庫(kù)的文檔結(jié)構(gòu),3)倒排檔(IF)就是將紀(jì)錄中一切可見字段或?qū)傩灾党槌?,按照某種順序重新加以組織后得到的一種文檔。既可以按不同類型的字段組成不同到排檔。(著者到排檔、主題詞倒排檔等),也可以把所有不同的字段組成一個(gè)混合倒排檔。存貯與檢索鍵對(duì)應(yīng)的記錄號(hào)集合。,(5)數(shù)據(jù)庫(kù)的文檔結(jié)構(gòu),,如:按照關(guān)鍵詞順序A1,2,8B2,5,6,7C2,3,41,2,8,2,5,6,7,2,3,4,4)倒排檔索引“詞典”文檔,也稱為倒排檔索引,單獨(dú)存貯各種作為檢索鍵的值,如著者名、主題詞、分類號(hào)、自由詞等;n為出現(xiàn)頻次,即有關(guān)的記錄個(gè)數(shù);p為地址指針,指向相應(yīng)的倒排檔記錄的相對(duì)地址。碼值命中數(shù)記錄號(hào)地址指針Knp,(5)數(shù)據(jù)庫(kù)的文檔結(jié)構(gòu),各文檔之間的關(guān)系,,,,,針對(duì)文摘索引數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)來說,還應(yīng)該標(biāo)明字段和字詞出現(xiàn)的位置,這樣,才能支持位置檢索。a10010001ti1amusing21010004ab5,,5)詞表文檔首先必須要有一部主題詞表或敘詞表,幫助用戶選擇檢索詞,提高檢索效率。,(5)數(shù)據(jù)庫(kù)的文檔結(jié)構(gòu),(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),1)數(shù)據(jù)庫(kù)的設(shè)計(jì)A市場(chǎng)與用戶調(diào)查。包括以下兩個(gè)方面:市場(chǎng)調(diào)查:當(dāng)前數(shù)據(jù)庫(kù)的數(shù)量、類型、學(xué)科分布、地理分布、生產(chǎn)者、利用情況、發(fā)展動(dòng)向等。非常重要的一環(huán),國(guó)內(nèi)目前許多數(shù)據(jù)庫(kù)成為死庫(kù)在很大程度上是由于沒有進(jìn)行市場(chǎng)分析。思考:如何獲得這方面的信息?用戶調(diào)查:調(diào)查用戶需求以及對(duì)檢索系統(tǒng)的期待。(內(nèi)容范圍、檢索功能、數(shù)據(jù)完整性、以及提供方式等)。,,B數(shù)據(jù)庫(kù)設(shè)計(jì)。包括以下幾種設(shè)計(jì):邏輯設(shè)計(jì),在市場(chǎng)調(diào)查的基礎(chǔ)上,確定用戶類型、內(nèi)容范圍、功能。技術(shù)設(shè)計(jì),確定數(shù)據(jù)庫(kù)的總體結(jié)構(gòu),各文檔的結(jié)構(gòu),文檔之間的聯(lián)系、物理組織方式以及存儲(chǔ)空間的分配等。模擬建庫(kù),測(cè)試評(píng)價(jià)。,,(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),2)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)采集。根據(jù)設(shè)計(jì)方案規(guī)定的數(shù)據(jù)庫(kù)內(nèi)容范圍和數(shù)據(jù)類型,采集所需要的數(shù)據(jù)。數(shù)據(jù)評(píng)價(jià)。評(píng)價(jià)方法可以采用引文分析法、專家評(píng)價(jià)法、用戶調(diào)查法、來源渠道和著者鑒別法等。數(shù)據(jù)加工整理。數(shù)據(jù)加工整理工作包括數(shù)據(jù)源的分析,數(shù)據(jù)的提取與描述,數(shù)據(jù)錯(cuò)誤及一致性的校驗(yàn)與糾正等。,,(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),,,3)文獻(xiàn)的初始化處理格式標(biāo)準(zhǔn)化:語(yǔ)言編碼標(biāo)準(zhǔn)化,unicodeGb2312big5,存儲(chǔ)格式的選擇,Mpeg,Jpeg,有損壓縮和無損壓縮。確定檢索范圍(檢索途徑):檢索途徑(子段),全文(篇名\摘要\關(guān)鍵詞\正文\參考文獻(xiàn)等部分)。,(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),,,3)文獻(xiàn)的初始化處理非檢索詞的處理(標(biāo)點(diǎn)符號(hào)停用詞etc):目的是提高運(yùn)算速度,節(jié)省存儲(chǔ)空間。涉及到:標(biāo)點(diǎn)符號(hào),某些標(biāo)點(diǎn)符號(hào)按照實(shí)際情況需要進(jìn)行處理,如表示所有格的符號(hào)、連字符smallbusinessmen等。停用詞和停用算法:主要指沒有任何檢索意義的詞,包括介詞\冠次以及一些其他出現(xiàn)次數(shù)過多的詞.思考:使用停用詞和停用算法對(duì)查全率和查準(zhǔn)率會(huì)有什么影響?明確詞義(上下位類,大小寫)。,(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),,,,,4)建庫(kù)在設(shè)計(jì)方案最后敲定和數(shù)據(jù)準(zhǔn)備工作就緒以后,就可以實(shí)際開始建庫(kù)作業(yè)了。建庫(kù)就是利用現(xiàn)有的數(shù)據(jù)將規(guī)劃中的數(shù)據(jù)庫(kù)加以實(shí)現(xiàn)。它包括以下環(huán)節(jié):硬件的安裝調(diào)試。軟件的編制或購(gòu)買與調(diào)試數(shù)據(jù)的裝入和生成各種文檔。數(shù)據(jù)庫(kù)的試運(yùn)行和鑒定驗(yàn)收。,(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),,,5)維護(hù)數(shù)據(jù)庫(kù)投入運(yùn)行后,必須定期進(jìn)行維護(hù)與更新,以適應(yīng)用戶需求和文獻(xiàn)生產(chǎn)狀況的變化。維護(hù)主要指對(duì)數(shù)據(jù)庫(kù)系統(tǒng)硬件設(shè)備的維修、保養(yǎng)和對(duì)系統(tǒng)軟件功能的修改與擴(kuò)充。更新主要指對(duì)文獻(xiàn)庫(kù)的數(shù)據(jù)內(nèi)容進(jìn)行添加和重新組織。,(6)書目數(shù)據(jù)庫(kù)的建立和維護(hù),,,全文數(shù)據(jù)庫(kù),全文數(shù)據(jù)庫(kù)是一種存儲(chǔ)文獻(xiàn)全文或其中的主要部分的源數(shù)據(jù)庫(kù)。它最早出現(xiàn)于法律領(lǐng)域。1961年第一個(gè)文獻(xiàn)數(shù)據(jù)庫(kù)建成并投入使用(即美國(guó)的“匹茲堡系統(tǒng)”中的法律全文數(shù)據(jù)庫(kù))匹茲堡法律全文檢索系統(tǒng)問世后,引起了律師們的濃厚興趣。,,,1)按出版方式劃分:一類是與印刷型文獻(xiàn)平行出版的全文庫(kù),另一類是純電子出版物,無相應(yīng)的印刷型文本。2)按存儲(chǔ)內(nèi)容劃分,直接原文型和摘錄型。直接原文型:直接存儲(chǔ)文獻(xiàn)的正文,有時(shí)甚至還包括正文以外的其他信息,如腳注、參考文獻(xiàn)目錄、文摘等。摘錄型:原文經(jīng)過壓縮提煉的,改寫成若干篇一定長(zhǎng)度的摘錄(不同于文摘)。,全文數(shù)據(jù)庫(kù)的種類,,,3)按應(yīng)用領(lǐng)域劃分,法律法規(guī)全文庫(kù)或條法庫(kù),如LEXIS、WESTLAW。期刊文章全文庫(kù),如美國(guó)化學(xué)會(huì)原始期刊數(shù)據(jù)庫(kù)(在BRS系統(tǒng)中)。商情全文庫(kù),如英國(guó)Datasolve公司的市場(chǎng)新聞和研究報(bào)告全文庫(kù),新聞消息全文庫(kù),如美國(guó)的NEXIS、NEWSNET,,,全文數(shù)據(jù)庫(kù)的特點(diǎn)與用途,優(yōu)點(diǎn):直接性。詳盡性。快速。標(biāo)引方法簡(jiǎn)單。檢索語(yǔ)言多用自然語(yǔ)言,少數(shù)用受控語(yǔ)言。檢索方法除使用布爾檢索以外,位置檢索占有相當(dāng)突出的地位。,,請(qǐng)舉出你所使用過的全文檢索系統(tǒng),1、信息檢索系統(tǒng)的邏輯構(gòu)成以及各個(gè)部分之間的關(guān)系2、標(biāo)引系統(tǒng)主要的任務(wù)是什么?3、書目數(shù)據(jù)庫(kù)的結(jié)構(gòu)如何?4、磁帶格式是什么?標(biāo)準(zhǔn)的磁帶格式有何規(guī)定?5、如何建造和維護(hù)一個(gè)數(shù)據(jù)庫(kù)?6、全文數(shù)據(jù)庫(kù)的特點(diǎn)和用途是什么?7、中文和西文文獻(xiàn)的初始化處理有何不同?8、以書目查詢系統(tǒng)系統(tǒng)為例,是否均應(yīng)設(shè)計(jì)成兩個(gè)文件的組織方式?固定長(zhǎng)方式是否沒有用武之地了?9、標(biāo)引中如何賦予權(quán)重?,本章思考題,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 信息檢索系統(tǒng) 信息 檢索系統(tǒng) PPT 課件
鏈接地址:http://www.3dchina-expo.com/p-12670178.html