全文檢索系統(tǒng)整體方案設(shè)計(jì).doc
《全文檢索系統(tǒng)整體方案設(shè)計(jì).doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《全文檢索系統(tǒng)整體方案設(shè)計(jì).doc(25頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1 全文檢索系統(tǒng)方案 1.1 全文檢索需求 1) 系統(tǒng)提供模糊檢索、分類搜索、高級(jí)復(fù)合搜索、全文檢索、圖片內(nèi)容檢索、跨庫檢索等多種檢索途徑; 2) 支持字索引和詞索引; 3) 檢索條件具有完整的關(guān)鍵詞布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(hào)"("與右括號(hào)")"作關(guān)鍵詞查詢優(yōu)先級(jí)的設(shè)置; 4) 提供用戶多次遞進(jìn)查詢的功能,用戶可根據(jù)上一次查詢關(guān)鍵詞得到的檢索結(jié)果集,增加查詢關(guān)鍵詞與縮小搜索日期范圍,而得到更準(zhǔn)確的查詢結(jié)果集; 5) 能夠支持對(duì)以上文件中的中文(簡體/繁體)、英文、日語、韓語內(nèi)容實(shí)現(xiàn)關(guān)鍵字檢索; 6) 支持對(duì)Word、TXT、PDF等多種主流文檔格式全文檢索,并提供開發(fā)接口以支持特殊文檔格式的全文檢索; 7) 在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時(shí),能在索引庫中反映出來,保證搜索的信息為最新,即支持增量索引機(jī)制; 8) 用戶可自行設(shè)定時(shí)間,讓系統(tǒng)自動(dòng)定時(shí)進(jìn)行更新索引; 9) 對(duì)于百萬級(jí)記錄數(shù)的搜索以及結(jié)合模糊搜索等查詢方式,搜索時(shí)間不得超過10秒; 10) 提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索; 11) 同過相關(guān)性搜索,能夠把和搜索條件相關(guān)聯(lián)的信息搜索出來; 12) 不但能夠?qū)D片的描述信息進(jìn)行搜索,還能對(duì)圖片內(nèi)容的檢索; 13) 提供COM與SOAP的搜索接口(Interface) 可讓其它應(yīng)用程序或查詢網(wǎng)頁能夠提供用戶查詢?nèi)肟诤筒樵兘Y(jié)果的呈現(xiàn),用戶可通過應(yīng)用程序或?yàn)g覽器訪問全文檢索服務(wù)器,提交查詢條件,可在瀏覽器中查看檢索結(jié)果; 14) 查詢結(jié)果集中應(yīng)包含結(jié)果集總數(shù)、命中的結(jié)果文件的完整路徑,以及符合關(guān)鍵詞出現(xiàn)的內(nèi)容片斷; 15) 在搜索結(jié)果集中,關(guān)鍵詞應(yīng)被標(biāo)識(shí)出來,用特殊的字體及顏色和其他文字進(jìn)行區(qū)別,查詢者可在查詢結(jié)果片斷中一目了然的看到關(guān)鍵詞出現(xiàn)的位置; 16) 查詢結(jié)果可按照關(guān)鍵詞命中次數(shù),命中結(jié)果文件的修改時(shí)間,大小等條件進(jìn)行排序; 17) 可提供用戶對(duì)檢索命中結(jié)果文件在索引庫中進(jìn)行標(biāo)記,從而再次檢索時(shí),不在標(biāo)記過的文件中進(jìn)行查詢; 1.2 全文檢索系統(tǒng)總體方案 系統(tǒng)將采用以下全文檢索流程。 針對(duì)企業(yè)內(nèi)部的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容,形成一個(gè)相對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層進(jìn)行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫;使用者(user)在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會(huì)在索引庫中進(jìn)行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果頁面,進(jìn)一步鏈接到信息原文查看詳細(xì)內(nèi)容。 對(duì)于系統(tǒng)管理,管理員可通過相應(yīng)web方式的管理程序來管理整個(gè)系統(tǒng)運(yùn)行環(huán)境及設(shè)置文件;并通過索引引擎(Indexer.exe)實(shí)時(shí)或定時(shí)創(chuàng)建索引,更新索引數(shù)據(jù)庫的內(nèi)容,使檢索信息維持在最新狀態(tài)。 1.3 全文檢索系統(tǒng)帶來的效益 高效率的整合搜索,大幅減少組織成員在取得信息時(shí)花費(fèi)的時(shí)間! 本系統(tǒng)和其它搜索系統(tǒng)只針對(duì)特定信息源搜索不同,它能對(duì)企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強(qiáng)大的信息整合及快速回應(yīng)能力,讓企業(yè)成員以單一搜索頁面、簡易的操作方式,即可在最短時(shí)間內(nèi),完整、準(zhǔn)確、及時(shí)地掌握企業(yè)內(nèi)外所有信息,不必再耗費(fèi)大量時(shí)間的找尋信息! 信息過量不會(huì)造成企業(yè)成員的信息焦慮! 通過本系統(tǒng)強(qiáng)大的索引/搜索能力,大量的信息也可在瞬間過濾出符合使用者條件的信息,不必?fù)?dān)心迷失在漫漫的信息洪流之中! 非結(jié)構(gòu)/非組織的信息,不再是知識(shí)管理的盲點(diǎn)! 文件/檔案以及非經(jīng)過分類管理的信息,因?yàn)楦郊有畔⑾∩?,往往成為知識(shí)利用上難以判斷、分析的信息。本系統(tǒng)直接針對(duì)內(nèi)容全文分析、關(guān)聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用! 整合容易,使用簡易,導(dǎo)入迅速,易于接受! 套裝化、模塊化的設(shè)計(jì)及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設(shè)置;操作方式簡單,企業(yè)成員易于接受,導(dǎo)入方便。以最經(jīng)濟(jì)的時(shí)間、人力及費(fèi)用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識(shí)環(huán)境。 1.4 全文檢索系統(tǒng)平臺(tái)架構(gòu) 本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計(jì),系統(tǒng)平臺(tái)架構(gòu)示意圖如下: 整個(gè)系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個(gè)部分。 信息整合 此部分主要作用是將企業(yè)內(nèi)部存儲(chǔ)于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進(jìn)行信息提取,形成一個(gè)相對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。 信息萃取和服務(wù) 在信息整合層形成的相對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對(duì)其中的每筆記錄進(jìn)行中文切分詞、索引、文件特征分析、自動(dòng)分類等各種演算算法處理,形成可以提供搜索服務(wù)的索引庫。用戶利用本系統(tǒng)的搜索引擎處理提供的強(qiáng)大的搜索功能,如中文同音搜索、簡繁體對(duì)譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準(zhǔn)確、完整、及時(shí)、有效地搜索到符合自己搜索條件的信息。 應(yīng)用整合 本系統(tǒng)還提供了完整的外部程序整合機(jī)制。所有組件均提供SDK完整開發(fā)接口,方便應(yīng)用整合和應(yīng)用擴(kuò)展。 1.4.1 信息整合 此部分主要提供對(duì)企業(yè)內(nèi)外部非結(jié)構(gòu)性數(shù)據(jù)信息源建立自動(dòng)化數(shù)據(jù)匯入功能。根據(jù)用戶實(shí)際需求,用戶可以選擇導(dǎo)入包含Text、Microsoft Office、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、圖片的文件名或摘要、及文字)自動(dòng)化建立索引數(shù)據(jù),建立索引數(shù)據(jù)所處理之文字包括繁體中文、簡體中文等; 同時(shí)用戶可以選擇導(dǎo)入數(shù)據(jù)庫數(shù)據(jù),如Oracle、 Informix、Sybase、MS SQL等。此外和Notes系統(tǒng)也已經(jīng)有了無縫整合,可掛載Notes Composer對(duì)nsf庫中正文及附件信息索引,在做索引的過程中自動(dòng)把每筆記錄的權(quán)限鍵入索引庫。 本系統(tǒng)提供可掛載的數(shù)據(jù)適配器(Data Adapter),將異質(zhì)的數(shù)據(jù)來源與數(shù)據(jù)結(jié)構(gòu)進(jìn)行匯整與粹取,亦扮演將非結(jié)構(gòu)的信息結(jié)構(gòu)化,可以很容易地分析特殊檔案格式和管理復(fù)雜的數(shù)據(jù)源結(jié)構(gòu)(如遞歸、巢狀等)的多功能設(shè)計(jì),以方便信息檢索與管理。 以 e-mail 含附件為例,e-mail Adapter 可解析 e-mail 內(nèi)文,而當(dāng)選購 office Adapter 后,原來的 e-mail Adapter 即可解析 office 相關(guān)的附件文件,可視需求額外購買 PDF、ZIP、RAR、OCR 等不同數(shù)據(jù)適配器,即可交互搭配使用。 搭配使用本系統(tǒng) 的 TXT、Microsoft Office、RTF、PDF、HTML、E-mail及 FileMeta資料提取器,將可解析Text、Microsoft Office、XML、RTF、PDF、HTML、MHT及E-mail(含附件文件)及文件影音附檔(如影片的文件名或摘要、圖片的文件名或摘要、及文字)等格式,包括繁體中文、簡體中文、英文、Unicode等;使用數(shù)據(jù)庫數(shù)據(jù)適配器,將可支持?jǐn)?shù)據(jù)庫數(shù)據(jù)匯入處理如Oracle、 Informix、Sybase、MS SQL等。 1.4.2 信息萃取和服務(wù) 此部分須提供對(duì)數(shù)據(jù)提取的內(nèi)容所包含的信息,進(jìn)行數(shù)據(jù)處理分析,包含: 分類模式建立自動(dòng)分類功能。 針對(duì)非結(jié)構(gòu)性數(shù)據(jù)建立詞庫,詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。 自動(dòng)分類機(jī)制與專業(yè)詞庫須具備自動(dòng)學(xué)習(xí)與修正之功能以提升數(shù)據(jù)處理準(zhǔn)確度。 可針對(duì)不同使用層級(jí)、項(xiàng)目進(jìn)行非結(jié)構(gòu)性數(shù)據(jù)權(quán)限控管。依照使用者不同等級(jí)提供不同權(quán)限的查詢功能接口。 應(yīng)用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群,將匯整的內(nèi)容進(jìn)行斷詞、索引、分類、文件特征等運(yùn)算與處理,以便滿足信息檢索與信息管理的應(yīng)用,提供多功能全面性的數(shù)據(jù)分析能力,可針對(duì)不同情境應(yīng)用加以整合,快速達(dá)到使用者需求。 同時(shí),用戶利用本系統(tǒng)的搜索引擎處理提供的強(qiáng)大的搜索功能,如中文同音搜索、簡繁體對(duì)譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準(zhǔn)確、完整、及時(shí)、有效地搜索到符合自己搜索條件的信息。 1.4.3 應(yīng)用整合 完整外部程序整合機(jī)制—所有組件均提供SDK完整開發(fā)接口,方便外部整合。另外大量提供XML的方法來進(jìn)行信息源更新時(shí)的同步以及權(quán)限的導(dǎo)入與檢查工作。 1.5 全文檢索系統(tǒng)功能特點(diǎn) 1.5.1 基本檢索功能支持 支持跨數(shù)據(jù)源索引與整合搜索。將分散在File Server上的文件、遠(yuǎn)程網(wǎng)站中的網(wǎng)頁、群組軟件中的資料,以及數(shù)據(jù)庫中的文字與非文字紀(jì)錄,在一次搜尋條件下,整合搜尋出來??梢詫?duì)近線數(shù)據(jù)、在線數(shù)據(jù)和離線數(shù)據(jù)分別建立索引庫,到時(shí)可以通過索引庫的選擇來控制對(duì)哪些性質(zhì)的數(shù)據(jù)進(jìn)行搜索; 支持「萬用字符(*、?)查詢」。使用者可查詢部分關(guān)鍵字及*(代表多于一個(gè)字)或?(代表一個(gè)字)的組合。例如:輸入關(guān)鍵詞【Chin*】,會(huì)找到【China】、【Chine】、【Chinese】等等。輸入關(guān)鍵詞【Chin?】,會(huì)找到【China】; 搜尋條件具有完整的布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(hào)"("與右括號(hào)")"作關(guān)鍵詞查詢優(yōu)先級(jí)的設(shè)定,方便查詢者輸入布爾組合之查詢條件; 內(nèi)建「智能型快速響應(yīng)模式」(Smart cache)機(jī)制,可以提供同一種查詢條件之重復(fù)使用率,提高系統(tǒng)資源的效益。Cache儲(chǔ)存目錄記錄了Cache檔案所要放置的地址,經(jīng)查詢過的資料或畫面,第二次再進(jìn)入時(shí),可重復(fù)使用第一次查詢結(jié)果; 支持/多字段 / 多條件檢索,提高搜索精確度;單一字段內(nèi),支持AND/ OR/ NOT邏輯條件,且支持括號(hào)方式來提供條件優(yōu)先權(quán)。多字段條件間,支持AND/OR/NOT邏輯條件; 1.5.2 詞索引與查詢功能 系統(tǒng)中提供了傳統(tǒng)的字索引,但是為提高查詢檢索的準(zhǔn)確度,系統(tǒng)采用自然語言斷詞機(jī)制和靈活的詞索引開關(guān),用戶可根據(jù)需要選擇詞索引或字索引。具體功能如下: 中文句子將透過智能型自動(dòng)斷詞技術(shù)以達(dá)到詞索引的效果,自動(dòng)分析與斷詞,并建立詞索引; 詞索引功能通過開關(guān)靈活設(shè)置; 檢索字串首先通過自動(dòng)斷詞,將其斷詞結(jié)果進(jìn)行組合檢索; 提供「詞庫」編輯器,針對(duì)斷詞用的「詞庫」進(jìn)行維護(hù)和調(diào)整;使中文切分詞更符合使用者的行業(yè)特點(diǎn),提高查詢的速度和準(zhǔn)確度。 該功能優(yōu)勢(shì)如下: 提高精確度: 輸入「民法」不會(huì)找到「人民法院」; 更小的索引空間:–通過詞索引的方式,索引數(shù)據(jù)庫相對(duì)字索引需要更少的磁盤空間;同樣數(shù)據(jù)量下,檢索時(shí)需要的Memory更少; 檢索性能更高:配合高效算法,詞索引的搜索性能相對(duì)字索引平均高出3倍以上; 1.5.3 多國語系數(shù)據(jù)索引與查詢 系統(tǒng)基于Unicode設(shè)計(jì)。 可支持多國語系(英文、繁簡體中文、日文、韓文、Unicode等)混合的文件的建置與查詢。 可支持多種編碼格式的索引,包含Big5、GB2312、Unicode、UTF-8、 EUC-JP、Shift-JIS,并支持以Unicode同時(shí)輸入多國語系條件進(jìn)行搜尋。 同個(gè)數(shù)據(jù)表或一條數(shù)據(jù)庫記錄中可以支持多國語言混排內(nèi)容; 一個(gè)索引數(shù)據(jù)庫可以存在多國語言的不同數(shù)據(jù); 可以輸入多國語言的檢索條件,并使用AND、OR、NOT邏輯關(guān)系; 檢索結(jié)果中可以同時(shí)顯示多國語言記錄; 搭配多國語言同義詞庫,可以通過單一語言條件,得到多國語言檢索結(jié)果; 1.5.4 中英文模糊搜索查詢功能 內(nèi)建「中英文容錯(cuò)(Fuzzy)」查詢功能。 中英文容錯(cuò)功能Fuzzy Search,基于文字特性,很多專有名詞及詞匯依情況不同,也許衍生出通用的簡稱,或是文字次序?qū)φ{(diào)。也有可能因?yàn)槟:幻鞔_的意象,使用者希望只需要輸入一 個(gè)關(guān)鍵詞,就能一并查詢性質(zhì)類似或相關(guān)之信息。比如:輸入「Mobile Network」可查到「Mobile Appliance Network」等特定距離的詞句、輸入「產(chǎn)業(yè)研究」可查到「產(chǎn)業(yè)結(jié)構(gòu)研究」、「產(chǎn)業(yè)….研究」等,擴(kuò)展搜尋的完整性。 1.5.5 近似概念詞庫輔助查詢功能 可針對(duì)不同的索引庫設(shè)定同義詞組。如設(shè)定「電腦 $ Computer $ 計(jì)算機(jī) 」為同義詞,則使用者可搜索“電腦”時(shí),可同時(shí)查到含有“Computer”或“計(jì)算機(jī)”的信息。 內(nèi)建18萬多組中英文同義詞組,具有中英文近似概念與同義詞檢索,并可提供詞庫管理工具,使用戶可自行修改詞庫內(nèi)容。 1.5.6 其他檢索功能 中文同音輔助查詢功能,如輸入“網(wǎng)駱”,啟動(dòng)中文同音功能后,可以搜索出以“網(wǎng)絡(luò)”為關(guān)鍵字的記錄; 英文字根 (Stemming) 輔助查詢功能,輸入“computing”,可以搜索出以“computer”為關(guān)鍵字的記錄; 英文錯(cuò)誤字提示功能; 簡繁對(duì)譯組件功能,輸入“中國”,可以搜索出以繁體字“中國”為關(guān)鍵字的記錄; 1.5.7 搜索結(jié)果顯示 以Web網(wǎng)頁形式呈現(xiàn)查詢結(jié)果,使用者可指定所欲察看的特定筆數(shù)或分頁瀏覽。支持二次搜索功能。 提供「屬性字段權(quán)重排序機(jī)制」,管理者可自訂查詢結(jié)果的排序規(guī)則,讓搜尋結(jié)果按搜索者的意圖顯示。 提供「樹形分類目錄」,提供查詢結(jié)果分類,可以讓使用者進(jìn)一步選取下一層目錄,以縮小查詢范圍。 具有標(biāo)示原文關(guān)鍵詞功能,可以直接將原文中有關(guān)使用者輸入得關(guān)鍵詞全數(shù)標(biāo)示出來,同時(shí)系統(tǒng)管理者可以自行設(shè)定關(guān)鍵詞標(biāo)示的顏色、大小、字型….等屬性。 查詢結(jié)果可同時(shí)顯示文件抬頭及重要摘要段落或者僅僅顯示文件抬頭以加快使用者的查詢速度。 開發(fā)搜索接口,用戶可根據(jù)開發(fā)的SDK自己開發(fā)特定形式和顯示風(fēng)格的搜索結(jié)果頁面。 1.5.8 自然語言應(yīng)用組件 利用自然語言的形似相關(guān)詞功能,可對(duì)數(shù)據(jù)擷取內(nèi)容進(jìn)行新詞學(xué)習(xí),語意分析等,可自動(dòng)建立新詞,提升數(shù)據(jù)處理準(zhǔn)確度?;谧匀徽Z言應(yīng)用組件,可實(shí)現(xiàn)相關(guān)文章查詢功能、重復(fù)文章查詢功能、自動(dòng)摘要功能、語意查詢功能、形似相關(guān)詞建議功能等。從而能夠通過關(guān)聯(lián)組織的方式,把不同檔案庫中的相似、相關(guān)內(nèi)容一次性的搜索出來。 相關(guān)文件查詢 文章自動(dòng)摘要 1.5.9 自動(dòng)分類應(yīng)用組件 搭配自動(dòng)分類組件,可對(duì)擷取數(shù)據(jù)進(jìn)行分類,并可輔以導(dǎo)覽式分類組件與搜尋組件進(jìn)行整合,即可逐一依類別篩檢過濾資料,并顯示類別內(nèi)符合資料。 導(dǎo)覽式分類 自動(dòng)分類 1.5.10 高效數(shù)據(jù)同步功能(增量索引) 以前的全文搜索引擎在面對(duì)大資料量建立索引時(shí),都會(huì)限制數(shù)據(jù)量的多少,而解決這個(gè)問題通常都是將資料量分為幾個(gè)部分分開建索引。但是這種方法并無法徹底解決資料同步更新或檢索的需求。本系統(tǒng)提供漸進(jìn)式索引技術(shù),也就是通過增量索引機(jī)制可以逐步地分別為數(shù)據(jù)庫建立索引,對(duì)于異動(dòng)的數(shù)據(jù)或索引,進(jìn)行實(shí)時(shí)的更新。 1.5.11 高可用性 本全文檢索服務(wù)可以通過Layer 4 Switch 硬件進(jìn)行搜尋的負(fù)載均衡,提高服務(wù)效能。若某臺(tái)主機(jī)因不明原因無法對(duì)外服務(wù),則可實(shí)時(shí)以另一臺(tái)主機(jī)對(duì)外進(jìn)行正常服務(wù)。 索引庫可存放于網(wǎng)絡(luò)存儲(chǔ)設(shè)備上,讓備用機(jī)共享其索引數(shù)據(jù),使全文檢索服務(wù)可以正常運(yùn)行。 1.5.12 可擴(kuò)充性: 本系統(tǒng)可依不同需求擴(kuò)張,分類,自然語言,數(shù)據(jù)適配器等組件,更可置換其關(guān)鍵性應(yīng)用組件,例如:企業(yè)已使用其它分類組件,透過 本系統(tǒng)提供之 SDK,可取代原本之分類應(yīng)用組件,且不會(huì)影響原本服務(wù)機(jī)制。 1.6 大數(shù)據(jù)量全文檢索解決方案 當(dāng)需要建立索引的數(shù)據(jù)量達(dá)到上千萬條時(shí)(大概上百個(gè)G),單個(gè)服務(wù)器檢索系統(tǒng)在性能方面是不可能得到保證的,這時(shí)候查詢一條信息所需要的時(shí)間已經(jīng)遠(yuǎn)遠(yuǎn)超出了使用者的容忍范圍,所以為保證全文檢索系統(tǒng)的高性能特點(diǎn),使用多臺(tái)檢索服務(wù)器機(jī)群來實(shí)施分布式檢索成為當(dāng)務(wù)之急! 1.6.1 大數(shù)據(jù)量全文檢索構(gòu)架圖 如圖所示,應(yīng)用系統(tǒng)的所有資料分散的部署到各個(gè)索引服務(wù)器上建立索引,之后把索引好的數(shù)據(jù)存儲(chǔ)到索引庫中,用戶發(fā)出一個(gè)搜索請(qǐng)求后,龍卷風(fēng)大數(shù)據(jù)量分布式檢索系統(tǒng)通過SOAP機(jī)制把搜索請(qǐng)求發(fā)送給索引服務(wù)器,然后接收到搜索請(qǐng)求的服務(wù)器會(huì)去到索引庫中把搜索者所需資料查找出來并且把所有查詢結(jié)果合并到一起通過用戶設(shè)定的排序方式在前端搜索頁面上顯示出來。在此期間,用戶發(fā)送搜索請(qǐng)求后,機(jī)群索引調(diào)度服務(wù)會(huì)根據(jù)索引服務(wù)器狀態(tài)表把搜索請(qǐng)求發(fā)給空閑的服務(wù)器,充分利用整個(gè)系統(tǒng)的每一分資源。 1.6.2 分布式技術(shù)優(yōu)勢(shì) l 多種數(shù)據(jù)庫信息統(tǒng)一建立索引,支持對(duì)數(shù)據(jù)庫的文件附件索引,無需對(duì)數(shù)據(jù)源進(jìn)行任何改動(dòng); l 支持T級(jí)總量數(shù)據(jù),每天G級(jí)的增量數(shù)據(jù)實(shí)現(xiàn)秒級(jí)數(shù)據(jù)檢索,并且索引延遲時(shí)間保證在1小時(shí)以內(nèi),即實(shí)現(xiàn)用戶對(duì)每天更新數(shù)據(jù)能夠及時(shí)查詢,還能保證T級(jí)歷史數(shù)據(jù)的快速查詢; l 整個(gè)系統(tǒng)具有靈活的擴(kuò)展性,在系統(tǒng)應(yīng)用過程中,隨著用戶需檢索數(shù)據(jù)量的增加,可通過擴(kuò)展索引服務(wù)器和查詢服務(wù)器集群高性價(jià)比平滑升級(jí),已經(jīng)索引過的數(shù)據(jù)和原有系統(tǒng)的穩(wěn)定性不受影響; l 高并發(fā)用戶訪問量支持; 1.7 搜索的權(quán)限控制 IRMS提供的信息搜索并非是指人人皆可隨意搜索到任何信息,而是依照組織中的角色,讓搜索者只能搜索自己權(quán)限范圍內(nèi)的信息,而無權(quán)限訪問的記錄是不會(huì)被搜索出來的。 IRMS權(quán)限控制主要實(shí)現(xiàn): 保證存取信息的安全性 有該文件讀取權(quán)的人或群組, 才有可能查詢到此一文件 無該文件讀取權(quán)的人或群組, 不會(huì)知道有哪些無權(quán)讀取的文件存在 如果每個(gè)人或群組文件的讀取權(quán)不同, 查詢結(jié)果集就會(huì)不同 1.7.1 搜索系統(tǒng)和應(yīng)用系統(tǒng)權(quán)限整合方法 針對(duì)不同的應(yīng)用及特定的權(quán)限規(guī)則,有多種方式可以實(shí)現(xiàn)IRMS搜索系統(tǒng)和應(yīng)用系統(tǒng)的權(quán)限整合。主要方法包括: 1、 分索引庫法:此種方法適用于權(quán)限較簡單,并且權(quán)限可以歸為幾大類的應(yīng)用。如用戶組分為公司領(lǐng)導(dǎo)組、部門經(jīng)理組、普通員工組,每組用戶內(nèi)部權(quán)限相同,組之間才有權(quán)限差異。針對(duì)此種應(yīng)用,可以分別針對(duì)不用的用戶組創(chuàng)建不同的索引庫,分別放置于Group_for_公司領(lǐng)導(dǎo)、Group_for_部門經(jīng)理、Group_for_普通員工。搜索時(shí),首先判斷用戶所在何用戶組,針對(duì)不同的用戶組再定向到不同的搜索庫中去全文檢索。 2、 特殊屬性過濾法:此種方法適用于信息資料源單一,并且有一特殊屬性字段可以判斷用戶權(quán)限的情況。如數(shù)據(jù)庫全文搜索時(shí),有一字段值為授權(quán)訪問該記錄的所有用戶或組。針對(duì)此種特殊情況,可以選擇使用多字段屬性過濾的方法,在搜索頁面提交搜索請(qǐng)求后,使用該特殊屬性字段過濾最終的搜索結(jié)果。 3、 搜索結(jié)果過濾法:用戶提交搜索后,搜索引擎搜索時(shí)并不帶入權(quán)限信息,只是在搜索結(jié)果顯示時(shí),使用應(yīng)用系統(tǒng)的權(quán)限規(guī)則來過濾搜索結(jié)果,并將符合該用戶權(quán)限范圍內(nèi)的信息顯示給搜索者。 4、 內(nèi)建權(quán)限規(guī)則法:搜索系統(tǒng)內(nèi)建權(quán)限規(guī)則,管理員根據(jù)搜索信息來源的權(quán)限規(guī)則定制搜索系統(tǒng)的權(quán)限規(guī)則,用戶提交的搜索請(qǐng)求搜索系統(tǒng)經(jīng)過權(quán)限過濾后再反饋給搜索者。 5、 導(dǎo)入權(quán)限規(guī)則法:搜索系統(tǒng)不內(nèi)建權(quán)限系統(tǒng),但提供權(quán)限導(dǎo)入機(jī)制。用戶將應(yīng)用系統(tǒng)的權(quán)限規(guī)則標(biāo)準(zhǔn)化后,通過搜索系統(tǒng)的API導(dǎo)入到搜索系統(tǒng)中。用戶提交搜索請(qǐng)求,搜索系統(tǒng)經(jīng)過權(quán)限過濾后再反饋給搜索者。 各種方法的比較: 適用環(huán)境 優(yōu)點(diǎn) 缺點(diǎn) 分索引庫法 權(quán)限較簡單,并且權(quán)限可以歸為幾大類的應(yīng)用 部署簡單 適用范圍小 特殊屬性過濾法 信息資料源單一,并且有一特殊屬性字段可以判斷用戶權(quán)限的情況 部署簡單 適用范圍小 搜索結(jié)果過濾法 應(yīng)用系統(tǒng)權(quán)限判斷用時(shí)少 部署簡單 應(yīng)用系統(tǒng)權(quán)限規(guī)則復(fù)雜時(shí),搜索結(jié)果權(quán)限判斷將很花時(shí)間,致使搜索結(jié)果顯示速度慢 內(nèi)建權(quán)限規(guī)則法 大部分應(yīng)用系統(tǒng) 權(quán)限系統(tǒng)內(nèi)嵌在搜索系統(tǒng)中,搜索速度和顯示速度快 管理員需要為搜索系統(tǒng)索引庫中的每筆記錄分配權(quán)限,工作復(fù)雜 導(dǎo)入權(quán)限規(guī)則法 大部分應(yīng)用系統(tǒng) 權(quán)限系統(tǒng)內(nèi)嵌在搜索系統(tǒng)中,搜索速度和顯示速度快。支持批量導(dǎo)入機(jī)制 需要將應(yīng)用系統(tǒng)權(quán)限規(guī)則導(dǎo)出為特定格式。但一旦確定模式,則可重復(fù)使用 按照以上搜索系統(tǒng)權(quán)限整合分析,此次應(yīng)用系統(tǒng)涉及的搜索信息來源所包括的Documentum、OA及其它應(yīng)用系統(tǒng)都有各自的權(quán)限規(guī)則,應(yīng)采用第四或第五種權(quán)限整合方法。 IRMS全文檢索系統(tǒng)支持第五種權(quán)限整合方法,它的主要特點(diǎn)包括: 支持實(shí)時(shí)權(quán)限信息導(dǎo)入和定時(shí)權(quán)限信息導(dǎo)入,用戶現(xiàn)有權(quán)限規(guī)則不用做任何改動(dòng); 支持使用XML Export與Import的機(jī)制提供信息內(nèi)容權(quán)限控管的整合接口; 支持權(quán)限信息導(dǎo)出為XML文件后,再批量XML文件導(dǎo)入的功能; 提供權(quán)限組件及 SDK,可單獨(dú)操作權(quán)限組件進(jìn)行不同的權(quán)限系統(tǒng)整合; 利用XML進(jìn)行權(quán)限整合描述,和其它系統(tǒng)的權(quán)限架構(gòu)做整合。整合后,不同的權(quán)限使用者使用搜尋引擎、自然語言等應(yīng)用組件時(shí),將得到符合各自權(quán)限的數(shù)據(jù); 權(quán)限規(guī)則與 IRMS 可以完全分離, 增加可重用性。 1.7.2 IRMS和Domino權(quán)限整合實(shí)例 龍卷風(fēng)公司已經(jīng)開發(fā)出成熟的Domino適配器,實(shí)現(xiàn)將Domino中的文檔建立索引,實(shí)現(xiàn)全文檢索。 1) 通過管理界面設(shè)定需要如何連接Domino NSF數(shù)據(jù)庫,同時(shí)設(shè)定索引哪個(gè)View或表及其它信息。 2) IRMS Domino Composer通過以上配置實(shí)現(xiàn)從Domino中提取文檔內(nèi)容,創(chuàng)建索引。 對(duì)于Domino ACL信息,龍卷風(fēng)公司已經(jīng)開發(fā)出一通用Domino權(quán)限導(dǎo)出工具,實(shí)現(xiàn)一般的Domino數(shù)據(jù)庫權(quán)限信息的導(dǎo)出。再結(jié)合IRMS提供的SDK和XML導(dǎo)入工具,即可實(shí)現(xiàn)Domino數(shù)據(jù)庫權(quán)限信息整合到索引庫中,最終實(shí)現(xiàn)搜索用戶帶權(quán)限信息搜索,即搜索者只能搜索自己權(quán)限范圍內(nèi)的信息,而無權(quán)限訪問的記錄是不會(huì)被搜索出來的。 XML文件樣例:- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 全文 檢索系統(tǒng) 整體 方案設(shè)計(jì)
鏈接地址:http://www.3dchina-expo.com/p-9333024.html