全文檢索系統(tǒng)整體方案設計.doc

上傳人：jian****018

文檔編號：9333024

上傳時間：2020-04-04

格式：DOC

頁數(shù)：25

大小：1.93MB

《全文檢索系統(tǒng)整體方案設計.doc》由會員分享，可在線閱讀，更多相關《全文檢索系統(tǒng)整體方案設計.doc（25頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1 全文檢索系統(tǒng)方案 1.1 全文檢索需求 1) 系統(tǒng)提供模糊檢索、分類搜索、高級復合搜索、全文檢索、圖片內(nèi)容檢索、跨庫檢索等多種檢索途徑； 2) 支持字索引和詞索引； 3) 檢索條件具有完整的關鍵詞布爾邏輯運算AND、OR、NOT能力，支持復合式布爾邏輯運算查詢，并且可以配合多組左括號"("與右括號")"作關鍵詞查詢優(yōu)先級的設置； 4) 提供用戶多次遞進查詢的功能，用戶可根據(jù)上一次查詢關鍵詞得到的檢索結果集，增加查詢關鍵詞與縮小搜索日期范圍，而得到更準確的查詢結果集； 5) 能夠支持對以上文件中的中文（簡體/繁體）、英文、日語、韓語內(nèi)容實現(xiàn)關鍵字檢索； 6) 支持對Word、TXT、PDF等多種主流文檔格式全文檢索，并提供開發(fā)接口以支持特殊文檔格式的全文檢索； 7) 在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時，能在索引庫中反映出來，保證搜索的信息為最新，即支持增量索引機制； 8) 用戶可自行設定時間，讓系統(tǒng)自動定時進行更新索引； 9) 對于百萬級記錄數(shù)的搜索以及結合模糊搜索等查詢方式，搜索時間不得超過10秒； 10) 提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索； 11) 同過相關性搜索，能夠把和搜索條件相關聯(lián)的信息搜索出來； 12) 不但能夠對圖片的描述信息進行搜索，還能對圖片內(nèi)容的檢索； 13) 提供COM與SOAP的搜索接口(Interface) 可讓其它應用程序或查詢網(wǎng)頁能夠提供用戶查詢?nèi)肟诤筒樵兘Y果的呈現(xiàn)，用戶可通過應用程序或瀏覽器訪問全文檢索服務器，提交查詢條件，可在瀏覽器中查看檢索結果； 14) 查詢結果集中應包含結果集總數(shù)、命中的結果文件的完整路徑，以及符合關鍵詞出現(xiàn)的內(nèi)容片斷； 15) 在搜索結果集中，關鍵詞應被標識出來，用特殊的字體及顏色和其他文字進行區(qū)別，查詢者可在查詢結果片斷中一目了然的看到關鍵詞出現(xiàn)的位置； 16) 查詢結果可按照關鍵詞命中次數(shù)，命中結果文件的修改時間，大小等條件進行排序； 17) 可提供用戶對檢索命中結果文件在索引庫中進行標記，從而再次檢索時，不在標記過的文件中進行查詢； 1.2 全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。針對企業(yè)內(nèi)部的信息，包括文件服務器上的文件、網(wǎng)站網(wǎng)頁、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫信息、辦公應用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉的內(nèi)容，本系統(tǒng)提供了兩種數(shù)據(jù)適配器來提取其中的正文內(nèi)容和屬性內(nèi)容，形成一個相對結構化的數(shù)據(jù)虛擬層；本系統(tǒng)的索引引擎（Indexer）對結構化的數(shù)據(jù)虛擬層進行中文切分詞、文件特征分析和逐步索引，以及其它索引算法，生成索引數(shù)據(jù)庫；使用者（user）在搜索頁面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后，本系統(tǒng)的全文檢索查詢引擎（Searcher）會在索引庫中進行搜索，并將符合搜索條件的搜索結果返回給使用者；使用者（user）可于查詢結果頁面，進一步鏈接到信息原文查看詳細內(nèi)容。對于系統(tǒng)管理，管理員可通過相應web方式的管理程序來管理整個系統(tǒng)運行環(huán)境及設置文件；并通過索引引擎（Indexer.exe）實時或定時創(chuàng)建索引，更新索引數(shù)據(jù)庫的內(nèi)容，使檢索信息維持在最新狀態(tài)。 1.3 全文檢索系統(tǒng)帶來的效益高效率的整合搜索，大幅減少組織成員在取得信息時花費的時間！本系統(tǒng)和其它搜索系統(tǒng)只針對特定信息源搜索不同，它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索，具備強大的信息整合及快速回應能力，讓企業(yè)成員以單一搜索頁面、簡易的操作方式，即可在最短時間內(nèi)，完整、準確、及時地掌握企業(yè)內(nèi)外所有信息，不必再耗費大量時間的找尋信息！信息過量不會造成企業(yè)成員的信息焦慮！通過本系統(tǒng)強大的索引/搜索能力，大量的信息也可在瞬間過濾出符合使用者條件的信息，不必擔心迷失在漫漫的信息洪流之中！非結構/非組織的信息，不再是知識管理的盲點！文件/檔案以及非經(jīng)過分類管理的信息，因為附加信息稀少，往往成為知識利用上難以判斷、分析的信息。本系統(tǒng)直接針對內(nèi)容全文分析、關聯(lián)，使這類信息同樣可讓使用者以檢索方式，快速篩選利用！整合容易，使用簡易，導入迅速，易于接受！套裝化、模塊化的設計及靈活的整合能力，能在企業(yè)內(nèi)迅速的安裝設置；操作方式簡單，企業(yè)成員易于接受，導入方便。以最經(jīng)濟的時間、人力及費用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識環(huán)境。 1.4 全文檢索系統(tǒng)平臺架構本系統(tǒng)基于組件化和松散耦合架構和設計，系統(tǒng)平臺架構示意圖如下：整個系統(tǒng)主要分為信息整合、信息萃取和服務、應用整合三個部分。信息整合此部分主要作用是將企業(yè)內(nèi)部存儲于不同應用系統(tǒng)中的結構化信息、半結構化信息、非結構化信息通過本系統(tǒng)提供的兩種數(shù)據(jù)適配器進行信息提取，形成一個相對結構化的數(shù)據(jù)虛擬層，以備后期信息萃取和服務。信息萃取和服務在信息整合層形成的相對結構化的數(shù)據(jù)虛擬層基礎上，本系統(tǒng)將對其中的每筆記錄進行中文切分詞、索引、文件特征分析、自動分類等各種演算算法處理，形成可以提供搜索服務的索引庫。用戶利用本系統(tǒng)的搜索引擎處理提供的強大的搜索功能，如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等，快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。應用整合本系統(tǒng)還提供了完整的外部程序整合機制。所有組件均提供SDK完整開發(fā)接口，方便應用整合和應用擴展。 1.4.1 信息整合此部分主要提供對企業(yè)內(nèi)外部非結構性數(shù)據(jù)信息源建立自動化數(shù)據(jù)匯入功能。根據(jù)用戶實際需求，用戶可以選擇導入包含Text、Microsoft Office、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail（含附件文件）等格式及文件影音附件（如影片的文件名或摘要、圖片的文件名或摘要、及文字）自動化建立索引數(shù)據(jù)，建立索引數(shù)據(jù)所處理之文字包括繁體中文、簡體中文等；同時用戶可以選擇導入數(shù)據(jù)庫數(shù)據(jù)，如Oracle、 Informix、Sybase、MS SQL等。此外和Notes系統(tǒng)也已經(jīng)有了無縫整合，可掛載Notes Composer對nsf庫中正文及附件信息索引，在做索引的過程中自動把每筆記錄的權限鍵入索引庫。本系統(tǒng)提供可掛載的數(shù)據(jù)適配器(Data Adapter)，將異質(zhì)的數(shù)據(jù)來源與數(shù)據(jù)結構進行匯整與粹取，亦扮演將非結構的信息結構化，可以很容易地分析特殊檔案格式和管理復雜的數(shù)據(jù)源結構（如遞歸、巢狀等）的多功能設計，以方便信息檢索與管理。以 e-mail 含附件為例，e-mail Adapter 可解析 e-mail 內(nèi)文，而當選購 office Adapter 后，原來的 e-mail Adapter 即可解析 office 相關的附件文件，可視需求額外購買 PDF、ZIP、RAR、OCR 等不同數(shù)據(jù)適配器，即可交互搭配使用。搭配使用本系統(tǒng) 的 TXT、Microsoft Office、RTF、PDF、HTML、E-mail及 FileMeta資料提取器，將可解析Text、Microsoft Office、XML、RTF、PDF、HTML、MHT及E-mail（含附件文件）及文件影音附檔（如影片的文件名或摘要、圖片的文件名或摘要、及文字）等格式，包括繁體中文、簡體中文、英文、Unicode等；使用數(shù)據(jù)庫數(shù)據(jù)適配器，將可支持數(shù)據(jù)庫數(shù)據(jù)匯入處理如Oracle、 Informix、Sybase、MS SQL等。 1.4.2 信息萃取和服務此部分須提供對數(shù)據(jù)提取的內(nèi)容所包含的信息，進行數(shù)據(jù)處理分析，包含：分類模式建立自動分類功能。針對非結構性數(shù)據(jù)建立詞庫，詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。自動分類機制與專業(yè)詞庫須具備自動學習與修正之功能以提升數(shù)據(jù)處理準確度。可針對不同使用層級、項目進行非結構性數(shù)據(jù)權限控管。依照使用者不同等級提供不同權限的查詢功能接口。應用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群，將匯整的內(nèi)容進行斷詞、索引、分類、文件特征等運算與處理，以便滿足信息檢索與信息管理的應用，提供多功能全面性的數(shù)據(jù)分析能力，可針對不同情境應用加以整合，快速達到使用者需求。同時，用戶利用本系統(tǒng)的搜索引擎處理提供的強大的搜索功能，如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等，快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。 1.4.3 應用整合完整外部程序整合機制—所有組件均提供SDK完整開發(fā)接口，方便外部整合。另外大量提供XML的方法來進行信息源更新時的同步以及權限的導入與檢查工作。 1.5 全文檢索系統(tǒng)功能特點 1.5.1 基本檢索功能支持支持跨數(shù)據(jù)源索引與整合搜索。將分散在File Server上的文件、遠程網(wǎng)站中的網(wǎng)頁、群組軟件中的資料，以及數(shù)據(jù)庫中的文字與非文字紀錄，在一次搜尋條件下，整合搜尋出來?？梢詫€數(shù)據(jù)、在線數(shù)據(jù)和離線數(shù)據(jù)分別建立索引庫，到時可以通過索引庫的選擇來控制對哪些性質(zhì)的數(shù)據(jù)進行搜索；支持「萬用字符（*、?）查詢」。使用者可查詢部分關鍵字及*(代表多于一個字)或?(代表一個字)的組合。例如：輸入關鍵詞【Chin*】，會找到【China】、【Chine】、【Chinese】等等。輸入關鍵詞【Chin?】，會找到【China】；搜尋條件具有完整的布爾邏輯運算AND、OR、NOT能力，支持復合式布爾邏輯運算查詢，并且可以配合多組左括號"("與右括號")"作關鍵詞查詢優(yōu)先級的設定，方便查詢者輸入布爾組合之查詢條件；內(nèi)建「智能型快速響應模式」(Smart cache)機制，可以提供同一種查詢條件之重復使用率，提高系統(tǒng)資源的效益。Cache儲存目錄記錄了Cache檔案所要放置的地址，經(jīng)查詢過的資料或畫面，第二次再進入時，可重復使用第一次查詢結果；支持/多字段 / 多條件檢索，提高搜索精確度；單一字段內(nèi)，支持AND/ OR/ NOT邏輯條件，且支持括號方式來提供條件優(yōu)先權。多字段條件間，支持AND/OR/NOT邏輯條件； 1.5.2 詞索引與查詢功能系統(tǒng)中提供了傳統(tǒng)的字索引，但是為提高查詢檢索的準確度，系統(tǒng)采用自然語言斷詞機制和靈活的詞索引開關，用戶可根據(jù)需要選擇詞索引或字索引。具體功能如下：中文句子將透過智能型自動斷詞技術以達到詞索引的效果，自動分析與斷詞，并建立詞索引；詞索引功能通過開關靈活設置；檢索字串首先通過自動斷詞，將其斷詞結果進行組合檢索；提供「詞庫」編輯器，針對斷詞用的「詞庫」進行維護和調(diào)整；使中文切分詞更符合使用者的行業(yè)特點，提高查詢的速度和準確度。該功能優(yōu)勢如下：提高精確度：輸入「民法」不會找到「人民法院」；更小的索引空間：–通過詞索引的方式，索引數(shù)據(jù)庫相對字索引需要更少的磁盤空間；同樣數(shù)據(jù)量下，檢索時需要的Memory更少；檢索性能更高：配合高效算法，詞索引的搜索性能相對字索引平均高出3倍以上； 1.5.3 多國語系數(shù)據(jù)索引與查詢系統(tǒng)基于Unicode設計。可支持多國語系（英文、繁簡體中文、日文、韓文、Unicode等）混合的文件的建置與查詢。可支持多種編碼格式的索引，包含Big5、GB2312、Unicode、UTF-8、 EUC-JP、Shift-JIS，并支持以Unicode同時輸入多國語系條件進行搜尋。同個數(shù)據(jù)表或一條數(shù)據(jù)庫記錄中可以支持多國語言混排內(nèi)容；一個索引數(shù)據(jù)庫可以存在多國語言的不同數(shù)據(jù)；可以輸入多國語言的檢索條件，并使用AND、OR、NOT邏輯關系；檢索結果中可以同時顯示多國語言記錄；搭配多國語言同義詞庫，可以通過單一語言條件，得到多國語言檢索結果； 1.5.4 中英文模糊搜索查詢功能內(nèi)建「中英文容錯（Fuzzy）」查詢功能。中英文容錯功能Fuzzy Search，基于文字特性，很多專有名詞及詞匯依情況不同，也許衍生出通用的簡稱，或是文字次序對調(diào)。也有可能因為模糊不明確的意象，使用者希望只需要輸入一個關鍵詞，就能一并查詢性質(zhì)類似或相關之信息。比如：輸入「Mobile Network」可查到「Mobile Appliance Network」等特定距離的詞句、輸入「產(chǎn)業(yè)研究」可查到「產(chǎn)業(yè)結構研究」、「產(chǎn)業(yè)….研究」等，擴展搜尋的完整性。 1.5.5 近似概念詞庫輔助查詢功能可針對不同的索引庫設定同義詞組。如設定「電腦 $ Computer $ 計算機」為同義詞，則使用者可搜索“電腦”時，可同時查到含有“Computer”或“計算機”的信息。內(nèi)建18萬多組中英文同義詞組，具有中英文近似概念與同義詞檢索，并可提供詞庫管理工具，使用戶可自行修改詞庫內(nèi)容。 1.5.6 其他檢索功能中文同音輔助查詢功能，如輸入“網(wǎng)駱”，啟動中文同音功能后，可以搜索出以“網(wǎng)絡”為關鍵字的記錄；英文字根 (Stemming) 輔助查詢功能，輸入“computing”，可以搜索出以“computer”為關鍵字的記錄；英文錯誤字提示功能；簡繁對譯組件功能，輸入“中國”，可以搜索出以繁體字“中國”為關鍵字的記錄； 1.5.7 搜索結果顯示以Web網(wǎng)頁形式呈現(xiàn)查詢結果，使用者可指定所欲察看的特定筆數(shù)或分頁瀏覽。支持二次搜索功能。提供「屬性字段權重排序機制」，管理者可自訂查詢結果的排序規(guī)則，讓搜尋結果按搜索者的意圖顯示。提供「樹形分類目錄」，提供查詢結果分類，可以讓使用者進一步選取下一層目錄，以縮小查詢范圍。具有標示原文關鍵詞功能，可以直接將原文中有關使用者輸入得關鍵詞全數(shù)標示出來，同時系統(tǒng)管理者可以自行設定關鍵詞標示的顏色、大小、字型….等屬性。查詢結果可同時顯示文件抬頭及重要摘要段落或者僅僅顯示文件抬頭以加快使用者的查詢速度。開發(fā)搜索接口，用戶可根據(jù)開發(fā)的SDK自己開發(fā)特定形式和顯示風格的搜索結果頁面。 1.5.8 自然語言應用組件利用自然語言的形似相關詞功能，可對數(shù)據(jù)擷取內(nèi)容進行新詞學習，語意分析等，可自動建立新詞，提升數(shù)據(jù)處理準確度?；谧匀徽Z言應用組件，可實現(xiàn)相關文章查詢功能、重復文章查詢功能、自動摘要功能、語意查詢功能、形似相關詞建議功能等。從而能夠通過關聯(lián)組織的方式，把不同檔案庫中的相似、相關內(nèi)容一次性的搜索出來。相關文件查詢文章自動摘要 1.5.9 自動分類應用組件搭配自動分類組件，可對擷取數(shù)據(jù)進行分類，并可輔以導覽式分類組件與搜尋組件進行整合，即可逐一依類別篩檢過濾資料，并顯示類別內(nèi)符合資料。導覽式分類自動分類 1.5.10 高效數(shù)據(jù)同步功能（增量索引）以前的全文搜索引擎在面對大資料量建立索引時，都會限制數(shù)據(jù)量的多少，而解決這個問題通常都是將資料量分為幾個部分分開建索引。但是這種方法并無法徹底解決資料同步更新或檢索的需求。本系統(tǒng)提供漸進式索引技術，也就是通過增量索引機制可以逐步地分別為數(shù)據(jù)庫建立索引，對于異動的數(shù)據(jù)或索引，進行實時的更新。 1.5.11 高可用性本全文檢索服務可以通過Layer 4 Switch 硬件進行搜尋的負載均衡，提高服務效能。若某臺主機因不明原因無法對外服務，則可實時以另一臺主機對外進行正常服務。索引庫可存放于網(wǎng)絡存儲設備上，讓備用機共享其索引數(shù)據(jù)，使全文檢索服務可以正常運行。 1.5.12 可擴充性：本系統(tǒng)可依不同需求擴張，分類，自然語言，數(shù)據(jù)適配器等組件，更可置換其關鍵性應用組件，例如：企業(yè)已使用其它分類組件，透過本系統(tǒng)提供之 SDK，可取代原本之分類應用組件，且不會影響原本服務機制。 1.6 大數(shù)據(jù)量全文檢索解決方案當需要建立索引的數(shù)據(jù)量達到上千萬條時（大概上百個G），單個服務器檢索系統(tǒng)在性能方面是不可能得到保證的，這時候查詢一條信息所需要的時間已經(jīng)遠遠超出了使用者的容忍范圍，所以為保證全文檢索系統(tǒng)的高性能特點，使用多臺檢索服務器機群來實施分布式檢索成為當務之急！ 1.6.1 大數(shù)據(jù)量全文檢索構架圖如圖所示，應用系統(tǒng)的所有資料分散的部署到各個索引服務器上建立索引，之后把索引好的數(shù)據(jù)存儲到索引庫中，用戶發(fā)出一個搜索請求后，龍卷風大數(shù)據(jù)量分布式檢索系統(tǒng)通過SOAP機制把搜索請求發(fā)送給索引服務器，然后接收到搜索請求的服務器會去到索引庫中把搜索者所需資料查找出來并且把所有查詢結果合并到一起通過用戶設定的排序方式在前端搜索頁面上顯示出來。在此期間，用戶發(fā)送搜索請求后，機群索引調(diào)度服務會根據(jù)索引服務器狀態(tài)表把搜索請求發(fā)給空閑的服務器，充分利用整個系統(tǒng)的每一分資源。 1.6.2 分布式技術優(yōu)勢 l 多種數(shù)據(jù)庫信息統(tǒng)一建立索引，支持對數(shù)據(jù)庫的文件附件索引，無需對數(shù)據(jù)源進行任何改動； l 支持T級總量數(shù)據(jù)，每天G級的增量數(shù)據(jù)實現(xiàn)秒級數(shù)據(jù)檢索，并且索引延遲時間保證在1小時以內(nèi)，即實現(xiàn)用戶對每天更新數(shù)據(jù)能夠及時查詢，還能保證T級歷史數(shù)據(jù)的快速查詢； l 整個系統(tǒng)具有靈活的擴展性，在系統(tǒng)應用過程中，隨著用戶需檢索數(shù)據(jù)量的增加，可通過擴展索引服務器和查詢服務器集群高性價比平滑升級，已經(jīng)索引過的數(shù)據(jù)和原有系統(tǒng)的穩(wěn)定性不受影響； l 高并發(fā)用戶訪問量支持； 1.7 搜索的權限控制 IRMS提供的信息搜索并非是指人人皆可隨意搜索到任何信息，而是依照組織中的角色，讓搜索者只能搜索自己權限范圍內(nèi)的信息，而無權限訪問的記錄是不會被搜索出來的。 IRMS權限控制主要實現(xiàn)：保證存取信息的安全性有該文件讀取權的人或群組, 才有可能查詢到此一文件無該文件讀取權的人或群組, 不會知道有哪些無權讀取的文件存在如果每個人或群組文件的讀取權不同, 查詢結果集就會不同 1.7.1 搜索系統(tǒng)和應用系統(tǒng)權限整合方法針對不同的應用及特定的權限規(guī)則，有多種方式可以實現(xiàn)IRMS搜索系統(tǒng)和應用系統(tǒng)的權限整合。主要方法包括： 1、分索引庫法：此種方法適用于權限較簡單，并且權限可以歸為幾大類的應用。如用戶組分為公司領導組、部門經(jīng)理組、普通員工組，每組用戶內(nèi)部權限相同，組之間才有權限差異。針對此種應用，可以分別針對不用的用戶組創(chuàng)建不同的索引庫，分別放置于Group_for_公司領導、Group_for_部門經(jīng)理、Group_for_普通員工。搜索時，首先判斷用戶所在何用戶組，針對不同的用戶組再定向到不同的搜索庫中去全文檢索。 2、特殊屬性過濾法：此種方法適用于信息資料源單一，并且有一特殊屬性字段可以判斷用戶權限的情況。如數(shù)據(jù)庫全文搜索時，有一字段值為授權訪問該記錄的所有用戶或組。針對此種特殊情況，可以選擇使用多字段屬性過濾的方法，在搜索頁面提交搜索請求后，使用該特殊屬性字段過濾最終的搜索結果。 3、搜索結果過濾法：用戶提交搜索后，搜索引擎搜索時并不帶入權限信息，只是在搜索結果顯示時，使用應用系統(tǒng)的權限規(guī)則來過濾搜索結果，并將符合該用戶權限范圍內(nèi)的信息顯示給搜索者。 4、內(nèi)建權限規(guī)則法：搜索系統(tǒng)內(nèi)建權限規(guī)則，管理員根據(jù)搜索信息來源的權限規(guī)則定制搜索系統(tǒng)的權限規(guī)則，用戶提交的搜索請求搜索系統(tǒng)經(jīng)過權限過濾后再反饋給搜索者。 5、導入權限規(guī)則法：搜索系統(tǒng)不內(nèi)建權限系統(tǒng)，但提供權限導入機制。用戶將應用系統(tǒng)的權限規(guī)則標準化后，通過搜索系統(tǒng)的API導入到搜索系統(tǒng)中。用戶提交搜索請求，搜索系統(tǒng)經(jīng)過權限過濾后再反饋給搜索者。各種方法的比較：適用環(huán)境優(yōu)點缺點分索引庫法權限較簡單，并且權限可以歸為幾大類的應用部署簡單適用范圍小特殊屬性過濾法信息資料源單一，并且有一特殊屬性字段可以判斷用戶權限的情況部署簡單適用范圍小搜索結果過濾法應用系統(tǒng)權限判斷用時少部署簡單應用系統(tǒng)權限規(guī)則復雜時，搜索結果權限判斷將很花時間，致使搜索結果顯示速度慢內(nèi)建權限規(guī)則法大部分應用系統(tǒng) 權限系統(tǒng)內(nèi)嵌在搜索系統(tǒng)中，搜索速度和顯示速度快管理員需要為搜索系統(tǒng)索引庫中的每筆記錄分配權限，工作復雜導入權限規(guī)則法大部分應用系統(tǒng) 權限系統(tǒng)內(nèi)嵌在搜索系統(tǒng)中，搜索速度和顯示速度快。支持批量導入機制需要將應用系統(tǒng)權限規(guī)則導出為特定格式。但一旦確定模式，則可重復使用按照以上搜索系統(tǒng)權限整合分析，此次應用系統(tǒng)涉及的搜索信息來源所包括的Documentum、OA及其它應用系統(tǒng)都有各自的權限規(guī)則，應采用第四或第五種權限整合方法。 IRMS全文檢索系統(tǒng)支持第五種權限整合方法，它的主要特點包括：支持實時權限信息導入和定時權限信息導入，用戶現(xiàn)有權限規(guī)則不用做任何改動；支持使用XML Export與Import的機制提供信息內(nèi)容權限控管的整合接口；支持權限信息導出為XML文件后，再批量XML文件導入的功能；提供權限組件及 SDK，可單獨操作權限組件進行不同的權限系統(tǒng)整合；利用XML進行權限整合描述，和其它系統(tǒng)的權限架構做整合。整合后，不同的權限使用者使用搜尋引擎、自然語言等應用組件時，將得到符合各自權限的數(shù)據(jù)；權限規(guī)則與 IRMS 可以完全分離, 增加可重用性。 1.7.2 IRMS和Domino權限整合實例龍卷風公司已經(jīng)開發(fā)出成熟的Domino適配器，實現(xiàn)將Domino中的文檔建立索引，實現(xiàn)全文檢索。 1）通過管理界面設定需要如何連接Domino NSF數(shù)據(jù)庫，同時設定索引哪個View或表及其它信息。 2） IRMS Domino Composer通過以上配置實現(xiàn)從Domino中提取文檔內(nèi)容，創(chuàng)建索引。對于Domino ACL信息，龍卷風公司已經(jīng)開發(fā)出一通用Domino權限導出工具，實現(xiàn)一般的Domino數(shù)據(jù)庫權限信息的導出。再結合IRMS提供的SDK和XML導入工具，即可實現(xiàn)Domino數(shù)據(jù)庫權限信息整合到索引庫中，最終實現(xiàn)搜索用戶帶權限信息搜索，即搜索者只能搜索自己權限范圍內(nèi)的信息，而無權限訪問的記錄是不會被搜索出來的。 XML文件樣例： 1 4570 < AllowPerson>CN=Peter/O=tornado CN=Boirs/O=tornado CN=jessie/O=tornado CN=hello/O=tornado CN=badboy/O=tornado 2 6174 -Default- CN=Boirs/O=tornado 目前IRMS支持平面結構的權限規(guī)則。當用戶應用系統(tǒng)使用較多的嵌套用戶組和嵌套角色時，則需要進行客制化開發(fā)。開發(fā)周期視嵌套復雜度和應用系統(tǒng)權限API靈活程度而定。 1.7.3 IRMS和應用系統(tǒng)權限整合總結綜上所述，IRMS采用了及其靈活和方便的一種權限整合方式。系統(tǒng)管理員只要將其應用系統(tǒng)的權限規(guī)則導出成以下表格形式，IRMS即可方便的導入到索引庫中，從而在索引庫層實現(xiàn)搜索者只能搜索自己權限范圍內(nèi)的信息，而無權限訪問的記錄是不會被搜索出來的。 AllowPerson DenyPerson AllowGroup DenyPerson 記錄一記錄二 … 記錄N 1.7.4 IRMS整合拓撲圖認證（SSO）統(tǒng)一身份管理系統(tǒng) 搜索索引庫分類庫權限庫索引 1.8 概念式搜索概念式搜索并非我們平時的關鍵字搜索，她的具體含義是說詞與詞之間如果包含了整體和部分的關系或者是協(xié)同的關系或者是例證的關系或者是同義的關系以及或者是同類別的關系時，這些詞就可以說成是概念上一樣的詞，在搜索一個詞的時候，其他和這個詞概念相同的詞也會被呈現(xiàn)在搜索結果中。例如毒品和海洛因、冰毒等在概念上是屬于整體和部分的關系，在輸入關鍵字為毒品時，海洛因、冰毒也會被查找出來，但是如果輸入海洛因或者冰毒，毒品就不會被查找出來，這點說明了概念式搜索和同義詞搜索具有本質(zhì)上的區(qū)別。概念式搜索概念圖如下所示：

下載提示(請認真閱讀)

1.請仔細閱讀文檔，確保文檔完整性，對于不預覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點此認領！既往收益都歸您。

同意并開始全文預覽

文檔包含非法信息？點此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報

版權申訴 word格式文檔無特別注明外均可編輯修改；預覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標，表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
關鍵詞：: 全文檢索系統(tǒng) 整體方案設計

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學習交流，未經(jīng)上傳用戶書面授權，請勿作他用。

關于本文

本文標題：全文檢索系統(tǒng)整體方案設計.doc
鏈接地址：http://www.3dchina-expo.com/p-9333024.html

相關資源更多

正為您匹配相似的精品文檔

相關搜索

全文 檢索系統(tǒng) 整體 方案設計

關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

欧美精品一二区,性欧美一级,国产免费一区成人漫画,草久久久久,欧美性猛交ⅹxxx乱大交免费,欧美精品另类,香蕉视频免费播放

全文檢索系統(tǒng)整體方案設計.doc

最新文檔