目前,垂直搜索引擎正成爲互聯網發展的下(xià)一(yī)個熱點。比如企業庫搜索、供求信息搜索引擎、購物(wù)搜索、房産搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索。采用Gpower SmartSearch,實時索引企業已有的資(zī)料庫,并結合互聯網信息抓取技術,成爲構建垂直搜索引擎的基礎。
一(yī)個好的搜索引擎,就是要精确、快速找到客戶想要的信息,具體(tǐ)表現爲:
極高的準确性
查全率,能确保滿足要求的每筆資(zī)料都能檢索到
智能性,能主動猜測用戶的意圖
支持多種數據源,包括文件、網頁、數據庫
采用與清華大(dà)學合作開(kāi)發的分(fēn)詞算法,支持對中(zhōng)文、英文、數字的混合分(fēn)詞。中(zhōng)文分(fēn)詞有效地消除中(zhōng)文歧義,中(zhōng)文單詞識别準确率達到99%以上。智能識别中(zhōng)文人名單詞,數量詞,Email、URL等信息,爲用戶提供更精準的檢索結果。
采用相關度分(fēn)析技術,使相關度高的結果排在前面,低的排在後面。對檢索單詞進行智能提示:包括拼寫檢查、相關詞建議等,有效的幫助用戶找到想要的信息。拼音檢索,方便客戶的查詢輸入。二次檢索,逐步縮小(xiǎo)結果範圍,鎖定自己需要的結果。
結合智能分(fēn)詞技術和字詞混合技術,确保查詢結果無一(yī)漏掉。查詢結果無論多少,都能檢索到。Google隻有前100頁,baidu隻有前76頁。
系統除了支持文件系統、Internet網站,還能對主流的關系數據庫(Oracle,SQL Server,DB2等)、FTP服務器等進行索引。其靈活的數據源接口可以擴展,如對郵件系統、知(zhī)識庫等進行檢索。
在G級數據集合上達到亞秒級檢索速度
增量索引,确保索引速度快
索引空間膨脹率<0.5
可以支持檢索靜态網頁、動态網頁、文件系統的目錄文件等。支持對各種格式化文檔的檢索(如PDF, Word, Excel, PPT等文件)。
系統全面支持Web服務,可以方便與各個系統(包括.NET系統)集成,100%滿足企業、政府檢索的需要。支持XML輸出,可應用于RSS。開(kāi)放(fàng)的API,支持二次開(kāi)發。
采用純Java語言開(kāi)發,全面支持J2EE,可運行于Windows、UNIX、Linux平台,在内核上采用先進的多級索引、緩存技術,性能卓越。是唯一(yī)全面支持J2EE平台的搜索引擎。安全、穩定是J2EE的最大(dà)特色。
采用增量更新方式對内容進行更新,即每次檢查數據變化時,隻對新添加或發生(shēng)變化的數據進行更新,索引性能明顯優于隻能進行完全更新的系統。
系統維護管理工(gōng)具采用自動和人工(gōng)兩種方式,支持遠程維護和管理,通過設置任務計劃可以實現遠程無人值守的維護更新托管方式。更新及時,可以達到分(fēn)鍾級自動監測,支持增量更新,确保檢索最新的資(zī)料。
對于輸出結果,可以根據字段進行排序,比如相關度、點擊率、日期等,方便用戶快速找到需要的資(zī)料。這是與google、baidu等搜索引擎重要區别的特征。
系統默認排序按照相關度排序,相關度排序以檢索詞與網頁的相關性爲依據對檢索結果排序,相關性是對詞頻(pín)、詞位(詞在文章中(zhōng)出現的位置)、以及文件大(dà)小(xiǎo)等因素綜合評價的結果;時間排序則可以保證把最新的數據優先輸出。
采用B/S架構,維護管理端用浏覽器即可,無需安裝任何客戶端。管理方便,對于數據庫索引提供配置向導。檢索顯示模闆任意定制,可視化編輯器。在配置好初始的數據源後,系統可以定時更新數據源中(zhōng)發生(shēng)變化的信息,不需要人工(gōng)幹預。