美章網(wǎng) 資料文庫 DeepWeb數(shù)據(jù)采集論文范文

    DeepWeb數(shù)據(jù)采集論文范文

    本站小編為你精心準備了DeepWeb數(shù)據(jù)采集論文參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

    DeepWeb數(shù)據(jù)采集論文

    1表層化方式的deepweb數(shù)據(jù)采集方法

    基于表層化方式的DeepWeb數(shù)據(jù)采集方法將DeepWeb數(shù)據(jù)采集問題建模為一個優(yōu)化問題:已知一個DeepWeb數(shù)據(jù)庫DB,對DB的采集可以表示為尋找一個查詢集合Q={q1,q2,...,qn},在給定的約束條件C滿足的條件下,查詢集合Q從DB獲取的DeepWeb數(shù)據(jù)最多,即查詢集合Q對DeepWeb數(shù)據(jù)庫資源的覆蓋率達到最大。其中,C表示許向Web數(shù)據(jù)庫提交查詢請求的次數(shù)。基于表層化方式的DeepWeb數(shù)據(jù)采集問題的目標就是針對一個給定的DeepWeb數(shù)據(jù)庫,尋找一組查詢集合,使用該查詢集合能夠?qū)eepWeb數(shù)據(jù)庫資源的覆蓋率達到最大。基于表層化的方法的主要思想是通過向DeepWeb數(shù)據(jù)的查詢接口提交查詢把數(shù)據(jù)從Web數(shù)據(jù)庫中挖掘出來。這方法能夠充分利用搜索引擎爬蟲,將DeepWeb數(shù)據(jù)的采集轉換為SurfaceWeb數(shù)據(jù)采集的方式,不需要做很大的改變就可以無縫的將DeepWeb數(shù)據(jù)集成到現(xiàn)有的搜索引擎中。基于表層化方式的DeepWeb數(shù)據(jù)采集方法的關鍵是為查詢接口生成合適的查詢,其目標是為DeepWeb數(shù)據(jù)的查詢接口生成有效的查詢實例,構造表單查詢,以便將Web數(shù)據(jù)庫中的內(nèi)容發(fā)現(xiàn)出來。一個查詢接口可能包含多個輸入項,如果每個輸入項有100個有效的取值,那么對于一個有3個輸入項的查詢接口,組合生成的查詢數(shù)量是1,000,000。因此,在迚行DeepWeb數(shù)據(jù)采集時,為每個查詢接口生成所有可能的查詢是不實際的。而且,對于查詢接口中的一些文本輸入項,其對應的有效的取值進不止100個,如圖書查詢接口的書名,作者等。基于表層化方法的DeepWeb數(shù)據(jù)采集的目標是以最小的查詢數(shù)量達到最大的DeepWeb數(shù)據(jù)覆蓋率。因此,如何為查詢接口生成有效的查詢是實現(xiàn)DeepWeb數(shù)據(jù)覆蓋率最大化的重要環(huán)節(jié)。目前,針對這一問題的研究主要有基于詞頻的方法[11],基于集合覆蓋的方法[12,13],基于強化學習(ReinforcementLearning,RL)的方法[14-16],面向領域的方法(HiWE[17]、DeepBot[18,19]),基于屬性值圖的方法[20],基于查詢模板的方法[21],基于本體的方法[22-24]等。通過對查詢接口的分析發(fā)現(xiàn),查詢接口根據(jù)輸入項素的個數(shù)可分為:簡單查詢接口(SimpleQueryInterface)和復雜查詢接口(ComplexQueryInterface)。簡單查詢接口包含一個輸入項,即為簡單的關鍵字查詢接口,使用方式與搜索引擎接口一樣;復雜查詢接口則包含兩個或多個輸入項。因此,本文根據(jù)查詢構造方法支持的接口類型將已有工作分為兩類:簡單查詢接口查詢構造方法,復雜查詢接口查詢構造方法。

    1.1簡單查詢接口查詢構造方法簡單查詢接口只有一個輸入項,因此,對簡單查詢接口迚行查詢構造時并不需要考慮表單輸入項乊間的關系,只需要為該輸入項生成候選查詢關鍵字集合。基于詞頻的方法[11],基于集合覆蓋的方法[12,13],基于強化學習(ReinforcementLearning,RL)的方法[14-16]屬于此類的研究。基于詞頻的方法[11]基于一個假設:在實際數(shù)據(jù)庫或文檔集合中的高頻詞比隨機選擇的詞具有更高的資源覆蓋能力,而且高頻詞作為查詢能夠獲取更多的查詢結果。因此,該方法對簡單搜索接口所在頁面和查詢返回的結果迚行抽樣,然后在每一輪查詢結果中選擇高頻詞構造查詢迚行資源采集。但是該方法有個明顯的不足:在每次查詢時,高頻詞無法確保獲取更多的新頁面。為此,Wang等人[12,13]將DeepWeb數(shù)據(jù)庫采集問題建模為集合覆蓋問題,利用目標數(shù)據(jù)庫采樣方法迚行DeepWeb數(shù)據(jù)爬取:首先從目標數(shù)據(jù)庫中獲取部分樣本,引入文檔權重和查詢權重,基于文檔權重和查詢權重利用貪心選擇策略選擇能夠覆蓋樣本數(shù)據(jù)庫的文檔重復率低的查詢詞集合,使用該查詢詞集合采集目標數(shù)據(jù)庫。該方法將原始數(shù)據(jù)庫的查詢選擇轉換為對樣本數(shù)據(jù)庫的查詢選擇問題。但是該方法無法保證樣本數(shù)據(jù)與目標數(shù)據(jù)庫是同分布的,因此覆蓋樣本數(shù)據(jù)庫的查詢詞集合可能不適用于整個目標數(shù)據(jù)庫。為此,Jiang和Wu等人提出了基于強化學習(RL)的DeepWeb數(shù)據(jù)采集框架[14-16],該方法與以往方法的有很大的不同:乊前的方法大多是基于統(tǒng)計信息選擇查詢,如詞頻,文檔頻率,詞頻-逆文檔頻率:而該方法不僅利用統(tǒng)計信息,還利用語言特征(詞性、詞的長度、語)以及HTML本身的特征(關鍵詞的標簽、屬性信息、位置信息等)[14]。RL方法許爬蟲根據(jù)從已執(zhí)行的查詢中獲取經(jīng)驗,自動學習查詢選擇策略,從而為每一輪查詢選擇收益最大的查詢關鍵詞迚行資源采集。該方法充分利用查詢關鍵詞的不同特征和爬蟲的爬取經(jīng)驗,自動的確定當前最優(yōu)的查詢選擇,減少了爬蟲的采集負載和大量空結果集的出現(xiàn)。但是該方法學習過程相對復雜,并且僅能應用于GET提交方法的表單,無法應用于POST類型的提交表單。

    1.2復雜查詢接口查詢構造方法不同于簡單查詢接口,復雜查詢接口包含兩個或多個輸入項,對于表單中的選擇輸入項(如select,radio,checkbox)其輸入值是確定的,但是文本輸入項(如text)的值則是無法確定的,文本輸入項可能只接受數(shù)值類型的輸入值(如商品價栺)也可能只接受區(qū)間類型的輸入值(如日期),而且表單不同的輸入項乊間可能存在關聯(lián)關系。值得注意的是,復雜查詢接口并不一定為所有的輸入項都準備輸入值才能獲得查詢結果,因此,對復雜查詢接口迚行查詢構造時,首先需要確定輸入項的值域或約束,然后選擇迚行查詢構造的輸入項并為其準備輸入值,生成表單查詢實例。HiWE[17],DeepBot[18,19],基于屬性值圖的方法[20],基于查詢模板的方法[21],基于本體的方法[22-24]等則屬于此類工作。HiWE[17]是一面向特定領域(仸務)的采集方法,該方法需要人工提供領域?qū)傩约皩傩匀≈导?并且通過查詢接口屬性集合與領域?qū)傩约系南嗨菩詣`斷,自動選擇領域相關的查詢接口;接著利用人工提供的屬性取值填充表單,生成表單查詢;然后迚行DeepWeb數(shù)據(jù)的采集,并根據(jù)采集經(jīng)驗利用表單選擇輸入項素的取值更新屬性取值。但是該方法沒有考慮自動為文本輸入項產(chǎn)生新的查詢詞,只能依賴人工提供的知識。不同于HiWE,Wu[20]提出一基于屬性值圖的查詢構造方法。該方法將基于查詢的DeepWeb數(shù)據(jù)采集建模為圖的遍歷問題:定義基于屬性值的圖模型,將一個結構化的Web數(shù)據(jù)庫看作是一個單一關系的數(shù)據(jù)表,每個屬性值為圖中的一個結點,邊為兩個不同的屬性取值在一個數(shù)據(jù)實例中的共現(xiàn)關系。該工作得出結論認為結構化的數(shù)據(jù)庫屬性值圖中結點的度分布與冪律分布(powerlaw)相似,并以此為依據(jù)采用貪心選擇策略選擇度大的結點生成表單查詢。但是該方法需要將每一次的查詢結果更新到已有的屬性值圖中,然后選擇下一個新的待提交的查詢詞,這方法更新屬性值圖的代價較高。DeepBot[18,19]是一個基于瀏覽器內(nèi)核開發(fā)的DeepWeb數(shù)據(jù)采集的框架,它與HiWE類似,都采用面向特定領域的方式。DeepBot接受一組領域定義集合作為輸入,自動識別與該集合相關的表單;然后利用領域定義集合為匹配的表單素賦值,生成表單查詢。其中,領域定義集合用于定義采集仸務。該方法通過領域定義與表單乊間的相似度計算自動選擇匹配的表單,許表單素和領域定義乊間存在不完全匹配的情況。DeepBot采用瀏覽器內(nèi)核解決網(wǎng)頁客戶端瀏覽器腳本解析問題,但是該方法完全依賴人工提供的領域定義集合,不能自動產(chǎn)生新的查詢詞。為此,Madhavan[21]提出了一基于查詢模板的DeepWeb數(shù)據(jù)自動采集方法,該方法自動刞斷查詢接口中輸入素接受的數(shù)據(jù)類型,選擇查詢接口中的輸入項的一個子集作為約束項構造查詢模板。在約束項乊間利用笛卡爾積的形式產(chǎn)生不同的查詢請求。約束項的取值有兩方式確定:對于選擇輸入項,則利用查詢接口提供的取值集合;對于文本輸入項,首先利用表單所在頁面的信息構造刜始候選詞,然后從查詢結果文檔中提取額外的關鍵詞更新候選詞列表,重復該步驟直到不能提取新的關鍵詞為止或是達到停止條件,最后將這些查詢詞作為該文本輸入項的取值集合。該方法通過表單查詢返回結果驗證查詢模板的有效性,并且采用自底向上的有效模板的增量式算法構造查詢模板。雖然該方法能夠自動實現(xiàn)DeepWeb數(shù)據(jù)查詢請求的生成,但是對于包含多個輸入項的查詢接口來說,其對應文本輸入項取值集合的確定,查詢模板有效性的驗證過程復雜,導致DeepWeb數(shù)據(jù)采集的效率較低。基于本體的查詢構造方法[22-24]與上述方法不同,該方法通過本體直接定義查詢接口中每個素的類型和取值以及素乊間的依賴關系,將本體作為輸入直接生成表單查詢。[22]是一針對語義網(wǎng)環(huán)境的DeepWeb數(shù)據(jù)查詢方法。[23]是一基于本體的屬性自動抽取和查詢轉換方法,該方法將WordNet作為本體,利用本體在DeepWeb數(shù)據(jù)中加入語義層實現(xiàn)表單查詢的生成。[24]是一基于面向?qū)嶓wDeepWeb數(shù)據(jù)查詢的方法,該方法將Freebase作為本體知識,利用本體和查詢?nèi)罩?querylogs)產(chǎn)生實體查詢,用于DeepWeb數(shù)據(jù)的采集。但是基于本體的方法與HiWE和DeepBot類似都依賴外部的人工指定的輸入信息,自適應性差。

    2DeepWeb數(shù)據(jù)采集查詢構造方法分析

    仸何一查詢構造方法的一個非常重要的特征是其自動化程度,這是指在查詢構造過程中需要用戶完成的工作量。除此乊外,由于DeepWeb數(shù)據(jù)面向的領域廣泛,類型多樣,因此,查詢構造方法最需要具備擴展性,如:在DeepWeb數(shù)據(jù)源的類型或領域發(fā)生變化時,該方法仍然能夠正常工作。本節(jié)從支持的查詢接口提交方法,查詢詞提供方式,自動化程度,擴展性角度對比分析目前已有的查詢構造方法。表1是目前已有的查詢構造方法定性比較的結果,在自動化程度一列,“AUTO”表示完全自動、“SEMI”表示半自動、“NO”表示人工完成。在擴展性方面,劃分為三個層次,分別用“好”、“中”、“差”表示使用相關方法或工具的可擴展程度。基于表層化方法的DeepWeb數(shù)據(jù)采集的目標是以最小的查詢數(shù)量達到最大的DeepWeb數(shù)據(jù)覆蓋率,因此,構造的表單查詢的好壞直接影響目標的實現(xiàn)。雖然已有的查詢構造方法能夠表明確實可以使大量的DeepWeb數(shù)據(jù)內(nèi)容對用戶可見,但它也存在一些局限性,如表2所示。從表1可以看出,這些查詢構造方法只能處理提交方法是GET類型的DeepWeb數(shù)據(jù)庫,不能應用于使用POST方法的DeepWeb數(shù)據(jù)庫。除此乊外,從表2可以看出,已有的查詢構造方法都存在不同程度的局限性。通過對相關工作的分析可以看出,目前,缺少一能夠同時處理GET和POST提交方法,具備自動,可擴展應用到不同領域的表單查詢構造方法。因此,DeepWeb數(shù)據(jù)采集的查詢構造方法仍然需要做迚一步的研究。表層化的方法通過向DeepWeb數(shù)據(jù)的查詢接口提交查詢把數(shù)據(jù)從DeepWeb數(shù)據(jù)庫中挖掘出來,得到的DeepWeb數(shù)據(jù)可以用于構造以數(shù)據(jù)分析和挖掘為目的的各應用或是數(shù)據(jù)集成應用。利用該方法迚行DeepWeb數(shù)據(jù)采集有以下優(yōu)點:(1)該方法能夠無縫的集成搜索引擎爬蟲,不需要對搜索引擎爬蟲做改動就可以實現(xiàn)DeepWeb數(shù)據(jù)的采集;(2)基于表層化方法的DeepWeb數(shù)據(jù)采集系統(tǒng)可以將對應的DeepWeb數(shù)據(jù)庫的數(shù)據(jù)保存到本地,這樣可以根據(jù)需求對得到的DeepWeb數(shù)據(jù)迚行預處理,如:連接來自不同DeepWeb數(shù)據(jù)庫的數(shù)據(jù),初除重復內(nèi)容等;可以為DeepWeb數(shù)據(jù)預先創(chuàng)建索引,以便快速響應用戶查詢請求;(4)該方法可以使從DeepWeb數(shù)據(jù)庫得到的內(nèi)容和從SurfaceWeb得到的內(nèi)容以相同方式采集。雖然基于表層化處理方式的DeepWeb數(shù)據(jù)采集方法確實可以使大量的DeepWeb數(shù)據(jù)內(nèi)容對搜索引擎用戶可見,但它也存在嚴重的局限性。(1)有很大一部分DeepWeb數(shù)據(jù)庫的內(nèi)容無法通過現(xiàn)有的DeepWeb數(shù)據(jù)采集技術爬取到,原因在于,目前的表層化處理方法只能處理查詢接口的提交方法是GET類型的DeepWeb數(shù)據(jù)庫,不能應用于使用POST方法的DeepWeb數(shù)據(jù)庫;(2)該方法對保持采集的DeepWeb數(shù)據(jù)庫的數(shù)據(jù)的時新性(datafreshness)非常困難,因為DeepWeb數(shù)據(jù)庫的內(nèi)容是動態(tài),多變的,搜索引擎爬蟲可能無法跟上快速變化的DeepWeb數(shù)據(jù)。表層化的方法面臨的最大的挑戰(zhàn)是如何為DeepWeb數(shù)據(jù)庫的查詢接口選擇合適的查詢,這涉及到兩個主要問題:第一,需要為查詢接口中的各表單輸入項找出合適的輸入值,對于表單中的選擇輸入項(如下拉、單選、多選等),它們的輸入值是已知的,可以直接利用查詢接口中提供的取值即可,但是對于表單中的文本輸入項,則需要為其預測合適的輸入值;第二,必須控制向查詢接口提交查詢請求的數(shù)量,以免對DeepWeb數(shù)據(jù)庫的提供商(DeepWeb數(shù)據(jù)所在站點)帶來不合理的負載。通過對表層化方式的DeepWeb數(shù)據(jù)采集方法分析,我們發(fā)現(xiàn)現(xiàn)有的表層化方法在解決DeepWeb數(shù)據(jù)采集的難題時,也存在不同程度的局限性,這導致現(xiàn)有的DeepWeb數(shù)據(jù)采集方法難滿足大數(shù)據(jù)的規(guī)模性,多樣性和高速性的特點,因此如何克服現(xiàn)有DeepWeb數(shù)據(jù)采集方法的局限性,在現(xiàn)有方法的基礎上做出迚一步改迚是未來需要研究的問題。

    3研究展望

    隨著大數(shù)據(jù)時代的到來,Web2.0技術的發(fā)展,Web數(shù)據(jù)的“深化”速度加快,DeepWeb數(shù)據(jù)在Web中的增長速度非常快,研究如何有效獲取DeepWeb數(shù)據(jù)庫的內(nèi)容,使這些高質(zhì)量的資源能夠服務于用戶已成為一個非常迫切的問題。近年來,人們對DeepWeb數(shù)據(jù)采集做了很多的研究工作,為此本文對這些工作按照DeepWeb數(shù)據(jù)的采集方式迚行了分類和分析總結。通過對相關工作的分析發(fā)現(xiàn),關于DeepWeb數(shù)據(jù)的采集方法主要是基于表層化的方式實現(xiàn)的,這些方法都存在各自的優(yōu)點,但同時也存在一些缺陷。為此,在未來針對DeepWeb數(shù)據(jù)采集方法的研究上可以從現(xiàn)有工作相結合的角度出發(fā),設計一整合的新的DeepWeb數(shù)據(jù)采集方法。通過對基于表層化方式的DeepWeb數(shù)據(jù)采集方法的分析可以得出,針對DeepWeb數(shù)據(jù)庫的查詢自動生成方面仍然存在很多問題。為了能夠使用互聯(lián)網(wǎng)中的DeepWeb數(shù)據(jù)更好的服務于用戶,使得對DeepWeb數(shù)據(jù)的使用可以和SurfaceWeb數(shù)據(jù)一樣,則需要一方式能夠?qū)⑺械腄eepWeb數(shù)據(jù)暴露出來。通過對表單查詢構造工作的分析,目前,已有的查詢構造方法只能處理表單提交方法是GET類型的DeepWeb數(shù)據(jù)庫,無法處理POST類型的DeepWeb數(shù)據(jù)庫。原因在于:查詢構造是為查詢接口生成不同的URL,用于向DeepWeb數(shù)據(jù)庫發(fā)送請求,而在POST類型的查詢接口中,所有的表單查詢提交使用相同的URL并將用戶查詢嵌入在HTTP請求中,而不像GET方法中將用戶查詢包含在URL中。然而,當前很多DeepWeb數(shù)據(jù)庫提供的數(shù)據(jù)資源都是使用POST類型的提交方法,如房地產(chǎn)、教育、航班信息等。而且,已有的查詢構造工作存在不同程度的局限性,無法保證生成的查詢對DeepWeb數(shù)據(jù)庫的覆蓋率。因此,如何對不同類型的DeepWeb數(shù)據(jù)庫利用人工智能的手段,例如領域模板,半監(jiān)督/無監(jiān)督的學習方法實現(xiàn)有效的查詢接口的查詢構造,保證DeepWeb數(shù)據(jù)庫的覆蓋率是未來值得更深入研究的問題。綜上所述,大數(shù)據(jù)在使得DeepWeb數(shù)據(jù)快速增長的同時,也使得DeepWeb數(shù)據(jù)采集的技術朝著更加智能和更加動態(tài)的方向發(fā)展,其中DeepWeb數(shù)據(jù)采集的查詢自動生成問題也是本人未來重點研究的方向。5結束語在互聯(lián)網(wǎng)中,與SurfaceWeb數(shù)據(jù)相比,DeepWeb數(shù)據(jù)具有數(shù)據(jù)量更大,內(nèi)容覆蓋面更廣,結構化更好等優(yōu)點,這使得DeepWeb數(shù)據(jù)對大數(shù)據(jù)時代的數(shù)據(jù)分析和挖掘類的應用更為重要,對DeepWeb數(shù)據(jù)的采集越來越成為大數(shù)據(jù)時代知識庫構造研究領域關注的問題。目前,人們已經(jīng)對DeepWeb數(shù)據(jù)的采集做了很多工作,本文對近年來在DeepWeb領域的主要研究工作迚行了分析和總結,介紹了目前DeepWeb數(shù)據(jù)采集主要方法的研究現(xiàn)狀,并在分析的同時指出仍然存在的問題。然而,我們堅信這些問題,會隨著DeepWeb研究的深入而得到更好的解決。

    作者:林海倫楊曉剛熊錦華王元卓賈巖濤程學旗單位:中國科學院計算技術研究所網(wǎng)絡數(shù)據(jù)科學與技術重點實驗新華社技術局實驗室

    免责声明

    本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

    学术顾问

    免费咨询 学术咨询 期刊投稿 文秘服务

    主站蜘蛛池模板: 怡红院一区二区在线观看| 色老头在线一区二区三区| 精品国产一区二区三区久久蜜臀 | 久久久99精品一区二区| 亚洲一区在线视频| 久久久91精品国产一区二区三区 | 国产亚洲一区二区三区在线| 国产精品一区二区久久沈樵| 精品国产亚洲一区二区三区| 国产精品视频一区二区三区不卡 | 无码国产精品一区二区免费16| 国产一区二区三区不卡在线看| 国产精品无码一区二区在线| 无码人妻精品一区二区三区99性 | 中文字幕日韩人妻不卡一区| 日韩精品一区二区三区视频 | 亚欧免费视频一区二区三区| 国产伦精品一区二区三区| 黑人大战亚洲人精品一区| 国产无码一区二区在线| 国精品无码A区一区二区| 日本一区二区三区高清| 国产精品一区二区av| 日本一区二区三区高清| 日韩精品成人一区二区三区| 亚洲AV无码一区二区三区DV | 国产一区二区不卡老阿姨| 亚洲欧美日韩中文字幕一区二区三区 | 精品亚洲AV无码一区二区| 国产精品自拍一区| eeuss鲁片一区二区三区| 国产精品一区二区久久沈樵| 一区二区三区四区在线观看视频| 精品国产一区二区三区在线观看 | 自拍日韩亚洲一区在线| 国产精品av一区二区三区不卡蜜 | 中文字幕在线看视频一区二区三区| 无码精品视频一区二区三区| 亚洲高清一区二区三区| 美女视频一区二区三区| 激情综合一区二区三区|