專利名稱:一種基于公安領(lǐng)域知識本體模型的信息搜索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于公安領(lǐng)域自然語言受控詞的搜索技術(shù)領(lǐng)域,涉及一種基于公安領(lǐng)域知識本體模型的信息搜索方法。
背景技術(shù):
隨著公安行業(yè)信息化手段的飛速發(fā)展,公安行業(yè)存在大量的數(shù)據(jù)庫和信息系統(tǒng)的應(yīng)用,但是由于公安行業(yè)處理信息的形式多樣,其中存在大量重復(fù)和關(guān)聯(lián)數(shù)據(jù),現(xiàn)有系統(tǒng)及各警種在搜索數(shù)據(jù)時(shí),只能找到與搜索目標(biāo)完全匹配的詞匯及其相關(guān)文本。為了能夠更好的實(shí)現(xiàn)搜索的效果,擴(kuò)大搜索結(jié)果的范圍,找到信息之間存在的隱藏的關(guān)聯(lián)關(guān)系,以利于案件偵破。為此,必須找到搜索詞匯和其他詞匯之間的關(guān)系,為了找到這種隱藏的關(guān)聯(lián)關(guān)系, 就需要建立統(tǒng)一的受控詞表,給每個(gè)詞匯劃定清晰的受控詞類別。當(dāng)前已經(jīng)存在一些針對領(lǐng)域的知識本體的研究,例如,許湘蓮、郭江、肖志懷和曾洪濤發(fā)表在《水電能源科學(xué)》2007年04期上的“基于本體的電廠維護(hù)領(lǐng)域知識表達(dá)方法研究”,通過對維護(hù)領(lǐng)域知識的分析,提出了基于本體的電廠維護(hù)知識表達(dá)模型,建立了維護(hù)領(lǐng)域本體知識的分類方法,規(guī)范了領(lǐng)域知識的描述,使知識的重用、共享和交互成為可能, 為提高全體協(xié)同維護(hù)決策提出了一種行之有效的解決方案?!吨袊鴻C(jī)械工程》2005年15期上由倪益華、顧新建和吳昭同發(fā)表的“基于本體的企業(yè)知識管理平臺的構(gòu)建”,研究了知識管理實(shí)施中的關(guān)鍵技術(shù)-知識的分類、知識的表示、企業(yè)知識的構(gòu)建、知識的共享和集成。 為制造企業(yè)實(shí)現(xiàn)基于本體的知識管理平臺提供了一種新的理論和方法。但是由于知識本體研究人員缺乏對公安業(yè)務(wù)的深刻理解,所以針對于公安領(lǐng)域的知識本體研究還未形成。由于上述原因,公安行業(yè)迫切需要一個(gè)完備的自然語言知識本體模型,并在此模型的基礎(chǔ)上,形成集公安數(shù)據(jù)采集、加工、組織、發(fā)布和維護(hù)的受控詞自動(dòng)攫取平臺,能夠?qū)ΜF(xiàn)有的信息進(jìn)行自動(dòng)的、整合性的分析處理,并生成一個(gè)科學(xué)合理的受控詞表,找出不同信息之間可能存在的關(guān)聯(lián)關(guān)系,根據(jù)這種新的方案建立搜索引擎,從而準(zhǔn)確的擴(kuò)大搜索范圍, 找到已有數(shù)據(jù)中隱藏的案件線索和關(guān)系。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的是提供一種基于公安領(lǐng)域自然語言知識本體模型的信息搜索方法,根據(jù)公安知識本體模型生成受控詞攫取平臺,并通過平臺生成受控詞表,對各種不同來源的數(shù)據(jù)進(jìn)行歸類,在歸類的過程中發(fā)現(xiàn)受控詞之間的關(guān)聯(lián)關(guān)系,以達(dá)到擴(kuò)大搜索范圍的目的。本發(fā)明的技術(shù)方案為—種基于公安領(lǐng)域知識本體模型的信息搜索方法,其步驟為1)獲取公安領(lǐng)域的基礎(chǔ)數(shù)據(jù)集合,建立一個(gè)分析數(shù)據(jù)倉庫;2)對所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聚類分析,得到人、物、時(shí)空、警務(wù)管理、組織機(jī)構(gòu)和行為六個(gè)基本要素的聚類結(jié)果;
3)根據(jù)所述聚類結(jié)果將所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)劃分為人、物、時(shí)空、警務(wù)管理、組織機(jī)構(gòu)和行為六個(gè)類別;4)對分類后的每一類別數(shù)據(jù)進(jìn)行聚類分析,得到每一類別基本要素的要素維度;5)對每個(gè)要素維度中包含的數(shù)據(jù)進(jìn)行聚類分析,得到每個(gè)要素維度的分類屬性;6)根據(jù)所述基本要素、要素維度和分類屬性中的特征值名稱確定受控詞類別的名稱,然后按照受控詞類別,將公安數(shù)據(jù)劃分到相應(yīng)受控詞類別中,得到受控詞庫;其中,對每一類別建立一張受控詞表,每個(gè)受控詞表中有一受控詞來源字段;7)對所述受控詞庫采用聚類索引方法,針對同一受控詞,建立受控詞的自然屬性索引號、業(yè)務(wù)屬性索引號和數(shù)據(jù)屬性索引號;8)對輸入的查詢請求,通過任一所述索引號在所述受控詞庫中匹配查找與輸入詞有關(guān)聯(lián)關(guān)系的受控詞。進(jìn)一步的,聚類得到所述聚類結(jié)果的方法為首先對所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行自由聚類,然后計(jì)算每個(gè)分類的特征值及其比例,并根據(jù)特征值在分類中的比例設(shè)置閾值,將特征值達(dá)到閾值,并且特征一致的分類進(jìn)行合并;然后根據(jù)分類結(jié)果設(shè)置聚類分析中的分類數(shù)和聚類規(guī)則,對所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)重新進(jìn)行聚類分析,得到所述聚類結(jié)果。進(jìn)一步的,確定所述受控詞類別的名稱的方法為計(jì)算每次聚類中每個(gè)特征值的比重,按照特征值在聚類中占據(jù)的比例大小,將比例高的特征值的名稱作為受控詞類別的名稱。進(jìn)一步的,所述基本要素人的要素維度包括實(shí)有人口、外籍人員、港澳臺人員、 違法犯罪人員、在逃人員、警官、事業(yè)文職、協(xié)警;所述基本要素物的要素維度包括一般物品、槍支、機(jī)動(dòng)車、物證、書證、生理特征、物理特征、化學(xué)特征;所述基本要素組織的要素維度包括戶政組織、社團(tuán)組織、公民自治、國家行政、國家事業(yè)、涉案機(jī)構(gòu)、黑惡勢力、團(tuán)伙組織、警務(wù)機(jī)構(gòu)、保安機(jī)構(gòu);所述基本要素行為的要素維度包括生活行為、社交行為、特征行為、違法違紀(jì)行為、犯罪行為、管控行為、偵查行為、檢查行為;所述基本要素時(shí)空的要素維度包括時(shí)間、時(shí)區(qū)、時(shí)段、地域、地段、網(wǎng)絡(luò)空間、GIS現(xiàn)場、電子現(xiàn)場;所述基本要素警務(wù)管理的要素維度包括警員管理、文書管理、制度管理、國家行政、國家事業(yè)、涉案機(jī)構(gòu)、黑惡勢力、團(tuán)伙組織、警務(wù)機(jī)構(gòu)、保安機(jī)構(gòu)。進(jìn)一步的,所述索引號包括數(shù)據(jù)維度、數(shù)據(jù)分類屬性、受控詞限定類、受控詞及其受控詞代碼值。進(jìn)一步的,所述要素維度的分類屬性包括自然/基本屬性、標(biāo)識/標(biāo)志/標(biāo)記屬性、業(yè)務(wù)屬性、強(qiáng)制/行政/管理措施屬性、法定文書屬性、檢驗(yàn)/鑒定/考核屬性。進(jìn)一步的,所述按照受控詞類別,將公安數(shù)據(jù)劃分到某個(gè)受控詞類別中的方法為 首先,根據(jù)確定好的受控詞類別,對公安數(shù)據(jù)進(jìn)行自動(dòng)的采集和搜索,建立基礎(chǔ)數(shù)據(jù)庫;然后對所述基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行詞法分析、句法分析、語義分析,找到數(shù)據(jù)中的主題詞、 同義詞、近義詞,并計(jì)算詞的詞頻,根據(jù)詞頻得到熱詞;最后根據(jù)受控詞類別將數(shù)據(jù)劃分到某個(gè)受控詞類別中,從而形成包括主題詞、同義詞、近義詞和熱點(diǎn)詞的所述受控詞庫。進(jìn)一步的,生成所述受控詞的過程中,如果在同一條公安信息中有多個(gè)受控詞,則通過每一受控詞所屬類別的名稱,找到該受控詞對應(yīng)的聚類,如果聚類中的特征值存在交集,則確定兩個(gè)受控詞之間存在緊密的關(guān)聯(lián)關(guān)系;如果兩個(gè)受控詞不在同一公安信息中,則找到該受控詞對應(yīng)的聚類,如果聚類的特征值存在交集,則兩受控詞存在松散的關(guān)聯(lián)關(guān)系; 然后,將所述關(guān)聯(lián)關(guān)系存儲到一關(guān)聯(lián)關(guān)系表中,并在所述關(guān)聯(lián)關(guān)系表中查找是否存在相同的關(guān)聯(lián)關(guān)系,如果沒有,則將受控詞相關(guān)的公安信息連同受控詞一起記錄到所述關(guān)聯(lián)關(guān)系表中,同時(shí)標(biāo)記所述關(guān)聯(lián)關(guān)系是緊密的,還是松散的;如果所述關(guān)聯(lián)關(guān)系表中存在相同的關(guān)聯(lián)關(guān)系,則記錄相關(guān)公安信息。進(jìn)一步的,所述自然屬性索引號和業(yè)務(wù)屬性索引號為獨(dú)立索引號,所述數(shù)據(jù)屬性索引號為相關(guān)索引號。進(jìn)一步的,對所述受控詞庫進(jìn)行排重處理,其方法為對于由所述自然屬性索引樹中產(chǎn)生的受控詞沖突,對沖突受控詞進(jìn)行規(guī)范統(tǒng)一,并同時(shí)給出同義詞和近義詞;對于由所述業(yè)務(wù)屬性索引樹中產(chǎn)生的沖突,保持現(xiàn)狀不變。本搜索方法的核心內(nèi)容主要包含三部分公安行業(yè)自然語言知識本體模型,公安領(lǐng)域的受控詞表攫取平臺,以及公安行業(yè)受控詞庫及其關(guān)聯(lián)關(guān)系。公安行業(yè)自然語言知識本體模型是整個(gè)發(fā)明的基礎(chǔ)和核心,也是指導(dǎo)受控詞表攫取平臺開發(fā)的原則。通過聚類的方法,形成由公安信息要素、公安數(shù)據(jù)屬性和公安應(yīng)用領(lǐng)域三個(gè)維度組成的公安領(lǐng)域知識本體模型。通過聚類可以發(fā)現(xiàn)公安信息要素包含人員、物品物證痕跡、機(jī)構(gòu)與組織、時(shí)空、行為和警務(wù)管理六大基本信息要素。每一類要素通過聚類方法,可以分為自然/基本屬性、標(biāo)識/標(biāo)志/標(biāo)記屬性、業(yè)務(wù)屬性、強(qiáng)制/行政/管理措施屬性、法定文書屬性、檢驗(yàn)/鑒定/考核屬性六大數(shù)據(jù)屬性。根據(jù)應(yīng)用領(lǐng)域的不同,可以在公安行業(yè)內(nèi)應(yīng)用到刑偵、反恐、治安、國保等部門。根據(jù)上述模型,可以將公安信息劃分到某類要素的某種屬性中,并具體分類到某種具體的應(yīng)用領(lǐng)域,這樣就能對公安行業(yè)內(nèi)的所有信息按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行分類和整理?;谏鲜鲋R本體模型的搜索方法,是利用網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)以及文本處理手段,對公安網(wǎng)內(nèi)的所有信息進(jìn)行自動(dòng)的采集和搜索,并對數(shù)據(jù)進(jìn)行分析,在自然語言接口、詞法分析、句法分析、語義分析、文本分類、文本聚類和知識庫建設(shè)等方面采用多種算法,將數(shù)據(jù)劃分到六個(gè)基礎(chǔ)要素的某個(gè)特定屬性中,從而自動(dòng)形成由主題詞、同義詞、近義詞、關(guān)聯(lián)詞、敏感詞和熱點(diǎn)詞組成的公安行業(yè)基礎(chǔ)受控詞庫,形成詞與詞之間的等同關(guān)系和等級。更為重要的是,平臺能自動(dòng)識別并建立關(guān)聯(lián)關(guān)系,關(guān)聯(lián)關(guān)系包含兩種,第一種詞與詞之間的關(guān)系,例如,人員A用刀刺傷人員B,這樣人員A和人員B就有可能存在嫌疑人與受害人之間的關(guān)系。第二種是詞與類別之間的關(guān)系,根據(jù)前面敘述的發(fā)明內(nèi)容,將每個(gè)詞匯都劃分到某個(gè)具體類別中,使每個(gè)詞和某個(gè)類別之間都建立一種明確對應(yīng)關(guān)系。最終形成的受控詞庫基于知識本體模型中的要素、數(shù)據(jù)屬性和應(yīng)用領(lǐng)域三個(gè)維度,從而形成包含公安全部信息的基礎(chǔ)詞庫,完整的展現(xiàn)了公安信息的基礎(chǔ)元素和結(jié)構(gòu),體現(xiàn)了詞與詞之間的等同關(guān)系、等級關(guān)系和關(guān)聯(lián)關(guān)系。這樣,公安人員在搜索某個(gè)關(guān)鍵詞時(shí), 就可以同時(shí)搜索出它的同義詞、近義詞和關(guān)聯(lián)詞。綜上所述,本搜索技術(shù)建立了公安行業(yè)的自然語言知識本體模型,利用信息的要素屬性、數(shù)據(jù)屬性和應(yīng)用領(lǐng)域三個(gè)屬性,建立三維模型。在模型的基礎(chǔ)上,開發(fā)實(shí)現(xiàn)了自動(dòng)的公安行業(yè)受控詞攫取平臺,該平臺采用多種分詞算法和聚類算法,其最大的特點(diǎn)是能夠自動(dòng)的獲取公安網(wǎng)內(nèi)的信息,自動(dòng)進(jìn)行分析處理信息,自動(dòng)形成受控詞庫,自動(dòng)建立關(guān)聯(lián)關(guān)系。此外,該平臺還具備手工維護(hù)和修正受控詞庫的功能。受控詞庫由主題詞、同義詞、近義詞、關(guān)聯(lián)詞、敏感詞、熱點(diǎn)詞所組成,受控詞同時(shí)體現(xiàn)了詞與詞的等同、等級和關(guān)聯(lián)關(guān)系。這樣就可以實(shí)現(xiàn)搜索范圍的擴(kuò)大。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)本發(fā)明的優(yōu)點(diǎn)是首次科學(xué)的建立了公安行業(yè)自然語言知識本體模型。該模型結(jié)構(gòu)簡單明了,易于應(yīng)用和實(shí)施。同時(shí),目前并未出現(xiàn)基于科學(xué)模型的受控詞自動(dòng)攫取平臺,所以本發(fā)明也是首次實(shí)現(xiàn)了基于科學(xué)模型的受控詞表自動(dòng)攫取平臺,該平臺可維護(hù),可擴(kuò)展, 部署完成后能夠自動(dòng)生成受控詞表,為公安行業(yè)信息的持續(xù)整合利用奠定了基礎(chǔ)。特別是本發(fā)明所開發(fā)出的搜索平臺能夠自動(dòng)搜索出與目標(biāo)詞匯相關(guān)的詞匯,這一點(diǎn)解決了公安行業(yè)內(nèi)隱藏信息不易利用和關(guān)聯(lián)的問題,是對現(xiàn)有技術(shù)的一個(gè)重要突破。
圖1為公安信息知識本體模型形成流程圖
圖2為要素和屬性構(gòu)建方法;
圖3公安領(lǐng)域知識本體模型;
圖4為人員維度構(gòu)建流程圖5為物品物證維度構(gòu)建流程圖6為組織機(jī)構(gòu)維度構(gòu)建流程圖7為行為維度構(gòu)建流程圖8為時(shí)空維度構(gòu)建流程圖9為警務(wù)管理構(gòu)建流程圖10為分類屬性驗(yàn)證流程圖11受控詞表攫取和維護(hù)平臺流程圖。
具體實(shí)施例方式首先建立模型,根據(jù)模型開發(fā)受控詞攫取平臺,生成受控詞,建立受控詞之間的關(guān)系,通過關(guān)系提供搜索服務(wù)。下面結(jié)合附圖對本發(fā)明的具體實(shí)施方法進(jìn)行詳細(xì)描述1.構(gòu)建自然語言知識本體模型當(dāng)前公安信息系統(tǒng)中存在大量的信息數(shù)據(jù),沒有統(tǒng)一的分類原則,所以要確定一個(gè)可以規(guī)劃公安信息系統(tǒng)中信息數(shù)據(jù)的自然語言知識本體分類,分類通過要素、屬性和數(shù)據(jù)來源三個(gè)方面進(jìn)行。通過將公安行業(yè)信息數(shù)據(jù)進(jìn)行聚類分析,形成了基本的公安業(yè)務(wù)信息數(shù)據(jù)模型。模型的建立過程如圖1所示。模型構(gòu)建的具體方法為1)首先獲取基礎(chǔ)數(shù)據(jù)集合,包含大量實(shí)際案件數(shù)據(jù)、辦公文檔、公安標(biāo)準(zhǔn),建立一個(gè)完備的分析數(shù)據(jù)倉庫。2)對分析數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聚類分析,聚類分析是數(shù)據(jù)庫中的一種數(shù)據(jù)挖掘技術(shù),首先進(jìn)行自由聚類,然后計(jì)算每個(gè)分類的特征值及其比例,并根據(jù)特征值在分類中的比例設(shè)置閾值,根據(jù)特征值是否達(dá)到閾值對分類進(jìn)行合并,對于特征值達(dá)到閾值,并且特征一致的分類進(jìn)行合并。根據(jù)計(jì)算得出的結(jié)果設(shè)置聚類分析中的分類數(shù)等聚類參數(shù)和規(guī)則, 對全部數(shù)據(jù)重新進(jìn)行聚類分析,然后重復(fù)上述步驟,最后可以得到一個(gè)合乎公安業(yè)務(wù)需要, 并且不可拆分也不可合并的分類,這樣就可以將案件信息拆分成人、物、時(shí)空、警務(wù)管理、組織機(jī)構(gòu)和行為六個(gè)基本要素。分析方法如圖2所示。3)用實(shí)際的案件數(shù)據(jù)和公安信息驗(yàn)證這六個(gè)基本要素,可以確定沒有出現(xiàn)六要素之外的信息。同時(shí)采用數(shù)據(jù)庫中的鉆取技術(shù)根據(jù)聚類的結(jié)果將數(shù)據(jù)劃分為人、物、時(shí)空、警務(wù)管理、組織機(jī)構(gòu)和行為六個(gè)類別。4)對分類后的數(shù)據(jù)進(jìn)行聚類分析,方法同步驟幻中的一樣。從而形成如圖3、圖 4、圖5、圖6、圖7、圖8所示方法,形成了六個(gè)維度模型,即描述人、物品/物證/痕跡、組織 /機(jī)構(gòu)、行為、時(shí)空、警務(wù)管理六個(gè)維度的切片維度模型。5)通過鉆取技術(shù)獲取步驟4)中每個(gè)要素維度的數(shù)據(jù),然后再次通過聚類方法分析每個(gè)維度中包含的數(shù)據(jù)。也就是采用步驟幻中所述的方法,對關(guān)于人的數(shù)據(jù)進(jìn)行聚類, 可以發(fā)現(xiàn)人要素信息包含自然/基本屬性、標(biāo)識/標(biāo)志/標(biāo)記屬性、業(yè)務(wù)屬性、強(qiáng)制/行政 /管理措施屬性、法定文書屬性、檢驗(yàn)/鑒定/考核屬性。繼續(xù)通過聚類分析的方法分析其他要素,依然能夠發(fā)現(xiàn)包含這些屬性,并且在分析其他要素的過程中,可以確定沒有出現(xiàn)除上述六種屬性以外的其他屬性。從而最終形成基于公安信息處理領(lǐng)域的自然語言知識本體的分類屬性,如圖9中所示的以下分類屬性“自然/基本屬性、標(biāo)識/標(biāo)志/標(biāo)記屬性、業(yè)務(wù)屬性、強(qiáng)制/行政/管理措施屬性、法定文書屬性、檢驗(yàn)/鑒定/考核屬性”。6)結(jié)合要素和屬性,以及公安信息的來源三方面因素,就可以形成公安信息知識本體模型。圖10為基于公安信息處理領(lǐng)域的自然語言知識本體的多維數(shù)據(jù)模型2.根據(jù)模型確定受控詞分類原則,并根據(jù)此原則開發(fā)受控詞攫取平臺,生成受控詞;在模型已經(jīng)確定的前提下,通過在整個(gè)公安信息系統(tǒng)中的數(shù)據(jù)分析應(yīng)用,將現(xiàn)有數(shù)據(jù)按照要素、要素維度(如圖3 8所示)和分類屬性(如圖9所示)進(jìn)行多次切片后, 將可以明確現(xiàn)行數(shù)據(jù)所屬的類別,確定相應(yīng)的受控類別分類原則,方法如下第一步,讀取要素,要素維度和分類屬性中的特征值,這些特征值都存在于模型建立過程中,按照步驟2、、4)、5)的順序依次進(jìn)行聚類分析后所產(chǎn)生的聚類當(dāng)中,每個(gè)聚類當(dāng)中都包含構(gòu)成該聚類所需要的所有特征。第二步,計(jì)算聚類中(此處所說的聚類是模型建立過程中,按照步驟幻、4)、5)依次進(jìn)行聚類分析所產(chǎn)生的聚類,即對不同要素、維度和屬性分別進(jìn)行聚類)每個(gè)特征值的比重,按照特征值在聚類中占據(jù)的比例大小,將比例高的特征值的名稱作為聚類的名稱,將聚類名稱作為受控詞類別的名稱。第三步,根據(jù)確定好的受控詞類別,開發(fā)受控詞攫取平臺,該平臺首先利用網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)以及文本處理手段,對公安網(wǎng)內(nèi)的所有信息進(jìn)行自動(dòng)的采集和搜索,建立基礎(chǔ)數(shù)據(jù)庫,此數(shù)據(jù)庫中包含已有的公安信息系統(tǒng)的歷史數(shù)據(jù),然后對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行詞法分析、句法分析、語義分析,找到數(shù)據(jù)中的主題詞、同義詞、近義詞,根據(jù)詞頻分析(詞頻分析是自然語言處理中的一種分析詞匯出現(xiàn)頻率的一種分析方法,是一種公知技術(shù))找到熱詞,最終根據(jù)受控詞類別將數(shù)據(jù)劃分到某個(gè)受控詞類別中,每個(gè)類別建立一張受控詞表,每個(gè)受控詞表中有一個(gè)受控詞來源字段,受控詞攫取平臺在劃分受控詞的過程中,自動(dòng)
8將該受控詞的來源信息填充到該字段中。從而自動(dòng)形成由主題詞、同義詞、近義詞和熱點(diǎn)詞組成的公安行業(yè)基礎(chǔ)受控詞庫,這樣就為搜索方法建立了基礎(chǔ)。3.建立詞匯之間的關(guān)聯(lián)關(guān)系為了能夠在公安系統(tǒng)內(nèi)實(shí)現(xiàn)最大程度的信息搜索,在建立前面所述的模型和受控詞攫取平臺的基礎(chǔ)上,接下來就是要建立起詞與詞之間,詞與受控詞類別之間的關(guān)聯(lián)關(guān)系。 從本質(zhì)上講,關(guān)聯(lián)關(guān)系也是受控詞攫取平臺的一部分功能。關(guān)聯(lián)關(guān)系分為兩種一種是詞與受控詞類別的關(guān)系,一種是詞與詞之間的關(guān)系。通過受控詞攫取平臺,自動(dòng)將詞匯劃分到某個(gè)受控詞類別中,例如,將“棍棒”劃分到作案工具類別,使棍棒屬于作案工具,這樣從數(shù)據(jù)庫的物理存儲形式上建立了受控詞與類別之間的關(guān)系,但是并沒有一種通用的方法來進(jìn)行檢索,所以必須通過下面的聚類索引方法建立起受控詞之間的關(guān)系,便于進(jìn)行查找。3.1詞與類別的關(guān)系為了便于搜索詞與類別之間的關(guān)系,基于聚類索引方法,針對同一受控詞,分別通過自然屬性、業(yè)務(wù)屬性和數(shù)據(jù)屬性三個(gè)角度生成索引號,通過索引號進(jìn)行檢索,即可確定詞與類別之間的關(guān)系,例如,我們規(guī)定Rl就是人員類別,通過判斷某個(gè)受控詞的開頭是不是 R1,即可判斷該詞匯是否屬于人員類別。通過對受控詞庫建立自然屬性索引樹、業(yè)務(wù)屬性索引樹和數(shù)據(jù)屬性索引樹,即從自然、業(yè)務(wù)和數(shù)據(jù)屬性三個(gè)角度來建立索引樹,樹是數(shù)據(jù)結(jié)構(gòu)中的一個(gè)公知概念,是從根節(jié)點(diǎn)到最后的受控詞(也就是葉節(jié)點(diǎn)),對其中的每個(gè)節(jié)點(diǎn)都進(jìn)行統(tǒng)一規(guī)則的編號;索引樹起始于要素節(jié)點(diǎn),結(jié)束于公安信息化受控詞(表)節(jié)點(diǎn),在索引樹中確定可規(guī)范為數(shù)據(jù)代碼、術(shù)語等類型的受控詞的唯一位置,實(shí)現(xiàn)查找和關(guān)聯(lián)時(shí)的唯一性。3. 1. 1編碼規(guī)則,即多維索引號編碼規(guī)則將數(shù)據(jù)倉庫中的數(shù)據(jù)首先按照數(shù)據(jù)維度分類,再按照數(shù)據(jù)分類屬性進(jìn)行分類,再根據(jù)受控詞的限定進(jìn)行分類,直到最后的受控詞類別,總共分成4段,每段都從01開始賦值,例如公民身份號碼受控詞為身份、證件、身份證號碼自然屬性索引號R100010101Rl_00_01_01_01人境內(nèi)人員境內(nèi)外公民身份證件類別受控詞(類別)業(yè)務(wù)屬性索引號R202020101R2_02_02_01_01人戶政業(yè)務(wù)標(biāo)識類別身份標(biāo)識種類受控詞(類別)數(shù)據(jù)屬性索引號R300010100R3_00_01_01_00人境內(nèi)人員證件類別身份證件類別主題詞無受控詞(類別)通過前面的例子可以清楚地看到,根據(jù)受控詞的基本構(gòu)成,本編碼規(guī)則的任意受控詞索引樹由數(shù)據(jù)維度、數(shù)據(jù)分類屬性、受控詞限定類、受控詞及其受控詞代碼值組合而成。當(dāng)數(shù)據(jù)分類屬性為不可再分的數(shù)據(jù)對象時(shí),數(shù)據(jù)分類屬性和受控詞限定類可以合并,如下面的例子所示。
公安機(jī)關(guān)機(jī)構(gòu)代碼受控詞(表)為公安機(jī)關(guān)機(jī)構(gòu)代碼表自然屬性索引號Z121520Zl_2_15_20組織警務(wù)機(jī)構(gòu)警務(wù)機(jī)構(gòu)類別受控詞(類別)業(yè)務(wù)屬性索引號Z2151208Z2_15_12_08組織警務(wù)機(jī)構(gòu)類別警務(wù)機(jī)構(gòu)標(biāo)識受控詞(類別)數(shù)據(jù)屬性索引號Z330205Z3_3_02_05組織標(biāo)識類別警務(wù)機(jī)構(gòu)類別主題詞標(biāo)識受控詞(類別)綜合上述兩種情況,受控詞的編碼規(guī)則表示如下,以身份證號碼為例,其中受控詞限定類和受控詞可以合并,舉例如下公民身份號碼受控詞為身份號碼、身份證號碼自然屬性索引號R100010101Rl_00_01_01_01人境內(nèi)人員境內(nèi)外公民身份證件類別受控詞(類別)數(shù)據(jù)維度數(shù)據(jù)分類屬性受控詞限定類受控詞受控詞代碼值根據(jù)前述的編碼規(guī)則,即可以對數(shù)據(jù)倉庫中所有的受控詞進(jìn)行編碼,每個(gè)受控詞表都有一個(gè)對應(yīng)的索引字段,用于保存受控詞所對應(yīng)的索引號。在用戶檢索某個(gè)受控詞時(shí), 只需要通過判斷索引號不同分段的代碼,就可以判斷這個(gè)受控詞屬于那個(gè)受控詞類別,同時(shí)可以找到該受控詞的同級受控詞,以及它的上級和下級受控詞,這樣就建立起受控詞的等同關(guān)系和等級關(guān)系。3. 1. 2排重規(guī)則一個(gè)受控詞或數(shù)據(jù)代碼可以具有三組索引號,自然屬性索引號和業(yè)務(wù)屬性索引號為獨(dú)立索引號,數(shù)據(jù)屬性索引號為相關(guān)索引號。當(dāng)任意一個(gè)受控詞名稱在本索引樹中具有唯一索引號時(shí),則表明在本索引范圍內(nèi)未產(chǎn)生沖突。出現(xiàn)下面現(xiàn)象時(shí)即為出現(xiàn)沖突異名沖突由自然屬性索引樹和業(yè)務(wù)屬性索引樹中的受控詞(表和主題詞)引起, 基本的異名數(shù)據(jù)沖突表現(xiàn)為 當(dāng)任意兩個(gè)以上受控詞在索引號中出現(xiàn)數(shù)據(jù)分類屬性、受控詞限定類相同,受控詞名不同,而受控詞同時(shí)具有相同部分和不相同部分時(shí),或者具備完全相同的部分時(shí),則將產(chǎn)生代碼沖突,體現(xiàn)為受控詞名的異名同義沖突; 當(dāng)任意兩個(gè)以上受控詞在索引號中出現(xiàn)數(shù)據(jù)分類屬性、受控詞限定類相同,受控詞名不同,而受控詞代碼表項(xiàng)不同時(shí),則也將產(chǎn)生代碼沖突,體現(xiàn)為受控詞名的異名同義異碼沖突。 當(dāng)任意兩個(gè)以上受控詞在索引號中出現(xiàn)數(shù)據(jù)分類屬性相同、受控詞限定類不唯一、且受控詞也相同時(shí),則將產(chǎn)生受控詞定義沖突,體現(xiàn)為受控詞名的同名異義沖突; 當(dāng)任意兩個(gè)以上受控詞在索引號中出現(xiàn)數(shù)據(jù)分類屬性、受控詞限定類、受控詞均相同,但受控詞代碼值項(xiàng)相同,而代碼表示不相同時(shí),則將產(chǎn)生受控詞代碼表示沖突,體現(xiàn)為受控詞代碼的同名同義異碼沖突;
當(dāng)任意兩個(gè)以上受控詞在索引號中出現(xiàn)數(shù)據(jù)分類屬性、受控詞限定類、受控詞均相同,但受控詞代碼值項(xiàng)不相同不相同時(shí),則將產(chǎn)生受控詞域值沖突,體現(xiàn)為受控詞代碼的同名同義值域沖突;沖突的解決辦法在上述沖突中,產(chǎn)生于自然屬性索引樹中的沖突屬于錯(cuò)誤性沖突,應(yīng)該由唯一的受控詞進(jìn)行規(guī)范,并同時(shí)給出同義詞和近義詞,例如洗浴、足療和洗腳屋,統(tǒng)一規(guī)范為足療, 同時(shí)確定足療的同義詞和近義詞為洗浴和洗腳屋。而產(chǎn)生于業(yè)務(wù)屬性索引樹中的沖突,屬于合理性沖突的,應(yīng)保持現(xiàn)狀不變,這是由于合理性沖突已經(jīng)廣泛地存在于偵查、審判、強(qiáng)制手段等法律行為和法律文書中,改正沖突將導(dǎo)致大量的歷史檔案失去法律效力。這樣,通過索引樹編碼和排重,即可確定受控詞與受控詞類別之間的惟一關(guān)系。3. 2受控詞與受控詞之間的關(guān)聯(lián)關(guān)系通過模型建立起來的受控詞攫取平臺,可以在處理文本和歷史數(shù)據(jù)時(shí),發(fā)現(xiàn)受控詞和受控詞之間的關(guān)聯(lián)關(guān)系,方法如下第一步通過服務(wù)器端的受控詞攫取平臺處理公安信息,生成受控詞,這些公安信息可能是一篇文本,一條數(shù)據(jù)庫記錄等各種格式。第二步如果在同一條公安信息中發(fā)現(xiàn)多個(gè)受控詞,通過每一受控詞所屬類別的名稱,可以找到該受控詞對應(yīng)的聚類,如果聚類中的特征值存在交集,那么就可以確定兩個(gè)受控詞之間存在緊密的關(guān)聯(lián)關(guān)系。如果兩個(gè)受控詞不在同一公安信息中,則直接找到該受控詞對應(yīng)的聚類,如果聚類的特征值存在交集,則認(rèn)為兩個(gè)受控詞存在松散的關(guān)聯(lián)關(guān)系。第三步在關(guān)聯(lián)關(guān)系表中查找是否已經(jīng)找到過相同的關(guān)聯(lián)關(guān)系,如果沒有,則將受控詞相關(guān)的公安信息連同受控詞一起記錄到關(guān)聯(lián)關(guān)系表中,同時(shí)通過不同的數(shù)值記錄關(guān)聯(lián)關(guān)系是緊密的還是松散的。如果在關(guān)聯(lián)關(guān)系表中找到了相同的關(guān)聯(lián)關(guān)系,則記錄相關(guān)公安信息,以利于下次查找時(shí)直接給出結(jié)果,提高查找效率。通過上述處理方法,即可建立受控詞之間的關(guān)聯(lián)關(guān)系。4.開發(fā)和應(yīng)用本發(fā)明描述的模型、根據(jù)模型生成的受控詞以及受控詞建立起來的關(guān)聯(lián)關(guān)系,主要是應(yīng)用在公安業(yè)務(wù)上的數(shù)據(jù)查詢方法。該數(shù)據(jù)查詢方法的實(shí)現(xiàn)主要包含三個(gè)步驟。第一步,受控詞的攫取平臺。根據(jù)數(shù)據(jù)模型及相應(yīng)的規(guī)則,可以得到無沖突的受控詞表,數(shù)據(jù)模型就最開始的知識本體模型,規(guī)則就是前述的所有方法,開發(fā)數(shù)據(jù)采集工具,采集現(xiàn)有公安系統(tǒng)中的文檔、已有數(shù)據(jù)庫數(shù)據(jù)和網(wǎng)頁信息,通過數(shù)據(jù)遷移工具將其放到一個(gè)臨時(shí)的數(shù)據(jù)庫中,通過標(biāo)注標(biāo)引工具對其進(jìn)行語料加工,也就是對原始數(shù)據(jù)進(jìn)行標(biāo)注標(biāo)引,標(biāo)注標(biāo)引完成后,采用前面所述的數(shù)據(jù)模型和相應(yīng)規(guī)則,通過數(shù)據(jù)抽取工具對原始數(shù)據(jù)進(jìn)行抽取,即可將抽取出的詞匯放入對應(yīng)的受控詞表中,此外,還開發(fā)受控詞表的維護(hù)工具,對已有的受控詞進(jìn)行維護(hù),從而生成完善的自然語言知識本體模型的受控詞表攫取平臺,整體流程和功能模塊如圖11所示,完成這一功能模塊,也意味著數(shù)據(jù)查詢方案具有不斷學(xué)習(xí)和完善功能。第二步通過自動(dòng)建立關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)查找結(jié)果的關(guān)聯(lián)功能。建立詞與類別的關(guān)聯(lián)關(guān)系,公安人員在查找相關(guān)內(nèi)容時(shí),即可發(fā)現(xiàn)所查找詞匯的精確屬性和分類。建立詞與詞之間的關(guān)聯(lián)關(guān)系后,即可在查找時(shí),不僅能夠找到所查找詞匯的相關(guān)信息,更能找到與之相關(guān)
表2物維度及其分類屬性和受控詞類別
權(quán)利要求
1.一種基于公安領(lǐng)域知識本體模型的信息搜索方法,其步驟為1)獲取公安領(lǐng)域的基礎(chǔ)數(shù)據(jù)集合,建立一個(gè)分析數(shù)據(jù)倉庫;2)對所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聚類分析,得到人、物、時(shí)空、警務(wù)管理、組織機(jī)構(gòu)和行為六個(gè)基本要素的聚類結(jié)果;3)根據(jù)所述聚類結(jié)果將所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)劃分為人、物、時(shí)空、警務(wù)管理、組織機(jī)構(gòu)和行為六個(gè)類別;4)對分類后的每一類別數(shù)據(jù)進(jìn)行聚類分析,得到每一類別基本要素的要素維度;5)對每個(gè)要素維度中包含的數(shù)據(jù)進(jìn)行聚類分析,得到每個(gè)要素維度的分類屬性;6)根據(jù)所述基本要素、要素維度和分類屬性中的特征值名稱確定受控詞類別的名稱, 然后按照受控詞類別,將公安數(shù)據(jù)劃分到相應(yīng)受控詞類別中,得到受控詞庫;其中,對每一類別建立一張受控詞表,每個(gè)受控詞表中有一受控詞來源字段;7)對所述受控詞庫采用聚類索引方法,針對同一受控詞,建立受控詞的自然屬性索引號、業(yè)務(wù)屬性索引號和數(shù)據(jù)屬性索引號;8)對輸入的查詢請求,通過任一所述索引號在所述受控詞庫中匹配查找與輸入詞有關(guān)聯(lián)關(guān)系的受控詞。
2.如權(quán)利要求1所述的方法,其特征在于聚類得到所述聚類結(jié)果的方法為首先對所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行自由聚類,然后計(jì)算每個(gè)分類的特征值及其比例,并根據(jù)特征值在分類中的比例設(shè)置閾值,將特征值達(dá)到閾值,并且特征一致的分類進(jìn)行合并;然后根據(jù)分類結(jié)果設(shè)置聚類分析中的分類數(shù)和聚類規(guī)則,對所述分析數(shù)據(jù)倉庫中的數(shù)據(jù)重新進(jìn)行聚類分析,得到所述聚類結(jié)果。
3.如權(quán)利要求2所述的方法,其特征在在于確定所述受控詞類別的名稱的方法為計(jì)算每次聚類中每個(gè)特征值的比重,按照特征值在聚類中占據(jù)的比例大小,將比例高的特征值的名稱作為受控詞類別的名稱。
4.如權(quán)利要求2所述的的方法,其特征在于所述基本要素人的要素維度包括實(shí)有人口、外籍人員、港澳臺人員、違法犯罪人員、在逃人員、警官、事業(yè)文職、協(xié)警;所述基本要素物的要素維度包括一般物品、槍支、機(jī)動(dòng)車、物證、書證、生理特征、物理特征、化學(xué)特征; 所述基本要素組織的要素維度包括戶政組織、社團(tuán)組織、公民自治、國家行政、國家事業(yè)、 涉案機(jī)構(gòu)、黑惡勢力、團(tuán)伙組織、警務(wù)機(jī)構(gòu)、保安機(jī)構(gòu);所述基本要素行為的要素維度包括 生活行為、社交行為、特征行為、違法違紀(jì)行為、犯罪行為、管控行為、偵查行為、檢查行為; 所述基本要素時(shí)空的要素維度包括時(shí)間、時(shí)區(qū)、時(shí)段、地域、地段、網(wǎng)絡(luò)空間、GIS現(xiàn)場、電子現(xiàn)場;所述基本要素警務(wù)管理的要素維度包括警員管理、文書管理、制度管理、國家行政、國家事業(yè)、涉案機(jī)構(gòu)、黑惡勢力、團(tuán)伙組織、警務(wù)機(jī)構(gòu)、保安機(jī)構(gòu)。
5.如權(quán)利要求1所述的方法,其特征在于所述索引號包括數(shù)據(jù)維度、數(shù)據(jù)分類屬性、 受控詞限定類、受控詞及其受控詞代碼值。
6.如權(quán)利要求1或2或3或4或5所述的方法,其特征在于所述要素維度的分類屬性包括自然/基本屬性、標(biāo)識/標(biāo)志/標(biāo)記屬性、業(yè)務(wù)屬性、強(qiáng)制/行政/管理措施屬性、法定文書屬性、檢驗(yàn)/鑒定/考核屬性。
7.如權(quán)利要求6所述的方法,其特征在于所述按照受控詞類別,將公安數(shù)據(jù)劃分到某個(gè)受控詞類別中的方法為首先,根據(jù)確定好的受控詞類別,對公安數(shù)據(jù)進(jìn)行自動(dòng)的采集和搜索,建立基礎(chǔ)數(shù)據(jù)庫;然后對所述基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行詞法分析、句法分析、語義分析,找到數(shù)據(jù)中的主題詞、同義詞、近義詞,并計(jì)算詞的詞頻,根據(jù)詞頻得到熱詞;最后根據(jù)受控詞類別將數(shù)據(jù)劃分到某個(gè)受控詞類別中,從而形成包括主題詞、同義詞、近義詞和熱點(diǎn)詞的所述受控詞庫。
8.如權(quán)利要求7所述的方法,其特征在于生成所述受控詞的過程中,如果在同一條公安信息中有多個(gè)受控詞,則通過每一受控詞所屬類別的名稱,找到該受控詞對應(yīng)的聚類,如果聚類中的特征值存在交集,則確定兩個(gè)受控詞之間存在緊密的關(guān)聯(lián)關(guān)系;如果兩個(gè)受控詞不在同一公安信息中,則找到該受控詞對應(yīng)的聚類,如果聚類的特征值存在交集,則兩受控詞存在松散的關(guān)聯(lián)關(guān)系;然后,將所述關(guān)聯(lián)關(guān)系存儲到一關(guān)聯(lián)關(guān)系表中,并在所述關(guān)聯(lián)關(guān)系表中查找是否存在相同的關(guān)聯(lián)關(guān)系,如果沒有,則將受控詞相關(guān)的公安信息連同受控詞一起記錄到所述關(guān)聯(lián)關(guān)系表中,同時(shí)標(biāo)記所述關(guān)聯(lián)關(guān)系是緊密的,還是松散的;如果所述關(guān)聯(lián)關(guān)系表中存在相同的關(guān)聯(lián)關(guān)系,則記錄相關(guān)公安信息。
9.如權(quán)利要求7所述的方法,其特征在于所述自然屬性索引號和業(yè)務(wù)屬性索引號為獨(dú)立索引號,所述數(shù)據(jù)屬性索引號為相關(guān)索引號。
10.如權(quán)利要求9所述的方法,其特征在于對所述受控詞庫進(jìn)行排重處理,其方法為 對于由所述自然屬性索引樹中產(chǎn)生的受控詞沖突,對沖突受控詞進(jìn)行規(guī)范統(tǒng)一,并同時(shí)給出同義詞和近義詞;對于由所述業(yè)務(wù)屬性索引樹中產(chǎn)生的沖突,保持現(xiàn)狀不變。
全文摘要
本發(fā)明公開了一種基于公安領(lǐng)域知識本體模型的信息搜索方法,屬于公安領(lǐng)域自然語言受控詞的搜索技術(shù)領(lǐng)域。本方法為1)建立一個(gè)分析數(shù)據(jù)倉庫,并對其進(jìn)行聚類分析,得到六個(gè)基本要素;2)根據(jù)聚類結(jié)果將分析數(shù)據(jù)倉庫中的數(shù)據(jù)劃分為六個(gè)類別;3)對每一類別數(shù)據(jù)進(jìn)行聚類,得到每一類別基本要素的要素維度;4)對每個(gè)要素維度中的數(shù)據(jù)進(jìn)行聚類得到其分類屬性;5)根據(jù)上述聚類結(jié)果確定受控詞類別的名稱,將公安數(shù)據(jù)劃分到相應(yīng)受控詞類別中,得到受控詞庫;6)對每一受控詞,建立多維引號;7)通過索引號在受控詞庫中查找與輸入詞有關(guān)聯(lián)的受控詞。本發(fā)明能夠自動(dòng)搜索出與目標(biāo)詞匯相關(guān)的詞匯,解決了公安行業(yè)內(nèi)隱藏信息不易利用和關(guān)聯(lián)的問題。
文檔編號G06F17/30GK102314519SQ201110306999
公開日2012年1月11日 申請日期2011年10月11日 優(yōu)先權(quán)日2011年10月11日
發(fā)明者王電 申請人:中國軟件與技術(shù)服務(wù)股份有限公司