【搜狐網(wǎng)】北理工張華平博士:從Palantir看公安大數(shù)據(jù)應(yīng)用
發(fā)布日期:2016-05-29 供稿:搜狐網(wǎng) 編輯:趙琳 審核:王征 閱讀次數(shù):
原文標(biāo)題:張華平:從Palantir看公安大數(shù)據(jù)應(yīng)用
原文鏈接:http://m.sohu.com/n/450910580/?_trans_=000115_3w

美國(guó)Palantir公司2004年在硅谷成立,目前公司估值200億美元,是全球最大的大數(shù)據(jù)公司,在情報(bào)整合與反恐方面一直非常神秘,一度傳言其在美國(guó)CIA捕殺本·拉登的過(guò)程中起到了至關(guān)重要的作用,后證實(shí)為謠言。不過(guò),公開(kāi)可證實(shí)的資料表明:Palantir趕在阿富汗的簡(jiǎn)易爆炸裝置引爆前成功預(yù)言了它們的位置,并幫助整合美國(guó)情報(bào)界零散的數(shù)據(jù)庫(kù),為安全人員提供了一體化的情報(bào)網(wǎng)。美國(guó)CIA以及洛杉磯警方等多個(gè)權(quán)威機(jī)構(gòu)都為Palantir公開(kāi)站臺(tái),證實(shí)了這家公司的大數(shù)據(jù)技術(shù)在情報(bào)分析、安全防范以及反恐方面起到了不可或缺的重要作用,對(duì)我們公安大數(shù)據(jù)平臺(tái)的建設(shè)具有重要的借鑒意義。為此,本文將介紹Palantir在美國(guó)洛杉磯警局的實(shí)戰(zhàn)案例,揭秘其背后的關(guān)鍵技術(shù),并匯報(bào)我們實(shí)驗(yàn)室在公安某局的初步實(shí)踐工作,最終給出我們對(duì)公安大數(shù)據(jù)的部分思考。
Palantir洛杉磯警局應(yīng)用的技術(shù)揭秘
Palantir在洛杉磯警局通過(guò)技術(shù)與業(yè)務(wù)的深入交流與合作,采用Palantir的Gotham平臺(tái),構(gòu)建了一套洛杉磯警局的語(yǔ)義知識(shí)搜索挖掘平臺(tái),用于日常的警方業(yè)務(wù)工作中。該平臺(tái)全面整合警情日志文檔、電子表格數(shù)據(jù)、數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù)和電子郵件、文檔、圖片、錄像等非結(jié)構(gòu)化數(shù)據(jù),對(duì)各類(lèi)多源異構(gòu),繁雜的信息進(jìn)行清洗梳理,總結(jié)提煉為八個(gè)關(guān)鍵的信息實(shí)體:人、車(chē)、位置、罪案、逮捕、文件、備注與其他。實(shí)體本身還有不同的屬性,不同個(gè)體之間還存在這相應(yīng)的知識(shí)關(guān)聯(lián)。Palantir公安大數(shù)據(jù)語(yǔ)義知識(shí)搜索平臺(tái)建立以后,警方就可以通過(guò)非常簡(jiǎn)潔的前端搜索頁(yè)面,來(lái)搜索指定的各類(lèi)實(shí)體與線(xiàn)索。
Palantir的搜索結(jié)果與百度等通用搜索引擎完全不一樣,并不完全基于關(guān)鍵詞,而是探索搜索背后的關(guān)聯(lián)關(guān)系,搜索結(jié)果如下圖所示。這里,中間的焦掉是搜索的嫌疑人“Michael Barton”,通過(guò)Palantir平臺(tái),可以快速將各類(lèi)龐雜的數(shù)據(jù)通過(guò)可視化平臺(tái)的形式匯聚到一起,最終我們發(fā)現(xiàn)該犯綜合立體化視圖,其中包括:使用的手機(jī),入境記錄,逮捕時(shí)開(kāi)的車(chē),逮捕的案子,同時(shí)涉嫌一起盜竊案,包括已有的兩次審訊記錄。點(diǎn)擊任何一個(gè)節(jié)點(diǎn),右邊會(huì)展示其詳細(xì)的屬性與其他實(shí)體的關(guān)聯(lián)關(guān)系。例如,點(diǎn)擊該車(chē),可以展示出該車(chē)的歷史所有被抓拍的照片與數(shù)據(jù)。辦案人員同時(shí)可以根據(jù)關(guān)聯(lián)連接一層一層往下挖,并人機(jī)互動(dòng),補(bǔ)充各種篩選條件,將模糊的破案線(xiàn)索逐步求精,最后極大的提高破案準(zhǔn)確性與效率。
我們分析了Palantir所有的案例,綜合大數(shù)據(jù)的前沿技術(shù)進(jìn)展,可以綜合研判出Palantir背后的三大關(guān)鍵技術(shù):知識(shí)圖譜、大數(shù)據(jù)人機(jī)可視化交互、非結(jié)構(gòu)化精準(zhǔn)搜索與挖掘。分別介紹如下:
1、知識(shí)圖譜
知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),圖中的結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。Palantir在圖一中使用的就是知識(shí)圖譜的技術(shù),其中嫌疑犯、車(chē)、手機(jī)等都節(jié)點(diǎn)屬于知識(shí)圖譜中的實(shí)體,而邊就是實(shí)體之間的關(guān)系。知識(shí)圖譜允許用戶(hù)搜索引擎知道的所有事物、人物或者地方,而且能夠顯示查詢(xún)的實(shí)時(shí)信息。知識(shí)圖譜技術(shù)表征了公安大數(shù)據(jù)的本質(zhì)語(yǔ)義關(guān)聯(lián),比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)更加自由多樣化,更適合于公安的辦案。
2、大數(shù)據(jù)人機(jī)可視化交互
Palantir綜合運(yùn)用了大數(shù)據(jù)可視化、知識(shí)圖譜化、地圖GIS化等手段,同時(shí)開(kāi)放了大量方便的人機(jī)交互接口,實(shí)現(xiàn)了人與機(jī)器的完美融合,也實(shí)現(xiàn)了人與人之間的協(xié)同工作,大大提升了警務(wù)人員掌控?cái)?shù)據(jù)的能力。
3、非結(jié)構(gòu)化語(yǔ)義精準(zhǔn)搜索與挖掘
非結(jié)構(gòu)化大數(shù)據(jù)指的是文本、圖像與視頻等信息,比傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的信息量大得多,非結(jié)構(gòu)化語(yǔ)義精準(zhǔn)搜索與挖掘,是指在知識(shí)圖譜的基礎(chǔ)上真正理解用戶(hù)的搜索請(qǐng)求,不再拘泥于用戶(hù)所輸入請(qǐng)求語(yǔ)句的字面本身,而是透過(guò)現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到用戶(hù)所輸入語(yǔ)句后面的真正意圖,并以此來(lái)進(jìn)行搜索與挖掘,從而更準(zhǔn)確地向用戶(hù)返回最符合其需求的搜索結(jié)果。
通過(guò)對(duì)Palantir的技術(shù)揭秘,對(duì)于公安大數(shù)據(jù)平臺(tái)的建設(shè),筆者的思考如下:
1、以公安知識(shí)圖譜來(lái)整合各類(lèi)數(shù)據(jù):與美國(guó)情報(bào)界一樣,公安當(dāng)前的信息分散、孤立,部分信息不一定準(zhǔn)確,大數(shù)據(jù)本身的特點(diǎn)就是價(jià)值密度低、參差不起,龐雜多樣。因此,梳理公安的知識(shí)體系,將各類(lèi)數(shù)據(jù)庫(kù)整合為統(tǒng)一的知識(shí)圖譜,以國(guó)際統(tǒng)一的本體網(wǎng)絡(luò)語(yǔ)言O(shè)WL表示知識(shí),并利用知識(shí)圖譜技術(shù)實(shí)現(xiàn)公安大數(shù)據(jù)的推理與應(yīng)用;
2、構(gòu)建公安大數(shù)據(jù)的業(yè)務(wù)平臺(tái),而不是簡(jiǎn)單的信息系統(tǒng):與一般的公安信息系統(tǒng)不一樣,Palantir提供并不是一個(gè)傻瓜式的查詢(xún)輸出系統(tǒng),而是一個(gè)較好的工作平臺(tái),利用人機(jī)接口,輔助警方從復(fù)雜大數(shù)據(jù)中發(fā)現(xiàn)清晰的線(xiàn)索,幫助得到輔助問(wèn)題的答案。簡(jiǎn)單的打個(gè)比方來(lái)說(shuō),Palantir提供的不是直接的魚(yú),而是釣魚(yú)的工具與方法。因此,公安的大數(shù)據(jù)平臺(tái)不能做成簡(jiǎn)單的查詢(xún)系統(tǒng),而是業(yè)務(wù)平臺(tái),可以快速簡(jiǎn)便地開(kāi)發(fā)各類(lèi)SaaS(軟件即服務(wù))應(yīng)用,警務(wù)人員可以查詢(xún)信息,還可以簡(jiǎn)單靈活地組合各類(lèi)模塊,將業(yè)務(wù)人員的經(jīng)驗(yàn)與技術(shù)人員的大數(shù)據(jù)技術(shù)緊密結(jié)合。
3、實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,突破已有的思維定勢(shì),大力引進(jìn)公安大數(shù)據(jù)相關(guān)的知識(shí)圖譜技術(shù)、大數(shù)據(jù)可視化、語(yǔ)義分析計(jì)算等前沿技術(shù)??梢詫⒐泊髷?shù)據(jù)脫敏后大力開(kāi)放,供國(guó)內(nèi)專(zhuān)家學(xué)者作為研究開(kāi)發(fā)使用,廣泛地獲取外腦支撐。
我們?cè)诠泊髷?shù)據(jù)的初步探索
筆者所在的北京理工大學(xué)大數(shù)據(jù)搜索與挖掘團(tuán)隊(duì),專(zhuān)注大數(shù)據(jù)語(yǔ)義搜索與挖掘,在知識(shí)圖譜、可視化與搜索挖掘方面有十多年的研究與工程經(jīng)驗(yàn)。團(tuán)隊(duì)在公安大數(shù)據(jù)方面的主要工作包括情報(bào)抽取、自動(dòng)脫敏、分類(lèi)、聚類(lèi)、特征挖掘、關(guān)聯(lián)挖掘等工作。情報(bào)抽取主要從文本表述中抽取各類(lèi)案情要素,如嫌疑人姓名、身份證、性別、案由等;自動(dòng)脫敏技術(shù)是將敏感信息自動(dòng)替換,脫敏后的信息無(wú)法追溯到具體的個(gè)人,不再涉及公民隱私,而公安部門(mén)可以根據(jù)脫敏的對(duì)照庫(kù),實(shí)現(xiàn)信息還原。下圖是我們利用公安某局脫敏后的15萬(wàn)數(shù)據(jù)自動(dòng)生成的毒品、詐騙、盜竊三類(lèi)警情的宏觀(guān)可視化特征畫(huà)像。
公安作為與海量證據(jù)、線(xiàn)索、數(shù)據(jù)、信息打交道的部門(mén),使用好已有的數(shù)據(jù)信息,將門(mén)類(lèi)龐雜、種類(lèi)繁多的海量公安數(shù)據(jù)進(jìn)行整合,建立統(tǒng)一的公安大數(shù)據(jù)語(yǔ)義知識(shí)網(wǎng)搜索平臺(tái),全面而深入挖掘信息之間的關(guān)聯(lián)關(guān)系,這對(duì)于提取關(guān)鍵線(xiàn)索、提高辦案效率具有非常重要的現(xiàn)實(shí)意義,更對(duì)于優(yōu)化警力部署、提前制定預(yù)案,將違法犯罪事件扼殺在萌芽狀態(tài)具有重大指導(dǎo)意義。
分享到: