Accumulo技術(shù)已成為美國國家安全戰(zhàn)略的關(guān)鍵
Accumulo作為當(dāng)今最安全、最強大的數(shù)據(jù)處理技術(shù)之一,已經(jīng)得到美全面認可。
(一)基于Hadoop的Accumulo技術(shù)是當(dāng)今最強大、安全的大數(shù)據(jù)處理技術(shù)之一
Hadoop由美國阿帕奇基金會開發(fā),是一種能以可靠、高效、可伸縮的方式對大量數(shù)據(jù)進行分布式處理的計算平臺(即分布式計算平臺)。用戶可以在不了解分布式底層細節(jié)的情況下,借此開發(fā)分布式程序,充分利用計算機集群的威力進行高速運算和存儲各種數(shù)據(jù)。
Hadoop主要有五大特點:一是高可靠性,具有非常可靠的按位存儲和處理數(shù)據(jù)的能力。二是高擴展性,Hadoop是在計算機集群間分配數(shù)據(jù)并完成計算任務(wù),這些計算機集群可以較為容易地擴展到數(shù)以千計的節(jié)點中,因而能夠處理PB級甚至更高級別的數(shù)據(jù)。三是高效性,Hadoop以并行運算的方式工作,與傳統(tǒng)的將海量數(shù)據(jù)限定在一臺機器上運行的方式最大不同在于,Hadoop是將大數(shù)據(jù)分成多個部分,使得每個部分都可以被同時處理和分析,因此處理數(shù)據(jù)的速度非常快。四是高容錯性,Hadoop在運行中首先假設(shè)計算元素和存儲會失敗,因此能夠自動保存多個工作數(shù)據(jù)副本,并且能夠自動將失敗的運行任務(wù)重新進行分配。五是低成本,hadoop是開源的,任何人都可以使用,項目的軟件成本因而大為降低。關(guān)鍵一點還在于,Hadoop是根據(jù)計算機集群中的節(jié)點數(shù)調(diào)節(jié)處理數(shù)據(jù),即其不是將數(shù)據(jù)存儲移動到某個位置以供處理,而是將數(shù)據(jù)處理移動到存儲,因此具有支持高效數(shù)據(jù)處理的強大功能。
Hadoop的重要作用意義在于實現(xiàn)了一個分布式文件系統(tǒng),即HDFS系統(tǒng)(Hadoop Distributed File System)。要實現(xiàn)對海量數(shù)據(jù)的計算,前提必須是要有一個穩(wěn)定、安全的數(shù)據(jù)容器,HDFS系統(tǒng)即是十分適合具有超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS系統(tǒng)可以提供高傳輸率并以流的形式訪問文件系統(tǒng)中的數(shù)據(jù),從而使用戶可以較為容易地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。Hadoop支持高效數(shù)據(jù)處理的特性,使得零散的、不具備關(guān)聯(lián)性的海量數(shù)據(jù)得到了有效整合處理,使其在大數(shù)據(jù)處理中得以廣泛應(yīng)用。
(二)基于Hadoop的Accumulo技術(shù)已成為美國國家安全戰(zhàn)略的關(guān)鍵
開發(fā)Accumulo技術(shù)的主要目的是運用于國防及安全領(lǐng)域,旨在利用先進的數(shù)據(jù)分析技術(shù)進一步改善美國的網(wǎng)絡(luò)安全狀況,打贏數(shù)字化戰(zhàn)爭。從戰(zhàn)術(shù)層面來講,即借助Accumulo技術(shù)對大數(shù)據(jù)進行分析,高效檢測網(wǎng)絡(luò)中出現(xiàn)的異常數(shù)據(jù),以便于及早發(fā)現(xiàn)網(wǎng)絡(luò)中的可疑行為并將目標及時快速定位,達到利用大數(shù)據(jù)打擊網(wǎng)絡(luò)領(lǐng)域犯罪行為的目的。從戰(zhàn)略層面來說,美國政府開發(fā)Accumulo技術(shù)的初衷是,可用于支持NSA的數(shù)據(jù)處理方案也能應(yīng)用于國防部的整個軍事作戰(zhàn)體系當(dāng)中。
目前,Accumulo技術(shù)已經(jīng)得到美國政府層面的全面認可,NSA已將該技術(shù)作為內(nèi)部組織架構(gòu)運行的核心部分,在對來源于各方面的龐大海量數(shù)據(jù)進行分析處理時,所應(yīng)用的運算程序基本都運行在Accumulo技術(shù)上,即NSA“大多數(shù)監(jiān)控和分析應(yīng)用程序的后臺都是Accumulo技術(shù)”。美國國防部對Accumulo技術(shù)在應(yīng)對大數(shù)據(jù)上所展現(xiàn)的強大處理分析能力表示認同,現(xiàn)已著手實施內(nèi)部改革計劃,加緊將Accumulo技術(shù)納入國防部數(shù)據(jù)分析系統(tǒng)。基于Hadoop的Accumulo技術(shù)已在實質(zhì)上被視為美國國家安全戰(zhàn)略的關(guān)鍵。
美國正在全力構(gòu)建聯(lián)合信息環(huán)境
美國防部正在開發(fā)通用型云與數(shù)據(jù)云架構(gòu),Accumulo為其重要組成部分。
(一)NSA在大數(shù)據(jù)技術(shù)應(yīng)用和數(shù)據(jù)安全領(lǐng)域一直走在全球最前列
NSA大數(shù)據(jù)項目的三大支撐技術(shù)中最具代表性的是Accumulo技術(shù),它可以極為有效地分析萬億規(guī)模級別的數(shù)據(jù),尤其是在通話記錄分析領(lǐng)域最能體現(xiàn)這一分析機制的強大能力。比如,可以通過數(shù)據(jù)分析很容易確定嫌疑目標的網(wǎng)絡(luò)延伸范圍以及所涉及的交流對象。比較而言,NSA在大數(shù)據(jù)采集、處理和分析等方面的技術(shù)水平,甚至已經(jīng)超過了谷歌、臉書、亞馬遜和蘋果這些頂尖的大型互聯(lián)網(wǎng)企業(yè)。
出于對政府可能濫用個人數(shù)據(jù)的擔(dān)心,美國有些企業(yè)并不認同NSA的政策和做法,甚至存有疑問。對此,本文認為,NSA是美國大數(shù)據(jù)創(chuàng)業(yè)熱潮的最強有力的推手,迄今為止,NSA所屬的In-Q-Tel風(fēng)險投資公司已經(jīng)投資了200多個大數(shù)據(jù)、云計算、搜索與分析創(chuàng)業(yè)項目,而獲得In-Q-Tel公司的投資還意味著可以得到來自政府部門的訂單,所以NSA對推動科學(xué)技術(shù)的發(fā)展起到了很好的促進作用。希望Accumulo技術(shù)的下游用戶群體能尊重NSA在大數(shù)據(jù)開發(fā)和運用上的技術(shù),一些大的Hadoop供應(yīng)商如果想要在美國政府中有所作為,就必須主動加大對Accumulo技術(shù)項目的支持力度。
(二)美國國防部正在全力構(gòu)建聯(lián)合信息環(huán)境
截至目前,美國各大兵種的網(wǎng)絡(luò)信息系統(tǒng)尚處于自成體系的狀態(tài),美國國防部十分希望改變這種狀況,盡快建立起一個高效的、互聯(lián)互通的國防軍事網(wǎng)絡(luò)。構(gòu)建聯(lián)合信息環(huán)境是迄今為止美軍最大的聯(lián)合信息技術(shù)行動項目之一,該項目集“網(wǎng)絡(luò)作戰(zhàn)中心、數(shù)據(jù)中心、基于云應(yīng)用程序和服務(wù)的身份管理系統(tǒng)”等子系統(tǒng)于一體,建設(shè)目標是在整個美國國防部內(nèi)部開發(fā)出通用型云與數(shù)據(jù)云架構(gòu),從而將包括網(wǎng)絡(luò)安全、戰(zhàn)地情報等在內(nèi)的龐大海量的用例集全部涵蓋在內(nèi),為美國三軍“提供互聯(lián)互通的基于云的網(wǎng)絡(luò)和服務(wù),并在需要的時間和地點交付保密的語音、數(shù)據(jù)和情報”。早前,美國國防部還曾宣稱將在聯(lián)合信息環(huán)境內(nèi)納入“分析云”的網(wǎng)絡(luò)作戰(zhàn)能力,以確保在適時啟用大數(shù)據(jù)技術(shù)時,具備可靠的深挖網(wǎng)絡(luò)攻擊和內(nèi)部威脅的能力。
Accumulo技術(shù)正是美國國防部投入大量精力和財力著力建設(shè)的聯(lián)合信息環(huán)境項目的基本技術(shù)支撐,對加快這一項目的建設(shè)進程起到了極大的推動作用。目前,整個美國國防部都在圍繞著搜集、儲存、分析大量的用例集,加緊構(gòu)建發(fā)展多功能云和數(shù)據(jù)云基礎(chǔ)設(shè)施,這些用例幾乎涵蓋了從網(wǎng)絡(luò)安全領(lǐng)域到戰(zhàn)場情報領(lǐng)域各個方面,不僅僅是軍事安全領(lǐng)域的用例,甚至將醫(yī)療用例也包括在內(nèi)。美國國防部國防信息系統(tǒng)局下屬的聯(lián)合信息環(huán)境技術(shù)同步辦公室是該項目的主要技術(shù)領(lǐng)導(dǎo),目前正以“增量進程方式”加緊推進該項目的同步協(xié)調(diào)開發(fā)工作。
(三)目前美國網(wǎng)絡(luò)安全狀況很糟糕,但發(fā)展前景樂觀
網(wǎng)絡(luò)安全領(lǐng)域的復(fù)雜性是全球各國共同面臨的客觀事實,美國公眾對此也很關(guān)心,希望了解真實的情況。總體而言,目前的美國網(wǎng)絡(luò)安全現(xiàn)狀確實很糟糕,一些懷有不良動機的用戶也在利用互聯(lián)網(wǎng)絡(luò)進行活動,這些隱患無疑等同于美國龐大繁雜網(wǎng)絡(luò)系統(tǒng)中的定時炸彈,使得互聯(lián)網(wǎng)用戶的正常活動處于極大的風(fēng)險之中。以目前的網(wǎng)絡(luò)安全技術(shù)水平,還遠不能做到有效應(yīng)對對美國網(wǎng)絡(luò)的滲透、侵害行為。
值得肯定的是,美國網(wǎng)絡(luò)安全狀況正向著不斷改善的方向發(fā)展。一方面,政府對提高國家全局域網(wǎng)絡(luò)的安全性極為重視,最近,美國國土安全部和國家標準化與技術(shù)研究所合作,通過行政命令的方式,共同努力創(chuàng)建了一個網(wǎng)絡(luò)安全框架協(xié)議規(guī)定,初期是建立在網(wǎng)絡(luò)用戶自愿加入、自愿遵守相關(guān)規(guī)定標準的基礎(chǔ)上,未來將視情況發(fā)展而定。這對于現(xiàn)今十分復(fù)雜的網(wǎng)絡(luò)安全領(lǐng)域來說,政府的舉措無疑是向改進糟糕的網(wǎng)絡(luò)安全狀況邁出了一大步。另一方面,從技術(shù)層面而言,利用數(shù)據(jù)處理技術(shù)在網(wǎng)絡(luò)上檢測可疑行為并及時定位目標、檢查網(wǎng)絡(luò)中已知疑犯的動向等技術(shù)性操作已經(jīng)很容易實現(xiàn)。
美政府和企業(yè)將加大對Accumulo技術(shù)進一步應(yīng)用
美將建立“生命分析模式”,Accumulo技術(shù)將得到進一步應(yīng)用。
(一)美國國防部正在進行以大數(shù)據(jù)為基礎(chǔ)的改革
美國國防部認為,大數(shù)據(jù)將改變戰(zhàn)爭游戲規(guī)則,美軍必須充分利用大數(shù)據(jù),在未來全域軍事行動中牢牢把握戰(zhàn)爭的主動權(quán)。自2012年3月起,美國政府已先后啟動了兩輪大數(shù)據(jù)研究發(fā)展項目,希望通過改進從大量復(fù)雜數(shù)據(jù)中獲取情報的能力,增強美國應(yīng)對國家安全挑戰(zhàn)的能力,并同時刺激大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。美軍目前推進的大數(shù)據(jù)項目正是美國國家項目的重要組成部分。
目前,美國國防部正圍繞著Accumulo技術(shù)處在改革的行動中,而且作為基礎(chǔ)技術(shù)支撐的Hadoop供應(yīng)商,如Cloudera和Hortonworks等近來也都主動加大了對Accumulo技術(shù)項目的支持力度。美國國防部的改革目標,就是要打造一個統(tǒng)一、聯(lián)合、安全的端對端數(shù)據(jù)服務(wù)平臺,以滿足作戰(zhàn)指揮、日常訓(xùn)練和基本建設(shè)的大數(shù)據(jù)需求。要實現(xiàn)將“從無人機視頻到醫(yī)療信息”的各個方面的海量數(shù)據(jù)最終整合到一個單獨的數(shù)據(jù)分析系統(tǒng)中這樣的具體技術(shù)目標,需要通過對龐大海量的數(shù)據(jù)分析、處理以及分布式計算、數(shù)據(jù)可視化等手段,全方位改進美軍網(wǎng)絡(luò)系統(tǒng),達到有效利用大數(shù)據(jù)技術(shù)與網(wǎng)絡(luò)威脅對抗的目的,打贏數(shù)字化戰(zhàn)爭。
(二)美國企業(yè)已開始認可NSA的大數(shù)據(jù)處理技術(shù)水平
NSA對Hadoop、Accumulo、Bigtable、Nosql等開源性先進技術(shù)的成功運用,為美國企業(yè)在大規(guī)模生產(chǎn)環(huán)境應(yīng)用部署大數(shù)據(jù)處理技術(shù)提供了十分有參考價值的經(jīng)驗和示例。NSA大數(shù)據(jù)項目的優(yōu)勢還在于,在大幅壓低成本的同時,極大地提升了政府部門分析非結(jié)構(gòu)化數(shù)據(jù)的能力。“棱鏡門”事件對美國政府造成了一些被動,但該事件也從另一個側(cè)面展現(xiàn)了美國政府部門所具備的信息安全技術(shù)實力。因此,NSA的大數(shù)據(jù)項目不僅對于美國大數(shù)據(jù)商業(yè)企業(yè)來說十分有吸引力,而且也成為許多國家政府及一流IT企業(yè)關(guān)注的對象。
盡管部分美國企業(yè)的決策者對Accumulo技術(shù)在運行的安全可靠性上尚有一些疑慮,并且對該項目下一步的研發(fā)情況表示關(guān)心,但并未影響該項技術(shù)的推廣應(yīng)用。迄今為止,已經(jīng)有幾十家不同類型的美國企業(yè)安裝了Accumulo技術(shù)系統(tǒng),其中,美國20強企業(yè)中已有3家安裝,50強企業(yè)中有5家安裝,還有不少企業(yè)已表示對此有興趣。
(三)NSA更大的追求目標是建立“生命分析模式”
較之于開發(fā)網(wǎng)絡(luò)防御能力,NSA更重視對網(wǎng)絡(luò)進攻能力的開發(fā)。NSA更宏大的設(shè)想是建立起一套“生命分析模式”,建設(shè)目標是對整個網(wǎng)絡(luò)系統(tǒng)進行異常行為檢測,充分利用大數(shù)據(jù)提高美國在網(wǎng)絡(luò)上的主動性。從工作原理上講,就是首先建立起一套反映正常行為的網(wǎng)絡(luò)運行模式,然后再根據(jù)正常狀態(tài)基準數(shù)據(jù)指標去檢測偏離值,通過比對數(shù)據(jù)指標,發(fā)現(xiàn)并定位網(wǎng)絡(luò)侵害行為或者潛在的隱患威脅。
按照NSA的要求,Sqrrl公司已經(jīng)啟動了“生命分析模式”項目。目前,該項目研發(fā)團隊的工程師們正著手對大量的數(shù)據(jù)圖進行分析,嘗試著建立起一批穩(wěn)定的、處于分散狀態(tài)的數(shù)據(jù)圖形,意在使這些數(shù)據(jù)圖成為能夠反映網(wǎng)絡(luò)正常行為狀態(tài)的用例,為每一個網(wǎng)絡(luò)系統(tǒng)活動建立一套反映正常行為的標準模式。可以想象,這將是一個數(shù)量十分龐大、繁雜的用例集,需要搜集、處理、分析、儲存海量的數(shù)據(jù)。而且在項目推進過程中也存在著不可預(yù)見的因素,對Sqrrl來說將是一個很大的挑戰(zhàn)。
(本文譯自美國著名科技博客網(wǎng)站GigaOM發(fā)表的《美國國防部的大規(guī)模分布式數(shù)據(jù)戰(zhàn)略》一文)