目前,Accumulo技術已經得到美國政府層面的全面認可,NSA已將該技術作為內部組織架構運行的核心部分,在對來源于各方面的龐大海量數據進行分析處理時,所應用的運算程序基本都運行在Accumulo技術上,即NSA“大多數監控和分析應用程序的后臺都是Accumulo技術”。基于Hadoop的Accumulo技術已在實質上被視為美國國家安全戰略的關鍵。
Accumulo技術已成為美國國家安全戰略的關鍵
Accumulo作為當今最安全、最強大的數據處理技術之一,已經得到美全面認可。
(一)基于Hadoop的Accumulo技術是當今最強大、安全的大數據處理技術之一
Hadoop由美國阿帕奇基金會開發,是一種能以可靠、高效、可伸縮的方式對大量數據進行分布式處理的計算平臺(即分布式計算平臺)。用戶可以在不了解分布式底層細節的情況下,借此開發分布式程序,充分利用計算機集群的威力進行高速運算和存儲各種數據。
Hadoop主要有五大特點:一是高可靠性,具有非常可靠的按位存儲和處理數據的能力。二是高擴展性,Hadoop是在計算機集群間分配數據并完成計算任務,這些計算機集群可以較為容易地擴展到數以千計的節點中,因而能夠處理PB級甚至更高級別的數據。三是高效性,Hadoop以并行運算的方式工作,與傳統的將海量數據限定在一臺機器上運行的方式最大不同在于,Hadoop是將大數據分成多個部分,使得每個部分都可以被同時處理和分析,因此處理數據的速度非常快。四是高容錯性,Hadoop在運行中首先假設計算元素和存儲會失敗,因此能夠自動保存多個工作數據副本,并且能夠自動將失敗的運行任務重新進行分配。五是低成本,hadoop是開源的,任何人都可以使用,項目的軟件成本因而大為降低。關鍵一點還在于,Hadoop是根據計算機集群中的節點數調節處理數據,即其不是將數據存儲移動到某個位置以供處理,而是將數據處理移動到存儲,因此具有支持高效數據處理的強大功能。
Hadoop的重要作用意義在于實現了一個分布式文件系統,即HDFS系統(Hadoop Distributed File System)。要實現對海量數據的計算,前提必須是要有一個穩定、安全的數據容器,HDFS系統即是十分適合具有超大數據集(large data set)的應用程序。HDFS系統可以提供高傳輸率并以流的形式訪問文件系統中的數據,從而使用戶可以較為容易地在Hadoop上開發和運行處理海量數據的應用程序。Hadoop支持高效數據處理的特性,使得零散的、不具備關聯性的海量數據得到了有效整合處理,使其在大數據處理中得以廣泛應用。
(二)基于Hadoop的Accumulo技術已成為美國國家安全戰略的關鍵
開發Accumulo技術的主要目的是運用于國防及安全領域,旨在利用先進的數據分析技術進一步改善美國的網絡安全狀況,打贏數字化戰爭。從戰術層面來講,即借助Accumulo技術對大數據進行分析,高效檢測網絡中出現的異常數據,以便于及早發現網絡中的可疑行為并將目標及時快速定位,達到利用大數據打擊網絡領域犯罪行為的目的。從戰略層面來說,美國政府開發Accumulo技術的初衷是,可用于支持NSA的數據處理方案也能應用于國防部的整個軍事作戰體系當中。
目前,Accumulo技術已經得到美國政府層面的全面認可,NSA已將該技術作為內部組織架構運行的核心部分,在對來源于各方面的龐大海量數據進行分析處理時,所應用的運算程序基本都運行在Accumulo技術上,即NSA“大多數監控和分析應用程序的后臺都是Accumulo技術”。美國國防部對Accumulo技術在應對大數據上所展現的強大處理分析能力表示認同,現已著手實施內部改革計劃,加緊將Accumulo技術納入國防部數據分析系統。基于Hadoop的Accumulo技術已在實質上被視為美國國家安全戰略的關鍵。
美國正在全力構建聯合信息環境
美國防部正在開發通用型云與數據云架構,Accumulo為其重要組成部分。
(一)NSA在大數據技術應用和數據安全領域一直走在全球最前列
NSA大數據項目的三大支撐技術中最具代表性的是Accumulo技術,它可以極為有效地分析萬億規模級別的數據,尤其是在通話記錄分析領域最能體現這一分析機制的強大能力。比如,可以通過數據分析很容易確定嫌疑目標的網絡延伸范圍以及所涉及的交流對象。比較而言,NSA在大數據采集、處理和分析等方面的技術水平,甚至已經超過了谷歌、臉書、亞馬遜和蘋果這些頂尖的大型互聯網企業。
出于對政府可能濫用個人數據的擔心,美國有些企業并不認同NSA的政策和做法,甚至存有疑問。對此,本文認為,NSA是美國大數據創業熱潮的最強有力的推手,迄今為止,NSA所屬的In-Q-Tel風險投資公司已經投資了200多個大數據、云計算、搜索與分析創業項目,而獲得In-Q-Tel公司的投資還意味著可以得到來自政府部門的訂單,所以NSA對推動科學技術的發展起到了很好的促進作用。希望Accumulo技術的下游用戶群體能尊重NSA在大數據開發和運用上的技術,一些大的Hadoop供應商如果想要在美國政府中有所作為,就必須主動加大對Accumulo技術項目的支持力度。
(二)美國國防部正在全力構建聯合信息環境
截至目前,美國各大兵種的網絡信息系統尚處于自成體系的狀態,美國國防部十分希望改變這種狀況,盡快建立起一個高效的、互聯互通的國防軍事網絡。構建聯合信息環境是迄今為止美軍最大的聯合信息技術行動項目之一,該項目集“網絡作戰中心、數據中心、基于云應用程序和服務的身份管理系統”等子系統于一體,建設目標是在整個美國國防部內部開發出通用型云與數據云架構,從而將包括網絡安全、戰地情報等在內的龐大海量的用例集全部涵蓋在內,為美國三軍“提供互聯互通的基于云的網絡和服務,并在需要的時間和地點交付保密的語音、數據和情報”。早前,美國國防部還曾宣稱將在聯合信息環境內納入“分析云”的網絡作戰能力,以確保在適時啟用大數據技術時,具備可靠的深挖網絡攻擊和內部威脅的能力。
Accumulo技術正是美國國防部投入大量精力和財力著力建設的聯合信息環境項目的基本技術支撐,對加快這一項目的建設進程起到了極大的推動作用。目前,整個美國國防部都在圍繞著搜集、儲存、分析大量的用例集,加緊構建發展多功能云和數據云基礎設施,這些用例幾乎涵蓋了從網絡安全領域到戰場情報領域各個方面,不僅僅是軍事安全領域的用例,甚至將醫療用例也包括在內。美國國防部國防信息系統局下屬的聯合信息環境技術同步辦公室是該項目的主要技術領導,目前正以“增量進程方式”加緊推進該項目的同步協調開發工作。
(三)目前美國網絡安全狀況很糟糕,但發展前景樂觀
網絡安全領域的復雜性是全球各國共同面臨的客觀事實,美國公眾對此也很關心,希望了解真實的情況。總體而言,目前的美國網絡安全現狀確實很糟糕,一些懷有不良動機的用戶也在利用互聯網絡進行活動,這些隱患無疑等同于美國龐大繁雜網絡系統中的定時炸彈,使得互聯網用戶的正常活動處于極大的風險之中。以目前的網絡安全技術水平,還遠不能做到有效應對對美國網絡的滲透、侵害行為。
值得肯定的是,美國網絡安全狀況正向著不斷改善的方向發展。一方面,政府對提高國家全局域網絡的安全性極為重視,最近,美國國土安全部和國家標準化與技術研究所合作,通過行政命令的方式,共同努力創建了一個網絡安全框架協議規定,初期是建立在網絡用戶自愿加入、自愿遵守相關規定標準的基礎上,未來將視情況發展而定。這對于現今十分復雜的網絡安全領域來說,政府的舉措無疑是向改進糟糕的網絡安全狀況邁出了一大步。另一方面,從技術層面而言,利用數據處理技術在網絡上檢測可疑行為并及時定位目標、檢查網絡中已知疑犯的動向等技術性操作已經很容易實現。
美政府和企業將加大對Accumulo技術進一步應用
美將建立“生命分析模式”,Accumulo技術將得到進一步應用。
(一)美國國防部正在進行以大數據為基礎的改革
美國國防部認為,大數據將改變戰爭游戲規則,美軍必須充分利用大數據,在未來全域軍事行動中牢牢把握戰爭的主動權。自2012年3月起,美國政府已先后啟動了兩輪大數據研究發展項目,希望通過改進從大量復雜數據中獲取情報的能力,增強美國應對國家安全挑戰的能力,并同時刺激大數據產業的發展。美軍目前推進的大數據項目正是美國國家項目的重要組成部分。
目前,美國國防部正圍繞著Accumulo技術處在改革的行動中,而且作為基礎技術支撐的Hadoop供應商,如Cloudera和Hortonworks等近來也都主動加大了對Accumulo技術項目的支持力度。美國國防部的改革目標,就是要打造一個統一、聯合、安全的端對端數據服務平臺,以滿足作戰指揮、日常訓練和基本建設的大數據需求。要實現將“從無人機視頻到醫療信息”的各個方面的海量數據最終整合到一個單獨的數據分析系統中這樣的具體技術目標,需要通過對龐大海量的數據分析、處理以及分布式計算、數據可視化等手段,全方位改進美軍網絡系統,達到有效利用大數據技術與網絡威脅對抗的目的,打贏數字化戰爭。
(二)美國企業已開始認可NSA的大數據處理技術水平
NSA對Hadoop、Accumulo、Bigtable、Nosql等開源性先進技術的成功運用,為美國企業在大規模生產環境應用部署大數據處理技術提供了十分有參考價值的經驗和示例。NSA大數據項目的優勢還在于,在大幅壓低成本的同時,極大地提升了政府部門分析非結構化數據的能力。“棱鏡門”事件對美國政府造成了一些被動,但該事件也從另一個側面展現了美國政府部門所具備的信息安全技術實力。因此,NSA的大數據項目不僅對于美國大數據商業企業來說十分有吸引力,而且也成為許多國家政府及一流IT企業關注的對象。
盡管部分美國企業的決策者對Accumulo技術在運行的安全可靠性上尚有一些疑慮,并且對該項目下一步的研發情況表示關心,但并未影響該項技術的推廣應用。迄今為止,已經有幾十家不同類型的美國企業安裝了Accumulo技術系統,其中,美國20強企業中已有3家安裝,50強企業中有5家安裝,還有不少企業已表示對此有興趣。
(三)NSA更大的追求目標是建立“生命分析模式”
較之于開發網絡防御能力,NSA更重視對網絡進攻能力的開發。NSA更宏大的設想是建立起一套“生命分析模式”,建設目標是對整個網絡系統進行異常行為檢測,充分利用大數據提高美國在網絡上的主動性。從工作原理上講,就是首先建立起一套反映正常行為的網絡運行模式,然后再根據正常狀態基準數據指標去檢測偏離值,通過比對數據指標,發現并定位網絡侵害行為或者潛在的隱患威脅。
按照NSA的要求,Sqrrl公司已經啟動了“生命分析模式”項目。目前,該項目研發團隊的工程師們正著手對大量的數據圖進行分析,嘗試著建立起一批穩定的、處于分散狀態的數據圖形,意在使這些數據圖成為能夠反映網絡正常行為狀態的用例,為每一個網絡系統活動建立一套反映正常行為的標準模式。可以想象,這將是一個數量十分龐大、繁雜的用例集,需要搜集、處理、分析、儲存海量的數據。而且在項目推進過程中也存在著不可預見的因素,對Sqrrl來說將是一個很大的挑戰。
(本文譯自美國著名科技博客網站GigaOM發表的《美國國防部的大規模分布式數據戰略》一文)
Accumulo技術已成為美國國家安全戰略的關鍵
Accumulo作為當今最安全、最強大的數據處理技術之一,已經得到美全面認可。
(一)基于Hadoop的Accumulo技術是當今最強大、安全的大數據處理技術之一
Hadoop由美國阿帕奇基金會開發,是一種能以可靠、高效、可伸縮的方式對大量數據進行分布式處理的計算平臺(即分布式計算平臺)。用戶可以在不了解分布式底層細節的情況下,借此開發分布式程序,充分利用計算機集群的威力進行高速運算和存儲各種數據。
Hadoop主要有五大特點:一是高可靠性,具有非常可靠的按位存儲和處理數據的能力。二是高擴展性,Hadoop是在計算機集群間分配數據并完成計算任務,這些計算機集群可以較為容易地擴展到數以千計的節點中,因而能夠處理PB級甚至更高級別的數據。三是高效性,Hadoop以并行運算的方式工作,與傳統的將海量數據限定在一臺機器上運行的方式最大不同在于,Hadoop是將大數據分成多個部分,使得每個部分都可以被同時處理和分析,因此處理數據的速度非常快。四是高容錯性,Hadoop在運行中首先假設計算元素和存儲會失敗,因此能夠自動保存多個工作數據副本,并且能夠自動將失敗的運行任務重新進行分配。五是低成本,hadoop是開源的,任何人都可以使用,項目的軟件成本因而大為降低。關鍵一點還在于,Hadoop是根據計算機集群中的節點數調節處理數據,即其不是將數據存儲移動到某個位置以供處理,而是將數據處理移動到存儲,因此具有支持高效數據處理的強大功能。
Hadoop的重要作用意義在于實現了一個分布式文件系統,即HDFS系統(Hadoop Distributed File System)。要實現對海量數據的計算,前提必須是要有一個穩定、安全的數據容器,HDFS系統即是十分適合具有超大數據集(large data set)的應用程序。HDFS系統可以提供高傳輸率并以流的形式訪問文件系統中的數據,從而使用戶可以較為容易地在Hadoop上開發和運行處理海量數據的應用程序。Hadoop支持高效數據處理的特性,使得零散的、不具備關聯性的海量數據得到了有效整合處理,使其在大數據處理中得以廣泛應用。
(二)基于Hadoop的Accumulo技術已成為美國國家安全戰略的關鍵
開發Accumulo技術的主要目的是運用于國防及安全領域,旨在利用先進的數據分析技術進一步改善美國的網絡安全狀況,打贏數字化戰爭。從戰術層面來講,即借助Accumulo技術對大數據進行分析,高效檢測網絡中出現的異常數據,以便于及早發現網絡中的可疑行為并將目標及時快速定位,達到利用大數據打擊網絡領域犯罪行為的目的。從戰略層面來說,美國政府開發Accumulo技術的初衷是,可用于支持NSA的數據處理方案也能應用于國防部的整個軍事作戰體系當中。
目前,Accumulo技術已經得到美國政府層面的全面認可,NSA已將該技術作為內部組織架構運行的核心部分,在對來源于各方面的龐大海量數據進行分析處理時,所應用的運算程序基本都運行在Accumulo技術上,即NSA“大多數監控和分析應用程序的后臺都是Accumulo技術”。美國國防部對Accumulo技術在應對大數據上所展現的強大處理分析能力表示認同,現已著手實施內部改革計劃,加緊將Accumulo技術納入國防部數據分析系統。基于Hadoop的Accumulo技術已在實質上被視為美國國家安全戰略的關鍵。
美國正在全力構建聯合信息環境
美國防部正在開發通用型云與數據云架構,Accumulo為其重要組成部分。
(一)NSA在大數據技術應用和數據安全領域一直走在全球最前列
NSA大數據項目的三大支撐技術中最具代表性的是Accumulo技術,它可以極為有效地分析萬億規模級別的數據,尤其是在通話記錄分析領域最能體現這一分析機制的強大能力。比如,可以通過數據分析很容易確定嫌疑目標的網絡延伸范圍以及所涉及的交流對象。比較而言,NSA在大數據采集、處理和分析等方面的技術水平,甚至已經超過了谷歌、臉書、亞馬遜和蘋果這些頂尖的大型互聯網企業。
出于對政府可能濫用個人數據的擔心,美國有些企業并不認同NSA的政策和做法,甚至存有疑問。對此,本文認為,NSA是美國大數據創業熱潮的最強有力的推手,迄今為止,NSA所屬的In-Q-Tel風險投資公司已經投資了200多個大數據、云計算、搜索與分析創業項目,而獲得In-Q-Tel公司的投資還意味著可以得到來自政府部門的訂單,所以NSA對推動科學技術的發展起到了很好的促進作用。希望Accumulo技術的下游用戶群體能尊重NSA在大數據開發和運用上的技術,一些大的Hadoop供應商如果想要在美國政府中有所作為,就必須主動加大對Accumulo技術項目的支持力度。
(二)美國國防部正在全力構建聯合信息環境
截至目前,美國各大兵種的網絡信息系統尚處于自成體系的狀態,美國國防部十分希望改變這種狀況,盡快建立起一個高效的、互聯互通的國防軍事網絡。構建聯合信息環境是迄今為止美軍最大的聯合信息技術行動項目之一,該項目集“網絡作戰中心、數據中心、基于云應用程序和服務的身份管理系統”等子系統于一體,建設目標是在整個美國國防部內部開發出通用型云與數據云架構,從而將包括網絡安全、戰地情報等在內的龐大海量的用例集全部涵蓋在內,為美國三軍“提供互聯互通的基于云的網絡和服務,并在需要的時間和地點交付保密的語音、數據和情報”。早前,美國國防部還曾宣稱將在聯合信息環境內納入“分析云”的網絡作戰能力,以確保在適時啟用大數據技術時,具備可靠的深挖網絡攻擊和內部威脅的能力。
Accumulo技術正是美國國防部投入大量精力和財力著力建設的聯合信息環境項目的基本技術支撐,對加快這一項目的建設進程起到了極大的推動作用。目前,整個美國國防部都在圍繞著搜集、儲存、分析大量的用例集,加緊構建發展多功能云和數據云基礎設施,這些用例幾乎涵蓋了從網絡安全領域到戰場情報領域各個方面,不僅僅是軍事安全領域的用例,甚至將醫療用例也包括在內。美國國防部國防信息系統局下屬的聯合信息環境技術同步辦公室是該項目的主要技術領導,目前正以“增量進程方式”加緊推進該項目的同步協調開發工作。
(三)目前美國網絡安全狀況很糟糕,但發展前景樂觀
網絡安全領域的復雜性是全球各國共同面臨的客觀事實,美國公眾對此也很關心,希望了解真實的情況。總體而言,目前的美國網絡安全現狀確實很糟糕,一些懷有不良動機的用戶也在利用互聯網絡進行活動,這些隱患無疑等同于美國龐大繁雜網絡系統中的定時炸彈,使得互聯網用戶的正常活動處于極大的風險之中。以目前的網絡安全技術水平,還遠不能做到有效應對對美國網絡的滲透、侵害行為。
值得肯定的是,美國網絡安全狀況正向著不斷改善的方向發展。一方面,政府對提高國家全局域網絡的安全性極為重視,最近,美國國土安全部和國家標準化與技術研究所合作,通過行政命令的方式,共同努力創建了一個網絡安全框架協議規定,初期是建立在網絡用戶自愿加入、自愿遵守相關規定標準的基礎上,未來將視情況發展而定。這對于現今十分復雜的網絡安全領域來說,政府的舉措無疑是向改進糟糕的網絡安全狀況邁出了一大步。另一方面,從技術層面而言,利用數據處理技術在網絡上檢測可疑行為并及時定位目標、檢查網絡中已知疑犯的動向等技術性操作已經很容易實現。
美政府和企業將加大對Accumulo技術進一步應用
美將建立“生命分析模式”,Accumulo技術將得到進一步應用。
(一)美國國防部正在進行以大數據為基礎的改革
美國國防部認為,大數據將改變戰爭游戲規則,美軍必須充分利用大數據,在未來全域軍事行動中牢牢把握戰爭的主動權。自2012年3月起,美國政府已先后啟動了兩輪大數據研究發展項目,希望通過改進從大量復雜數據中獲取情報的能力,增強美國應對國家安全挑戰的能力,并同時刺激大數據產業的發展。美軍目前推進的大數據項目正是美國國家項目的重要組成部分。
目前,美國國防部正圍繞著Accumulo技術處在改革的行動中,而且作為基礎技術支撐的Hadoop供應商,如Cloudera和Hortonworks等近來也都主動加大了對Accumulo技術項目的支持力度。美國國防部的改革目標,就是要打造一個統一、聯合、安全的端對端數據服務平臺,以滿足作戰指揮、日常訓練和基本建設的大數據需求。要實現將“從無人機視頻到醫療信息”的各個方面的海量數據最終整合到一個單獨的數據分析系統中這樣的具體技術目標,需要通過對龐大海量的數據分析、處理以及分布式計算、數據可視化等手段,全方位改進美軍網絡系統,達到有效利用大數據技術與網絡威脅對抗的目的,打贏數字化戰爭。
(二)美國企業已開始認可NSA的大數據處理技術水平
NSA對Hadoop、Accumulo、Bigtable、Nosql等開源性先進技術的成功運用,為美國企業在大規模生產環境應用部署大數據處理技術提供了十分有參考價值的經驗和示例。NSA大數據項目的優勢還在于,在大幅壓低成本的同時,極大地提升了政府部門分析非結構化數據的能力。“棱鏡門”事件對美國政府造成了一些被動,但該事件也從另一個側面展現了美國政府部門所具備的信息安全技術實力。因此,NSA的大數據項目不僅對于美國大數據商業企業來說十分有吸引力,而且也成為許多國家政府及一流IT企業關注的對象。
盡管部分美國企業的決策者對Accumulo技術在運行的安全可靠性上尚有一些疑慮,并且對該項目下一步的研發情況表示關心,但并未影響該項技術的推廣應用。迄今為止,已經有幾十家不同類型的美國企業安裝了Accumulo技術系統,其中,美國20強企業中已有3家安裝,50強企業中有5家安裝,還有不少企業已表示對此有興趣。
(三)NSA更大的追求目標是建立“生命分析模式”
較之于開發網絡防御能力,NSA更重視對網絡進攻能力的開發。NSA更宏大的設想是建立起一套“生命分析模式”,建設目標是對整個網絡系統進行異常行為檢測,充分利用大數據提高美國在網絡上的主動性。從工作原理上講,就是首先建立起一套反映正常行為的網絡運行模式,然后再根據正常狀態基準數據指標去檢測偏離值,通過比對數據指標,發現并定位網絡侵害行為或者潛在的隱患威脅。
按照NSA的要求,Sqrrl公司已經啟動了“生命分析模式”項目。目前,該項目研發團隊的工程師們正著手對大量的數據圖進行分析,嘗試著建立起一批穩定的、處于分散狀態的數據圖形,意在使這些數據圖成為能夠反映網絡正常行為狀態的用例,為每一個網絡系統活動建立一套反映正常行為的標準模式。可以想象,這將是一個數量十分龐大、繁雜的用例集,需要搜集、處理、分析、儲存海量的數據。而且在項目推進過程中也存在著不可預見的因素,對Sqrrl來說將是一個很大的挑戰。
(本文譯自美國著名科技博客網站GigaOM發表的《美國國防部的大規模分布式數據戰略》一文)