Hình 1
Theo hình trên thì ta thấy, họ có 2 nguồn để thu thập thông tin đó là: Upstream và PRISM. Như vậy có thể thấy PRISM không phải là 1 dự án duy nhất. Nếu như Upstream tập trung vào việc thu thập tất cả các dữ liệu từ hạ tầng từ các nhà mạng thì PRISM là thu thập trực tiếp từ máy chủ của các nhà cung cấp dịch vụ tại Mỹ. Tạm hiểu Upstream là chuyện hớt cá giữa dòng nước, còn PRISM thì mang cả sọt đến tận hang cá để tóm.Hình 2
Hình 2 cho thấy, PRISM thu thập được 11 loại dữ liệu khác nhau bao gồm: E-mails, instant messages, videos, photos, stored data (kiểu Google Drive hay MS SkyDrive chăng ?), voice chats, file transfers, video conferences, log-in times, social network profile details và loại cuối cùng là “Special Request” Những dữ liệu này lấy được từ 9 công ty lớn bao gồm có: Microsoft, Google, Yahoo, Facebook… tham gia vào việc cung cấp dữ liệu cho PRISM (Provider). Bạn có dùng dịch vụ của các hãng trên không Hình 3 cho thấy thời điểm mà các Provider tham gia vào PRISM cho đến cuối năm 2012. Microsoft là hãng đầu tiên, tham gia ngày 11/9/2007 và Apple là hãng cuối cùng tham gia tháng 10/2012. Chưa rõ khi Microsoft tham gia PRISM thì có xem ngày hay không mà khéo thật.Hình 3
Tùy từng Provider, NSA có thể sẽ nhận được 1 thông báo ngay lập tức khi có sự kiện log in hoặc gửi mail của đối tượng (Hình 4)Hình 4
Hình 5
Theo hình 5 thì tại thời điểm ngày 5 tháng 4, 2013 có 117,675 mục tiêu theo dõi nằm trong CSDL chống khủng bố của PRISM.
Hình 6
Hình 6 một lần nữa mô tả tổng quan về các nguồn dữ liệu mà NSA đã thu thập. PRISM xử lý bao nhiêu dữ liệu ? Chưa thấy thông tin chính thức từ NSA, nhưng cứ hình dung riêng Facebook hoặc Google phải xử lý đống data của họ đã đủ mệt rồi, đằng này PRISM xử lý của cả Facebook, Google, MS…. cộng lại. Theo một nghiên cứu đăng tại HighScability thì tác giả dự tính số lượng dữ liệu mà PRISM xử lý là như sau: Facebook: 500 TB/ngày* 30 = 1.5 PT/tháng (source) Twitter: 8 TB/ngày* 30 = 240 TB/tháng (source) Email/Other info: 193PT/tháng (source) Mobile traffic/machinetomachine exchanges/vehicles etc: 117 PB/tháng (source) Như vậy tổng dữ liệu xử lý là gần 312PB/tháng Công nghệ, thành phần của PRISM ?Hình 7
Theo Hình 7, chúng ta có thể thấy 1 số các hệ thống sau nằm trong PRISM- PRINTAURA automates the traffic flow
- SCISSORS and Protocol Exploitation sort data types for analysis
- NUCLEON (voice)
- PINWALE (video): http://en.wikipedia.org/wiki/Pinwale
- MAINWAY (call records)
- MARINA (Internet records)
- FALLOUT ?
- CONVEYANCE ?
- Accumulo (http://en.wikipedia.org/wiki/Apache_Accumulo): 1 dạng NoSQL (NSA đóng góp ngược lại cho cộng đồng nguồn mở Apache và có cả 1 công ty thương mại hóa thành Sqrrl http://sqrrl.com/, công ty này cũng do cựu nhân viên của NSA thành lập
- NSA Graph search
- Xstroke (http://en.wikipedia.org/wiki/XKeyscore): Theo wiki thì là a system “for searching and analyzing Internet data about foreign nationals across the world”
- Boundless Informant: Công cụ để phân loại, quản lý, phân tích các đối tượng trên toàn cầu
Hình 8
Kết luận Kết luận lại, theo phỏng đoán thì PRISM sẽ có 1 cấu trúc tương tự như hình sau đây:Hình 9
Không bàn đến vấn đề mục đích sử dụng của PRISM, tuy nhiên rõ ràng việc tìm hiểu hệ thống Big Data của NSA này cũng sẽ giúp chúng ta có được 1 case study về hệ thống lớn, để áp dụng vào các dự án Big Data khác. Tài liệu tham khảo- NSA PRISM – The Mother of all Big Data ProjectsNSA PRISM – The Mother of all Big Data Projects http://architects.dzone.com/articles/nsa-prism-%E2%80%93-mother-all-big
- Boundless Informant: the NSA’s secret tool to track global surveillance datahttp://www.theguardian.com/world/2013/jun/08/nsa-boundless-informant-global-datamining
- PRISM (surveillance program)http://en.wikipedia.org/wiki/PRISM_(surveillance_program)
- NSA slides explain the PRISM data-collection programhttp://www.washingtonpost.com/wp-srv/special/politics/prism-collection-documents/
- Here’s everything we know about PRISM to datehttp://www.washingtonpost.com/blogs/wonkblog/wp/2013/06/12/heres-everything-we-know-about-prism-to-date/
- PRISM by the Numbers http://newsfeed.time.com/2013/06/06/prism-by-the-numbers-a-guide-to-the-governments-secret-internet-data-mining-program/
- NSA Submits Open Source, Secure Database To Apachehttp://www.informationweek.com/applications/nsa-submits-open-source-secure-database-to-apache/d/d-id/1099972?
- Everything you need to know about PRISMEverything you need to know about PRISMhttp://www.theverge.com/2013/7/17/4517480/nsa-spying-prism-surveillance-cheat-sheet
Nguồn: ducasec.com