Pada saat Hadoop dibangun, fokusnya adalah pada kapabilitas, sementara security bukan termasuk aspek yang diperhatikan, sehingga membawa satu V lagi bagi keluarga V dalam big data: Vulnerability. Untuk meningkatkan keamanan, Apache membangun layer security tambahan seperti Apache Ranger dan Apache Knox.

Vulnerability pada Hadoop setidaknya terbagi dalam 3 kategori:

  • Software Vulnerability: Hadoop dibangun menggunakan ekosistem Java yang memang memiliki risiko eksploitasi.
  • Web Interface Vulnerability: Hadoop pada dasarnya memiliki konfigurasi web default yang beresiko, seperti port dan IP address yang rawan mengalami serangan Cross Site Scripting.
  • Network Vulnerability: Karena Hadoop berurusan dengan tipe data dan database yang kompleks, tipe pengguna yang berbeda akan memiliki level security policy yang berbeda, sehingga menimbulkan vulnerability.

Vulnerability di atas menyediakan celah bagi serangan hacker. Sebagai contoh, seorang hacker dapat dengan mudah mengenumerasi detail seperti port dan IP address. Selain itu, serangan Denial of Services (DoS) dapat dilancarkan dengan menggunakan detail IP dan port tersebut.

Hacker juga dapat mengkombinasikan kelemahan di sisi web interface dan database untuk melancarkan serangan SQL Injection, sehingga dapat mengakses informasi berharga semisal dengan melakukan Hadoop SQL Query pada Hive.

Serangan paling kritikal adalah kebocoran data yang pada umumnya tidak disadari oleh admin.

Untuk meningkatkan keamanan, beberapa tool dibuat. Lima diantaranya sudah diulas pada artikel sebelumnya: 5 Perangkat Security untuk Keamanan Cluster Hadoop Anda.

Kita akan menambahkan list tersebut dengan beberapa perangkat lainnya.

Apache Atlas

Apache Atlas adalah perangkat data governance yang scalable dan extensible bagi Hadoop cluster, yang beru di release pada tahun 2019. Apache Atlas menggunakan open metadata management dan memiliki kapabilitas governance bagi organisasi untuk membangun asset data mereka dengan efektif dan efisien.

Beberapa fitur Atlas antara lain:

  • Metadata Types dan Instances: Kemampuan untuk membangun pre-defined new and various types dari data baik Hadoop maupun non Hadoop.
  • Classification: Kemampuan untuk membuat klasifikasi dan atributnyasecara dinamis.
  • Lineage: UI yang intuitif untuk melihat data lineage.
  • Search/Discovery: Menyediakan perangkat pencarian mirip SQL dan fitur pencarian berbasis REST API.
  • Security dan Data Masking: Fine-grained security untuk akses data menggunakan kontrol pada akses metadata.

Kerberos

Protokol Kerberos menggunakan secret-key cryptography untuk menyediakan dan mengenkripsi komunikasi data via non-secure network, dan merupakan perangkat authentication yang pertama kali digunakan pada Hadoop.

Image for post

Selama proses authentication, pertama-tama user akan berkomunkasi dengan Authentication Server (AS) untuk mendapatkan token, setelah itu user akan menggunakan token tersebut untuk berkomunikasi dan dan meminta token dari Ticket-granting Server (TGS). Ketika user mendapat tiket dari TGS, maka ia bisa menggunakan tiket tersebut untuk mengakses Hadoop Service. Setiap proses request dibatasi penggunaannya hanya sekali per session untuk menghindari serangan DDoS atau Man-In-The-Middle.

Kesimpulan

Apache Ranger direkomendasikan sebagai solusi security bagi Hadoop cluster, bukan hanya karena kemampuannya untuk mengontrol secara terpusat komponen security lainnya, tetapi juga karena kemudahannya untuk diintegrasikan pada perangkat security lainnya.

Jika anda membutuhkan, Steradian Consulting dapat membantu anda dalam menyelesaikan persoalan terkait data governance pada organisasi anda.

Published On: December 3, 2020 / Categories: Big Data, Data & AI / Tags: , /

Subscribe To Receive The Latest News

Thank you for your message. It has been sent.
There was an error trying to send your message. Please try again later.