Saat ini ada lima proyek Hadoop Security yang bisa anda gunakan, yaitu:

  1. Apache Knox
  2. Apache Sentry
  3. Apache Ranger
  4. Apache Accumulo
  5. Project Rhino

Big data membutuhkan engineering yang cukup kompleks, berupa sistem yang scalable, distributed, robust dan kapabilitas komputasi yang cepat, dimana saat ini Hadoop adalah solusi open source yang paling dominan sebagai jawabannya.

Komponen inti Hadoop, seperti HDFS, MapReduce dan YARN, serta project Apache lainnya seperti Hive, HBase, Stormk Kafka, memberikan solusi trivial kepada penggunanya, namun menyisakan masalah security dan rawan serangan. Dengan adanya ancaman keamanan pada Hadoop cluster, maka kita harus mengatasinya, salah satu caranya adalah dengan menambahkan perangkat security yang ada pada list di atas.

Apache Knox Gateway

undefined

Apache Knox meningkatkan keamanan Hadoop dari luar, dengan mambangun perimeter dengan menyediakan REST API gateway sebagai cara berinteraksi dengan Hadoop cluster.

Knox adalah sebuat REST API gateway, menyediakan single point untu otentifikasi, dan akses layanan dari Hadoop. Knox dapat berjalan sebagai single server atau berupa cluster, yang menyediakan akses tersentralisasi ke satu atau lebih Hadoop cluster. Knox juga mendukung WebHDFS, Oozie, Hive, HBase dan HCatalog.

Semua komunikasi ke Hadoop harus melalui Knox Gateway, yang mengontrol dan memoderasi komunikasi tersebut. Knox mendukung integrasi dengan LDAP, Active Directory, identity federation berbasis HTTP header, enkripsi end-to-end, dan service-level authorization.

Knox merupakan solusi yang bagus bagi enterprise. Knox mengintegrasikan identity management framework, dan menyembunyikan host Hadoop dan portnya. Knox juga menyederhanakan proses saat mengakses Hadoop cluster.

Knox disupport oleh Hortonworks, yang saat ini sudah bergabung dengan Cloudera.

Apache Sentry

undefined

Ekosistem Hadoop memang identik dengan isu terkait mekanisme otorisasi yang kurang secure dan robust. Administrator mesti mengimplementasikan dan memantain sistem standar bagi otorisasi untuk berbagai komponen. Berbagai komponen memiliki granularity level beragam dalam konteks otorisasi dan enforcement control, yang memiliki pengaruh signifikan pada keamanan.

Untuk menjawab tantangan ini, Cloudera merelease sebuah proyek open soure: Apache Sentry, dengan fine-grained authentication berdasarkan role dan mode management multi-tenant untuk menyediakan kontrol yang terintegrasi pada data dan metadata yang tersimpan di Hadoop.

Sentry dapat diintegrasikan dengan Hive, HCatalog, Apache Solr, dan Impala. Dengan demikian kita dapat menyimpan data yang sensitif ke dalam Hadoop. Tujuan Sentry adalah mengimplementasikan proses otorisasi yang terpadu pada semua komponen ekosistem Hadoop sehingga administrator bisa dengan mudah mengontrol akses pada semua elemen di Hadoop stack.

Apache Ranger

undefined

Apache Ranger sedikit overlap dengan Apache Sentry, dimana keduanya berurusan dengan authorization dan permission. Ranger menambahkan layer otorisasi ke Hive, HBase,dan Knox, sehingga memiliki kelebihan dari Sentry dengan adanya column-level permission pada Hive.

Ranger memberikan solusi komprehensif bagi Hadoop cluster, menyediakan sistem terpusat yang mendefinisikan dan mengadiministrasi kebijakan security yang konsisten. Dengan menggunakan Ranger console, administrator dapat mengatur akses ke file, folder, database, tabel dan kolom. Ranger memungkinkan kita mengatur policy pada level resource.

Apache Accumulo

undefined

Apache Accumulo bukanlah project security per-se, melainkan distributed key/value store berbasis Google BigTable dan dibangun di atas Apache Hadoop, ZoeKeeper, dan Thrift.

Accumulo mengakomodasi otorisasi pada level cell. Dengan demikian, highly specified access ke data dapat diberikan atau ditolak pada resolusi tertinggi yang mungkin: per user dan key/value cell.

Project Rhino

Meskipun Hadoop menyediakan beberapa mekanisme security terkait otentifikasi dan otorisasi, perusahaan skala enterprise umumnya menuntut keamanan yang lebih terkait proteksi data, termasuk pengenkripsian data saat pengiriman dan penyimpanan, role-based access control (RBAC), dan fitur penting lainnya terkait data governance.

Project Rhino adalah sebuah inisiatif untuk membawa keamanan Hadoop selevel dengan project lain yang ada pada Apache. Tujuan Project Rhino antara lain:

  • Menyediakan enkripsi dengan performance-enhancement berbasis hardware dan dukungan pada enkripsi dan key management.
  • Membangun framwork otorisasi enterprise-grade, Single Sign-On, dan otentifikasi berbasis token.
  • Menyediakan role-based access control (ACL) yang terpadu.
  • Memastikan proses auditing yang konsisten.

Kesimpulan

Dengan peningkatan kebutuhan enterprise terkait data, dan perkembangan dunia bisnis yang semakin data-riven, maka data governance menjadi semakin penting, termasuk pada aspek keamanan data.

Bagi anda yang membutuhkan layanan dan bantuan terkait implementasi security pada big data clusternya, maka Steradian Consulting dengan senang hati akan membantu anda.

Published On: December 3, 2020 / Categories: Big Data, Data & AI / Tags: , , , , , , , /

Subscribe To Receive The Latest News

Thank you for your message. It has been sent.
There was an error trying to send your message. Please try again later.