Untuk seseorang yang
ingin atau bercita-cita menjadi Data Analyst atau ingin menjadi Data Scientist
memahami dan mengusai resource atau sumber daya Big Data merupakan suatu
keharusan. Apa itu Big Data? Pengertian Big Data dari literature atau jurnal yang
pernah saya baca, Big Data merupakan data yang berskala besar atau data dalam jumlah yang sangat banyak biasanya dalam
satuan GigaByte GB atau dalam ukuran TeraByte TB atau bisa lebih besar lagi dimana
data-data tersebut dihasilkan dari berbagai sumber contohnya Sensor, media sosial,
perusahaan atau organisasi asuransi, keuangan, kesehatan dll, dimana
karakteristik dari Big Data adalah:
- Volume, jumlah data yang harus dikelola sangat besar
- Velocity, data bertambah dengan sangat cepat
- Variety, jenis dan type data sangat bervariasi (data terstruktur, data tidak terstruktur ataupun data semi-terstruktur)
- Value, data dalam skala yang sangat besar akan bernilai atau valuable apabila ditangani dengan benar dan akurat
- Veracity
Pengelolaan Big Data saat
ini berkembang sangat cepat baik dari sisi teknologi dan aplikasi, salah satu
contoh teknologi untuk mengelola Big Data diantaranya Hadoop dan Apache Spark
yang merupakan salah satu framework yang
mengimplementasikan pengelolaan atau pemrosesan Big Data pada computer yang
terdistribusi atau cluster computing (Junbo Zhang et al, 2013).