Pada tulisan ini saya akan menerangkan mengenai Data Science dan Data Analysis, berdasarkan referensi dari berbagai sumber yang saya dapatkan dari buku termasuk melalui mesin penelusuran google untuk mencari kalimat yang setidaknya dapat mewakili pengertian apa itu Data Science maka saya berpendapat dan berkesimpulan bahwa Data Science merupakan ilmu atau teknik untuk mengeksplorasi dan mengekstrak sekumpulan data atau database sehingga dari sekumpulan data tersebut dapat ditemukan model, bentuk atau pola serta wawasan baru yang dapat digunakan sebagai salah satu alat untuk pengambilan keputusan.
Banyak sekali manfaat serta fungsi dari data science ini diantaranya pada bidang bisnis untuk memprediksi produk apa yang akan laku dijual pada masa yang akan datang berdasarkan data transaksi penjualan, clusterisasi pangsa pasar untuk sebuah produk, menempatkan dua atau lebih produk yang berlainan atau market basket analysis dll, hasil atau output dari data science merupakan salah satu alat atau tools untuk pengambilan keputusan sehingga didapatkan nilai tambah dari sebuah bisnis.
Dari buku Practical Data Science with R dari Manning bahwa dalam sebuah proyek data science melibatkan berbagai unsur yang salah satunya yang sangat vital adalah data scientist itu sendiri yang mempunyai fungsi dan tugas selain mengatur dan merencanakan design dari proyek itu supaya berhasil juga menentukan tools yang diperlukan serta melakukan test statistik dan memodelkan machine learning selanjutnya mengevaluasi hasil atau output dari proyek itu sendiri.
Untuk menjadi seorang data science atau sering disebut dengan data scientist kita harus mempunyai pengetahuan mengenai database, data scientist juga harus memahami algorithm dan machine learning diantaranya: Decision Tree, K-Means, Neural Network, Linear Regression, Logistic Regression, FP-Growth, Association Rules dll juga harus menguasai ilmu statistik serta memahami tools atau pemograman untuk statistik seperti SPSS, Stata, SAS, Pyhton ataupun R, dari ketiga tools atau bahasa pemograman tersebut cukup kita menguasai salah satunya saja misalkan menguasai bahasa pemograman R saja, terlepas dari kelebihan dan kekurangannya dengan R selain open source R juga merupakan bahasa pemograman yang dikhusukan untuk keperluan analysis statistik serta R juga dapat dihubungkan dengan Spark framework apabila kita akan mengeksplorasi Bigdata atau massive datasets.
Berbeda dengan Data Analysis yang hanya mengeksplorasi data yang terstruktur atau relational database dan semi terstruktur seorang data scientist juga harus mampu mengeksplorasi data yang tidak terstruktur seperti text, emoticon, image ataupun hal-hal yang berhubungan dengan media social seperti facebook, twitter dll, selain harus menguasai SQL seorang data scientist juga harus menguasai NoSQL nilai tambah apabila menguasai bahasa pemogaraman scala serta framework untuk mengeksplorasi Bigdata seperti MapReduce, Hadoop, Spark, Storm dll.
Memang banyak sekali yang harus dipelajari untuk menjadi seorang data scientist tetapi dengan kesabaran dan waktu serta pengalaman seseorang pasti bisa menjadi seorang data scientist apalagi kebutuhan lapangan pekerjaan yang sangat terbuka untuk seorang data scientist.
Berikut adalah cuplikan video mengenai data science yang saya ambil dari sumber lain untuk melengkapi tulisan mengenai Data Science dan Data Analysis ini di http://youtu.be/U8Q75_8Ed-8