Monday 26 December 2016

Pemograman Dasar dengan R - Bagian 1

Struktur Data Pada R

Tutorial  pemograman dasar dengan R bagian 1 ini saya sadur dari buku The Art of R Programming  tentunya dengan gaya bahasa yang saya pahami. Bahasa pemograman R adalah bahasa pemograman open source pertama kali dibuat oleh Ross Ihaka dan Robert Gentleman dari Departemen Statistik Universitas Auckland Selandia Baru merupakan software environment untuk analysis statistik dan dapat menampilkan report-nya dalam bentuk grafik.  

Apabila kita mempunyai harapan untuk menjadi data scientist saya menyarankan untuk menguasai bahasa pemograman R ini, karena selain open source bahasa R diperuntukan untuk analysis statistik serta  dapat dihubungkan dengan framework spark untuk mengolah Big data. R dapat di download di https://cran.r-project.org/bin/windows/base/ untuk versi studio dapat di download di https://www.rstudio.com/products/rstudio/download/

Setelah R dapat diinstall diharapkan pembaca langsung mempraktekan dan menuliskan kembali contoh kode yang diberikan bukan hanya copy paste supaya terbiasa.

Gambar tampilan R Studio


Pada tulisan ini saya akan mengenalkan struktur data dari R yang meliputi:
  • ·         Vektor
  • ·         Matrik
  • ·         Array
  • ·         Data Frame
  • ·         List

Vektor
Vektor merupakan array berdimensi satu  dalam bahasa R perintah vector dinotasikan dengan sebuah fungsi c() contoh kode:
#vektor Numerik
>x <- c(88,5,12,13)
>x
[1] 88 5 12 13
Pada contoh kode diatas kita mendefinisikan sebuah vector numerik x dengan 88, 5, 12 dan 13 kemudian pada baris kedua kita memanggil vektor x .
  
Matrik
Matrik merupakan Array berdimensi dua yang mempunyai unsur atau type data data yg sama, matrik dalam R didefinisikan dengan perintah matrix, dengan format sebagai berikut:
myymatrix <- matrix(vektor, nrow=r, ncol=c)
vektor  = berisi unsur-unsur dari matrik
r           = banyaknya baris
c           = banyaknya kolom
contoh kode:
> y <- matrix(c(1,2,3,4), nrow = 2, ncol = 2)
> y
     [,1] [,2]
[1,]    1    3
[2,]    2    4


Array
Array pada R didefinisikan dengan perintah array , seperti vector dan matrik, array juga hanya berisi satu jenis data, contoh kode:
> a <- array(c("green", "yellow"), dim = c(3,3,3))
> a
, , 1
 
     [,1]     [,2]     [,3]    
[1,] "green"  "yellow" "green" 
[2,] "yellow" "green"  "yellow"
[3,] "green"  "yellow" "green" 
 
, , 2
 
     [,1]     [,2]     [,3]    
[1,] "yellow" "green"  "yellow"
[2,] "green"  "yellow" "green" 
[3,] "yellow" "green"  "yellow"
 
, , 3
 
     [,1]     [,2]     [,3]    
[1,] "green"  "yellow" "green" 
[2,] "yellow" "green"  "yellow"
[3,] "green"  "yellow" "green"

  
Data Frame
Data frame merupakan kumpulan data dalam bentuk tabular dan pada data frame dapat berisi jenis data yang berbeda, pada R data frame didefinisikan dengan perintah data.frame , contoh kode:

> kids <- c("jack", "Jill")
> ages <- c(12,13)
> d <- data.frame(kids, ages)
> d
  kids ages
1 jack   12
2 Jill   13


List
List adalah struktur data yang bisa berisi lebih dari satu jenis data (numerik, karakter dll) dan lebih dari satu struktur data (vektor dll) dan didefinisikan dengan perintah list contoh kode:

> j <- list(name="Joe", salary=55000)
> j
$name
[1] "Joe"
 
$salary

[1] 55000

Monday 19 December 2016

Pengertian Data Science dan Data Analysis

Pada tulisan ini saya akan  menerangkan mengenai Data Science dan Data Analysis, berdasarkan referensi dari berbagai sumber yang saya dapatkan dari buku  termasuk melalui mesin penelusuran google untuk mencari kalimat  yang setidaknya dapat mewakili pengertian  apa itu Data Science maka saya berpendapat dan berkesimpulan bahwa Data Science merupakan  ilmu atau teknik untuk mengeksplorasi dan mengekstrak sekumpulan data atau database sehingga dari sekumpulan data tersebut dapat ditemukan model, bentuk atau pola serta  wawasan baru yang dapat digunakan sebagai salah satu alat untuk pengambilan keputusan.

Banyak sekali manfaat serta fungsi dari data science ini diantaranya pada bidang bisnis untuk memprediksi produk apa yang akan laku dijual pada masa yang akan datang berdasarkan data transaksi penjualan, clusterisasi pangsa pasar untuk sebuah produk, menempatkan dua atau lebih produk yang berlainan atau market basket analysis  dll,   hasil atau output dari data science merupakan salah satu alat atau tools untuk pengambilan keputusan sehingga didapatkan  nilai tambah dari sebuah bisnis.

Dari buku Practical Data Science with R dari Manning bahwa dalam sebuah proyek data science melibatkan berbagai unsur yang salah satunya yang sangat vital adalah data scientist itu sendiri yang mempunyai fungsi dan tugas selain mengatur dan merencanakan design dari proyek itu supaya berhasil juga menentukan tools yang diperlukan serta melakukan test statistik dan memodelkan machine learning selanjutnya mengevaluasi hasil atau output dari proyek itu sendiri.  

Untuk menjadi seorang data science atau sering disebut dengan data scientist kita harus mempunyai pengetahuan  mengenai database, data scientist juga harus memahami algorithm dan machine learning diantaranya: Decision Tree, K-Means, Neural Network, Linear Regression, Logistic Regression, FP-Growth, Association Rules dll  juga harus menguasai ilmu statistik  serta memahami  tools atau pemograman untuk statistik  seperti  SPSS, Stata, SAS, Pyhton ataupun R,  dari  ketiga tools atau bahasa pemograman tersebut cukup kita menguasai salah satunya saja misalkan menguasai bahasa pemograman R saja, terlepas dari kelebihan dan kekurangannya dengan  R  selain open source R juga merupakan bahasa pemograman yang dikhusukan untuk keperluan analysis statistik serta R juga dapat dihubungkan dengan Spark framework apabila kita akan mengeksplorasi Bigdata atau massive datasets.

Berbeda dengan Data Analysis yang hanya mengeksplorasi data yang terstruktur atau relational database dan semi terstruktur seorang data scientist juga harus mampu mengeksplorasi data yang tidak terstruktur seperti text, emoticon, image ataupun hal-hal yang berhubungan dengan media social seperti facebook, twitter dll, selain harus menguasai SQL seorang data scientist juga harus menguasai NoSQL nilai tambah apabila menguasai bahasa pemogaraman scala serta framework untuk mengeksplorasi Bigdata seperti MapReduce, Hadoop, Spark, Storm dll.

Memang banyak sekali yang harus dipelajari untuk menjadi seorang data scientist tetapi dengan kesabaran dan waktu serta pengalaman seseorang pasti bisa menjadi seorang data scientist apalagi kebutuhan lapangan pekerjaan yang sangat terbuka untuk seorang data scientist.

Berikut adalah cuplikan video mengenai data science yang saya ambil dari sumber lain untuk melengkapi tulisan mengenai Data Science dan Data Analysis ini di http://youtu.be/U8Q75_8Ed-8