Studi Kasus Penyakit Kanker tahun 1930 - 2000

          Studi Kasus Data Wei 5 kasus penyakit kanker tingkat kematian (per 100.000) untuk Pennsylvania antara tahun 1930 sampai 2000.
Tahapan permodelan data Wei 5 adalah sebagai berikut :
1.      Identifikasi
       Langkah awal adalah menentukan data training dan testing dimana jika testing diambil 10% dari data training yaitu dimulai pada data ke-65. Kemudian, dilakukan identifikasi statisioner dalam varians dan means. Untuk melakukan identifikasi statisioner dalam varians dilakukan transformasi box-cox adalah sebagai berikut.
Gambar 1. Box Cox Data Wei 5

Hasil output diatas diketahui bahwa nilai Rounded Value (lambda) sebesar 1, jadi disimpulkan bahwa data telah statisioner dalam varians. Kemudian, diidentifikasi statisioner dalam means yang dapat di lihat pada gambar time series plot. Berikut gambar hasil output  time series plot.
Gambar 2. Plot Times Serie
               Dari hasil diatas dapat diketahui bahwa data tidak stasioner dalam means disebabkan plotnya membentuk pola trend naik, sehingga pada data dilakukan difference dengan lag = 1. Maka, dilakukannya difference yang  diperoleh data baru yang nantinya dilakukan time series plot ulang. Hasil output identifikasi statisioner dalam means menggunakan data hasil difference sebagai berikut.
Gambar 3. Plot times series setelah difference
Berdasarkan hasil output diatas diketahui bahwa data telah statisioner dalam means karena plotnya telah konstan berada ditengah dan dapat ditarik garis secara lurus tepat di tengah.
 
2. Estimation 
               Menentukan model awal dengan ACF dan PACF yang dapat dilihat seperti Gambar di bawah ini. Untuk menentukan AR pada ARIMA maka menggunakan PACF sedangkan jika menentukan MA maka menggunakan ACF. Berikut Gambar 4. merupakan plot ACF.


Gambar 4. ACF

Berikut Gambar 5. merupakan plot PACF.
Gambar 5. PACF
    
Pada langkah estimation dilakukan 3 pengujian asumsi, yaitu: 

 - ARIMA (1, 1, 0)
1.1    White noise
Pada pengujian ini digunakan pengujian L-jung Box, dengan hipotesis sebagai berikut.
Hipotesis:
      H0 : Data telah white noise
      H1 : Data tidak white noise
Tingkat Signifikan: α= 5%
Hasil Output:
Modified Box-Pierce (Ljung-Box) Chi-Square statistic

Lag            12     24     36     48
Chi-Square    8,6   18,3   26,3   38,7
DF             10     22     34     46
P-Value     0,567  0,691  0,824  0,768

Dari output di atas maka dapat diputuskan bahwa semua nilai p-value > α sehingga gagal tolak H0 . Jadi dapat disimpulkan bahwa data telah white noise pada ARIMA (1, 1, 0).

1.2    Residual Normal
Pada pengujian ini digunakan hasil output pengujian residual kolmogorov smirnov (KS) ,dengan hipotesis sebagai berikut.
Hipotesis:
      H0 : Residual telah berdistribusi normal
      H1 : Residual tidak berdistribusi normal
Tingkat Signifikan: α= 5%·          

Gambar 4. Probability Plot Data Wei 5
   

1.3    Signifikansi parameter
Hipotesis:
     H0 : Parameter tidak signifikan terhadap model
     H1 : Parameter telah signifikan terhadap model
Tingkat Signifikan: α= 5%
Hasil Output
Final Estimates of Parameters

Type         Coef  SE Coef      T      P
AR   1    -0,2990   0,1243  -2,41  0,019
Constant   3,0948   0,3078  10,05  0,000

Dari hasil output diketahui nilai p-value pada AR1 dan constant sebesar 0,019 dan 0,000. Sehingga dapat diputuskan tolak H0 karena nilai p-value < α yang berarti bahwa parameter telah signifikan terhadap model.

4. Tes diagnostik

SS =  363,973 (backforecasts excluded)
MS =  5,967  DF = 61

            Pada tahap ini dapat diketahui nilai MSE sebesar 5,967 yang dapat dibandingkan dengan model ARIMA yang lain.

 5. Ramalan

Forecasts from period 64

95% Limits
Period  Forecast    Lower    Upper  Actual
    65   253,654  248,865  258,442
    66   255,716  249,868         261,564
    67   258,194  251,228  265,160
    68   260,548  252,680  268,415
    69   262,939  254,247  271,631
    70   265,318  255,878  274,759
    71   267,702  257,567  277,836

            Dari output di atas maka dapat diketahui bahwa ramalan (forecast) ke depan dimulai pada data ke-65.

·     -  ARIMA (0, 1, 1)
1.1    White noise
Pada pengujian ini digunakan pengujian L-jung Box, dengan hipotesis yaitu.
Hipotesis:
H0 : Data telah white noise
H1 : Data tidak white noise
Tingkat Signifikan: α= 5%
Hasil Output:
Modified Box-Pierce (Ljung-Box) Chi-Square statistic

Lag            12     24     36     48
Chi-Square    8,0   17,4   24,8   38,1
DF             10     22     34     46
P-Value     0,630  0,740  0,876  0,790

Dari output di atas maka dapat diputuskan bahwa semua nilai p-value > α sehingga gagal tolak H0 . Jadi dapat disimpulkan bahwa data telah white noise pada ARIMA (0, 1, 1).

1.2    Residual Normal
Pada pengujian ini digunakan hasil output pengujian residual kolmogorov smirnov,dengan hipotesis sebagai berikut.
Hipotesis:
H0 : Residual telah berdistribusi normal
H1 : Residual tidak berdistribusi normal
Tingkat Signifikan: α= 5%
Gambar 5. Plot Probabilitas
 Dari pengujian residual dengan menggunakan kolmogorov smirnov dapat diputuskan bahwa gagal tolak H0. Jadi dapat disimpulkan bahwa data telah berdistribusi normal.
 
1.3    Signifikansi parameter
Hipotesis:
H0 : Parameter tidak signifikan terhadap model
H1 : Parameter telah signifikan terhadap model
Tingkat Signifikan: α= 5%
Hasil Output
Final Estimates of Parameters

Type        Coef  SE Coef      T      P
MA   1    0,2872   0,1248   2,30  0,025
Constant  2,3811   0,2197  10,84  0,000

Dari hasil output diketahui nilai p-value pada MA1 dan constant yakni 0,025 dan 0,000. Sehingga dapat diputuskan tolak H0 karena nilai p-value < α yang berarti bahwa semua parameter telah signifikan terhadap model.

4.  Tes diagnostik

SS =  364,407 (backforecasts excluded)
MS =  5,974  DF = 61

            Pada tahap ini dapat diketahui nilai MSE sebesar 5,974 yang dapat dibandingkan dengan model ARIMA (1,1,0). Sehingga dapat disimpulkan bahwa kriteria kebaikan model yang terbaik adalah ARIMA (1,1,0) karena memiliki nilai MSE yang lebih kecil dibandingkan dengan ARIMA (0,1,1).

5.  Ramalan

Forecasts from period 64

95% Limits
Period  Forecast    Lower    Upper  Actual
     65   253,613  248,822     258,405
     66   255,994  250,110     261,879
     67   258,375  251,572     265,179
     68   260,757  253,144     268,370
     69   263,138  254,794     271,482
     70   265,519  256,503     274,535
     71   267,900  258,259     277,541

            Dari output di atas maka dapat diketahui bahwa ramalan (forecast) ke depan dimulai pada data ke-65.

Jadi model yang terpilih dengan kriteria nilai MSE terkecil pada model ARIMA (1, 1, 0).

1 komentar:

Dawud Tan mengatakan...

permisi mbak, saya pernah menulis tentang fungsi autocorrelation untuk penentuan pola data time series apakah musiman, tren, atau stationer, di artikel berikut: http://datacomlink.blogspot.com/2015/12/data-mining-identifikasi-pola-data-time.html yang ingin saya tanyakan, apakah ada teknik lain untuk mencari pola data time series selain fungsi autocorrelation ya mbak? terima kasih

Posting Komentar

TAB MENU

Diberdayakan oleh Blogger.

My MuSic (0_0)


Free Graduate 2011 Cursors at www.totallyfreecursors.com

Total Tayangan Halaman

mickeyyy