Kamis, 19 Januari 2017

CPU.arff

Reff:
http://slideplayer.info/slide/5253199/

%Relative CPU Performance Data. More information can be obtained in the UCI Machine
% Learning repository (http://www.ics.uci.edu/~mlearn/MLSummary.html).
% The used attributes are :
% MYCT: machine cycle time in nanoseconds (integer)
% MMIN: minimum main memory in kilobytes (integer)
% MMAX: maximum main memory in kilobytes (integer)
% CACH: cache memory in kilobytes (integer)
% CHMIN: minimum channels in units (integer)
% CHMAX: maximum channels in units (integer)
% PRP: published relative performance (integer) (target variable)
%

% Original source: UCI machine learning repository.
% Source: collection of regression datasets by Luis Torgo (ltorgo@ncc.up.pt) at
% http://www.ncc.up.pt/~ltorgo/Regression/DataSets.html
% Characteristics: 209 cases; 6 continuous variables

Rumus Performace dari Data CPU.xls Performance 

CPU = * MYCT * MMIN * MMAX * CACH * CHMIN * CHMAX 


simpan data sbb dalam ektensi .arff lalu jalankan WEKA dan mainkan .....

@relation 'cpu'
@attribute MYCT numeric
@attribute MMIN numeric
@attribute MMAX numeric
@attribute CACH numeric
@attribute CHMIN numeric
@attribute CHMAX numeric
@attribute class numeric
@data

125,256,6000,256,16,128,198
29,8000,32000,32,8,32,269
29,8000,32000,32,8,32,220
29,8000,32000,32,8,32,172
29,8000,16000,32,8,16,132
26,8000,32000,64,8,32,318
23,16000,32000,64,16,32,367
23,16000,32000,64,16,32,489
23,16000,64000,64,16,32,636
23,32000,64000,128,32,64,1144
400,1000,3000,0,1,2,38
400,512,3500,4,1,6,40
60,2000,8000,65,1,8,92
50,4000,16000,65,1,8,138
350,64,64,0,1,4,10
200,512,16000,0,4,32,35
167,524,2000,8,4,15,19
143,512,5000,0,7,32,28
143,1000,2000,0,5,16,31
110,5000,5000,142,8,64,120
143,1500,6300,0,5,32,30
143,3100,6200,0,5,20,33
143,2300,6200,0,6,64,61
110,3100,6200,0,6,64,76
320,128,6000,0,1,12,23
320,512,2000,4,1,3,69
320,256,6000,0,1,6,33
320,256,3000,4,1,3,27
320,512,5000,4,1,5,77
320,256,5000,4,1,6,27
25,1310,2620,131,12,24,274
25,1310,2620,131,12,24,368
50,2620,10480,30,12,24,32
50,2620,10480,30,12,24,63
56,5240,20970,30,12,24,106
64,5240,20970,30,12,24,208
50,500,2000,8,1,4,20
50,1000,4000,8,1,5,29
50,2000,8000,8,1,5,71
50,1000,4000,8,3,5,26
50,1000,8000,8,3,5,36
50,2000,16000,8,3,5,40
50,2000,16000,8,3,6,52
50,2000,16000,8,3,6,60
133,1000,12000,9,3,12,72
133,1000,8000,9,3,12,72
810,512,512,8,1,1,18
810,1000,5000,0,1,1,20
320,512,8000,4,1,5,40
200,512,8000,8,1,8,62
700,384,8000,0,1,1,24
700,256,2000,0,1,1,24
140,1000,16000,16,1,3,138
200,1000,8000,0,1,2,36
110,1000,4000,16,1,2,26
110,1000,12000,16,1,2,60
220,1000,8000,16,1,2,71
800,256,8000,0,1,4,12
800,256,8000,0,1,4,14
800,256,8000,0,1,4,20
800,256,8000,0,1,4,16
800,256,8000,0,1,4,22
125,512,1000,0,8,20,36
75,2000,8000,64,1,38,144
75,2000,16000,64,1,38,144
75,2000,16000,128,1,38,259
90,256,1000,0,3,10,17
105,256,2000,0,3,10,26
105,1000,4000,0,3,24,32
105,2000,4000,8,3,19,32
75,2000,8000,8,3,24,62
75,3000,8000,8,3,48,64
175,256,2000,0,3,24,22
300,768,3000,0,6,24,36
300,768,3000,6,6,24,44
300,768,12000,6,6,24,50
300,768,4500,0,1,24,45
300,384,12000,6,1,24,53
300,192,768,6,6,24,36
180,768,12000,6,1,31,84
330,1000,3000,0,2,4,16
300,1000,4000,8,3,64,38
300,1000,16000,8,2,112,38
330,1000,2000,0,1,2,16
330,1000,4000,0,3,6,22
140,2000,4000,0,3,6,29
140,2000,4000,0,4,8,40
140,2000,4000,8,1,20,35
140,2000,32000,32,1,20,134
140,2000,8000,32,1,54,66
140,2000,32000,32,1,54,141
140,2000,32000,32,1,54,189
140,2000,4000,8,1,20,22
57,4000,16000,1,6,12,132
57,4000,24000,64,12,16,237
26,16000,32000,64,16,24,465
26,16000,32000,64,8,24,465
26,8000,32000,0,8,24,277
26,8000,16000,0,8,16,185
480,96,512,0,1,1,6
203,1000,2000,0,1,5,24
115,512,6000,16,1,6,45
1100,512,1500,0,1,1,7
1100,768,2000,0,1,1,13
600,768,2000,0,1,1,16
400,2000,4000,0,1,1,32
400,4000,8000,0,1,1,32
900,1000,1000,0,1,2,11
900,512,1000,0,1,2,11
900,1000,4000,4,1,2,18
900,1000,4000,8,1,2,22
900,2000,4000,0,3,6,37
225,2000,4000,8,3,6,40
225,2000,4000,8,3,6,34
180,2000,8000,8,1,6,50
185,2000,16000,16,1,6,76
180,2000,16000,16,1,6,66
225,1000,4000,2,3,6,24
25,2000,12000,8,1,4,49
25,2000,12000,16,3,5,66
17,4000,16000,8,6,12,100
17,4000,16000,32,6,12,133
1500,768,1000,0,0,0,12
1500,768,2000,0,0,0,18
800,768,2000,0,0,0,20
50,2000,4000,0,3,6,27
50,2000,8000,8,3,6,45
50,2000,8000,8,1,6,56
50,2000,16000,24,1,6,70
50,2000,16000,24,1,6,80
50,8000,16000,48,1,10,136
100,1000,8000,0,2,6,16
100,1000,8000,24,2,6,26
100,1000,8000,24,3,6,32
50,2000,16000,12,3,16,45
50,2000,16000,24,6,16,54
50,2000,16000,24,6,16,65
150,512,4000,0,8,128,30
115,2000,8000,16,1,3,50
115,2000,4000,2,1,5,40
92,2000,8000,32,1,6,62
92,2000,8000,32,1,6,60
92,2000,8000,4,1,6,50
75,4000,16000,16,1,6,66
60,4000,16000,32,1,6,86
60,2000,16000,64,5,8,74
60,4000,16000,64,5,8,93
50,4000,16000,64,5,10,111
72,4000,16000,64,8,16,143
72,2000,8000,16,6,8,105
40,8000,16000,32,8,16,214
40,8000,32000,64,8,24,277
35,8000,32000,64,8,24,370
38,16000,32000,128,16,32,510
48,4000,24000,32,8,24,214
38,8000,32000,64,8,24,326
30,16000,32000,256,16,24,510
112,1000,1000,0,1,4,8
84,1000,2000,0,1,6,12
56,1000,4000,0,1,6,17
56,2000,6000,0,1,8,21
56,2000,8000,0,1,8,24
56,4000,8000,0,1,8,34
56,4000,12000,0,1,8,42
56,4000,16000,0,1,8,46
38,4000,8000,32,16,32,51
38,4000,8000,32,16,32,116
38,8000,16000,64,4,8,100
38,8000,24000,160,4,8,140
38,4000,16000,128,16,32,212
200,1000,2000,0,1,2,25
200,1000,4000,0,1,4,30
200,2000,8000,64,1,5,41
250,512,4000,0,1,7,25
250,512,4000,0,4,7,50
250,1000,16000,1,1,8,50
160,512,4000,2,1,5,30
160,512,2000,2,3,8,32
160,1000,4000,8,1,14,38
160,1000,8000,16,1,14,60
160,2000,8000,32,1,13,109
240,512,1000,8,1,3,6
240,512,2000,8,1,5,11
105,2000,4000,8,3,8,22
105,2000,6000,16,6,16,33
105,2000,8000,16,4,14,58
52,4000,16000,32,4,12,130
70,4000,12000,8,6,8,75
59,4000,12000,32,6,12,113
59,8000,16000,64,12,24,188
26,8000,24000,32,8,16,173
26,8000,32000,64,12,16,248
26,8000,32000,128,24,32,405
116,2000,8000,32,5,28,70
50,2000,32000,24,6,26,114
50,2000,32000,48,26,52,208
50,2000,32000,112,52,104,307
50,4000,32000,112,52,104,397
30,8000,64000,96,12,176,915
30,8000,64000,128,12,176,1150
180,262,4000,0,1,3,12
180,512,4000,0,1,3,14
180,262,4000,0,1,3,18
180,512,4000,0,1,3,21
124,1000,8000,0,1,8,42
98,1000,8000,32,2,8,46
125,2000,8000,0,2,14,52
480,512,8000,32,0,0,67
480,1000,4000,0,0,0,45



=== Run information ===

Scheme:       weka.classifiers.functions.LinearRegression -S 0 -R 1.0E-8 -num-decimal-places 4
Relation:     cpu
Instances:    209
Attributes:   7
              MYCT
              MMIN
              MMAX
              CACH
              CHMIN
              CHMAX
              class
Test mode:    evaluate on training data

=== Classifier model (full training set) ===


Linear Regression Model

class =

      0.0491 * MYCT +
      0.0152 * MMIN +
      0.0056 * MMAX +
      0.6298 * CACH +
      1.4599 * CHMAX +
    -56.075

Time taken to build model: 0.16 seconds

=== Evaluation on training set ===

Time taken to test model on training data: 0.01 seconds

=== Summary ===

Correlation coefficient                  0.93
Mean absolute error                     37.9748
Root mean squared error                 58.9899
Relative absolute error                 39.592  %
Root relative squared error             36.7663 %
Total Number of Instances              209  



Simple K-Means




Weka Pengujian

Gunakan data sbb:


@relation weather.symbolic

@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
rainy,mild,high,FALSE,yes
rainy,cool,normal,FALSE,yes
rainy,cool,normal,TRUE,no
overcast,cool,normal,TRUE,yes
sunny,mild,high,FALSE,no
sunny,cool,normal,FALSE,yes
rainy,mild,normal,FALSE,yes
sunny,mild,normal,TRUE,yes
overcast,mild,high,TRUE,yes
overcast,hot,normal,FALSE,yes
rainy,mild,high,TRUE,no



C45 atau J48 Analisa:
J48 pruned tree
------------------

outlook = sunny
|   humidity = high: no (3.0)
|   humidity = normal: yes (2.0)
outlook = overcast: yes (4.0)
outlook = rainy
|   windy = TRUE: no (2.0)
|   windy = FALSE: yes (3.0)

Number of Leaves  : 5

Size of the tree : 8


Time taken to build model: 0 seconds

=== Evaluation on training set ===

Time taken to test model on training data: 0 seconds

=== Summary ===

Correctly Classified Instances          14              100      %
Incorrectly Classified Instances         0                0      %
Kappa statistic                          1    
Mean absolute error                      0    
Root mean squared error                  0    
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances               14    

=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     yes
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     no
Weighted Avg.    1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000    

=== Confusion Matrix ===

 a b   <-- classified as
 9 0 | a = yes
 0 5 | b = no


Asosiasi Analisa :
Minimum support: 0.15 (2 instances)
Minimum metric <confidence>: 0.9
Number of cycles performed: 17

Generated sets of large itemsets:
Size of set of large itemsets L(1): 12
Size of set of large itemsets L(2): 47
Size of set of large itemsets L(3): 39
Size of set of large itemsets L(4): 6

Best rules found:

 1. outlook=overcast 4 ==> play=yes 4    <conf:(1)> lift:(1.56) lev:(0.1) [1] conv:(1.43)
 2. temperature=cool 4 ==> humidity=normal 4    <conf:(1)> lift:(2) lev:(0.14) [2] conv:(2)
 3. humidity=normal windy=FALSE 4 ==> play=yes 4    <conf:(1)> lift:(1.56) lev:(0.1) [1] conv:(1.43)
 4. outlook=sunny play=no 3 ==> humidity=high 3    <conf:(1)> lift:(2) lev:(0.11) [1] conv:(1.5)
 5. outlook=sunny humidity=high 3 ==> play=no 3    <conf:(1)> lift:(2.8) lev:(0.14) [1] conv:(1.93)
 6. outlook=rainy play=yes 3 ==> windy=FALSE 3    <conf:(1)> lift:(1.75) lev:(0.09) [1] conv:(1.29)
 7. outlook=rainy windy=FALSE 3 ==> play=yes 3    <conf:(1)> lift:(1.56) lev:(0.08) [1] conv:(1.07)
 8. temperature=cool play=yes 3 ==> humidity=normal 3    <conf:(1)> lift:(2) lev:(0.11) [1] conv:(1.5)
 9. outlook=sunny temperature=hot 2 ==> humidity=high 2    <conf:(1)> lift:(2) lev:(0.07) [1] conv:(1)
10. temperature=hot play=no 2 ==> outlook=sunny 2    <conf:(1)> lift:(2.8) lev:(0.09) [1] conv:(1.29)


Weka Love


Weka adalah kumpulan mesin belajar algoritma untuk tugas-tugas data mining.

Algoritma dapat diterapkan secara langsung ke dataset atau disebut dari kode Java Anda sendiri. Weka berisi alat untuk data pra-pengolahan, klasifikasi, regresi, clustering, aturan asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan skema pembelajaran mesin baru.

Weka adalah perangkat lunak open source yang dikeluarkan di bawah GNU General PublicLicense .
Introduction

Mesin algoritma pembelajaran berfungsi untuk mendorong aturan klasifikasi dari
Dataset contoh dan dengan demikian memperluas pengetahuan domain dan pemahaman.

WEKA adalah meja kerja untuk pembelajaran mesin yang dimaksudkan untuk membuat
penerapan teknik pembelajaran mesin lebih mudah dan intuitif untuk sebuah
berbagai masalah di dunia nyata.


Lingkungan target tidak hanya mesin belajar ahli tetapi juga spesialis domain. Itulah sebabnya interaktif modul untuk pengolahan data, data dan visualisasi model yang terlatih, database
koneksi dan cross-validasi disediakan.

Mereka pergi bersama dengan dasar fungsi yang perlu didukung dengan sistem pembelajaran mesin –
klasifikasi dan regresi memprediksi, clustering dan seleksi atribut.


Hal ini dikembangkan di University of Waikato, Selandia Baru.
Beberapa definisi dasar pembelajaran mesin, yang digunakan adalah sebagai berikut:

• Contoh-contoh adalah objek dari ruang dimensi tetap.
• Setiap dimensi sesuai dengan atribut apa yang disebut objek.
• Paling sering atribut bisa jadi nominal (enumerasi) atau numerik (Bilangan real) atau string.
• Satu atribut khusus adalah atribut kelas, yang menentukan alat-alat dari contoh untuk kelompok tertentu contoh.
• Dataset adalah satu set contoh.
• Pelatihan set adalah satu set yang digunakan untuk membangun classifier, yang merupakan
proses belajar sesuatu dari contoh untuk memprediksi atribut kelas yang baru.
• Uji set adalah satu set yang digunakan untuk evaluasi sebuah classifier.

Weka(Wakaito Environment for Knowledge Analysis) adalah aplikasi Data Mining Open Source berbasis Java.

Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi/formulasi dari sekumpulan data sampling.

Algoritma ini bisa diterapkan secara langsung kedalam data set atau bisa juga dipanggil dari kode java kita sendiri. Weka memiliki tools untuk data re-processing, classification, regression, clustering, association rules, dan visualization.

Weka mengorganisasi kelas-kelas kedalam paket-paket dan setiap kelas dipaket dapat mereferensi kelas lain dipaket lain.

Paket classifiers berisi implementasi dari hamper semua algoritma untuk klarifikasi dan prediksi. Kelas yang paling penting disini adalah Classifier, yang mendeklarasikan struktur umun dari skema klasifikasi dan prediksi.

Kelas ini memiliki 2 metoda, yaitu build Classifier dan classify Instance, yang harus diimplementasikan oleh kelas-kelas yang menginduk kekelas ini.

Semua kelas yang mengimplementasikan algoritma klasifikasi menginduk pada kelas Classifier, termasuk kelas J48.

J48, yang menangani himpunan data dalam format ARFF, tidak mengandung kode untuk mengkonstruksi pohon keputusan.

Kelas ini mereferensi kelas-kelas lain, kebanyakan di paket Weka. Classifiers J48, yang mengerjakan semua prosses konstruksi pohon.


Pada Weka ada beberapa metode pemilihan variable dari suatu dataset, diantaranya BestFirst, ExhautiveSearch, FCBFSearch, GeneticSearch, GreedyStepwise, RaceSearch, RandomSearch, Ranker dan,RankerSearch.

Metode atau Teknik yang digunakan Weka adalah Predictive dan Descriptive

Karena Weka mendukung teknik-teknik data preprocessing, clustering, classification, regression, visualization, and feature selection.

Semua teknik Weka adalah didasarkan pada asumsi bahwa data tersedia sebagai flat file tungggal atau hubungan, dimana setiap titik data digambarkan oleh sejumlah tetap atribut(biasanya, atribut numeric atau nominal, tetapi beberapa jenis atribut lain juga didukung).


Algoritma yang digunakan adalah :
1. J48, atau cloning versi open source dari algoritma yang digunakan untuk pembentukkan keputusan.
2. Liniar Regression, algoritma untuk menghasilkan formulasi numeric dengan metode statistic regresi linear.
3. Naïve Bayes


Weka menerima input data dalam format ARFF(Attribute Relation File Format). Jika menggunakan format file seperti CSV(Comma Separated Values) atau BSI(Binary Serialized Instances) maka kita harus mengkonversi file tersebut mmenjadi format ARFF,

begitu juga ketika kita menggunakan format Java kita harus mengubah menjadi format ARFF terlebih dahulu. Format ARFF adalah tipe file teks yang berisi berbagai instance. Data yang berhubungan dengan suatu set atribut data yang dideskripsikan juga dalam file tersebut.

Cara mengkonversi data SCV menjadi ARFF, pertama buka WekaGul, Pilih menu Explorer, kita akan diarahkan menuju Weka Explorer lalu pilih Open File, dan Pilih Use Converter, maka data kita akan diconvert menjadi format ARFF.


Reff:
http://singgihajipangestu.ilearning.me/2013/09/30/mengeksplorasi-data-mining-software/
http://itmbali.blogspot.co.id/2012/10/decision-tree-menggunakan-weka.html
http://facweb.cs.depaul.edu/mobasher/



Weka IS


Download :
http://www.cs.waikato.ac.nz/ml/weka/downloading.html

http://facweb.cs.depaul.edu/mobasher/


Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.











Test Awal:
ketik data sebagai berikut lalu simpan dengan extensi .arff

@relation PlayTennis  

@attribute day numeric
@attribute outlook {Sunny, Overcast, Rain} 
@attribute temperature {Hot, Mild, Cool} 
@attribute humidity {High, Normal}
@attribute wind {Weak, Strong} 
@attribute playTennis {Yes, No}  

@data  
1,Sunny,Hot,High,Weak,No,? 
2,Sunny,Hot,High,Strong,No,?
3,Overcast,Hot,High,Weak,Yes,? 
4,Rain,Mild,High,Weak,Yes,? 
5,Rain,Cool,Normal,Weak,Yes,? 
6,Rain,Cool,Normal,Strong,No,?
7,Overcast,Cool,Normal,Strong,Yes,?
8,Sunny,Mild,High,Weak,No,?
9,Sunny,Cool,Normal,Weak,Yes,?
10,Rain,Mild,Normal,Weak,Yes,? 
11,Sunny,Mild,Normal,Strong,Yes,? 
12,Overcast,Mild,High,Strong,Yes,? 
13,Overcast,Hot,Normal,Weak,Yes,? 
14,Rain,Mild,High,Strong,No,?


Buka Weka 



Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi : 

  1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 
  2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema belajar 
  3. Knowledge Flow digunakan untuk pengetahuan pendukung 
  4. Aplikasi Pengujian
  5. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung
Kita.....Klik Workbench


Pada bagian atas window workbanch, tepatnya pada bawah judul bar. Terdapat deretan data, seperti Prepocess,Classify,Cluster,Associate,Select Attributes Visualize. Namun yang aktif hanya Prepocess ini dikarenakan sebelum menggunakan algoritma diatas pastikan sudah melakukan set file yang akan dieksekusi .





Kita ....klik Choose : pilih file .arff yang kita ketik di atas atau bisa juga menggunakan extensi file .csv (Command Separated Values).

Lalu Pilih classify......arahkan ke J48 atau C45 lalu start....















Algoritma yang akan digunakan adalah J48. Perbedaan ID3, C4.5 dan J48 sebagai berikut ini:

ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. 
ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3.
Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. 
Bisa dilihat, bahwa atribut “patron” membagi 3, dimana hasil pembagiannya cukup ideal. 

Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau merah saja. Memang, untuk cabang “full” tidak satu warna (hijau saja atau merah saja). Tapi, pemilihan atribut pohon jelas lebih baik daripada atribut type.

Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakanlah teori informasi. 

Pada WEKA, ada pilihan untuk menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus bertipe nominal, dan tidak boleh ada yang kosong

Sedangkan, C4.5 merupakan pengembangan dari ID3. Beberapa perbedaannya antara lain :
1. Mampu  menangani atribut dengan tipe diskrit atau kontinu.
2. Mampu  menangani atribut yang kosong (missing value)
3. Bisa memangkas cabang.

Dan J48 merupakan implementasi C4.5 di WEKA.

Untuk visualisasi silakan pilih menu visualiasi

dan hasilnya:


Ketika kita ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan. Berikut penjelasan mengenai masing-masing option.
1. Use training set
Pengetesan dilakukan dengan menggunakan data training itu sendiri.

2. Supplied test set
Pengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data tes.

3. Cross-validation
Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Default-nya adalah 10. 

Mekanisme-nya adalah sebagai berikut:
Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali.
Kemudian, error dari k tes tersebut akan dihitung rata-ratanya.

4. Percentage split
Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k =masukan dari user.


Contoh kalkulasi untuk classificator Wind di atas:
Ada 8 instance dengan value : Weak. Jika Wind bernilai Weak maka ada 6x keputusan untuk Play dan 3x keputusan untuk not Play. [6+, 2-]. Jika strong wind (6 instances), keputusan to play 3x dan not to play 3x juga. Maka information gain attribute wind adalah 0.48.

Information gain dari semua attibut adalah :
Gain(S, Outlook) = 0.246
Gain(S, Humidity) = 0.151
Gain(S, Wind) = 0.048
Gain(S, Temperature) = 0.029


Instances:    14
Attributes:   6
              day
              outlook
              temperature
              humidity
              wind
              playTennis

=== Classifier model (full training set) ===

J48 pruned tree/C-45
------------------

outlook = Sunny
|   humidity = High: No (3.0)
|   humidity = Normal: Yes (2.0)
outlook = Overcast: Yes (4.0)
outlook = Rain
|   wind = Weak: Yes (3.0)
|   wind = Strong: No (2.0)

Number of Leaves  :  5

Size of the tree :  8



Time taken to test model on training data: 0 seconds

=== Summary ===

Correctly Classified Instances          14              100      %
Incorrectly Classified Instances         0                0      %
Kappa statistic                          1     
Mean absolute error                      0     
Root mean squared error                  0     
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances               14     

=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     Yes
                 1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     No
Weighted Avg.    1.000    0.000    1.000      1.000    1.000      1.000    1.000     1.000     

=== Confusion Matrix ===

 a b   <-- classified as
 9 0 | a = Yes
 0 5 | b = No


COntoh lain misalkan dikethui data transaksi sbb:
A01 dst adalah data pelanggan....bacalah prediksi kesukaan pelanggan:


Analisa pakai J48

Hasilnya:

Bahwa dari decision tree tersebut maka root node pada pink 
menunjukkan cabang sebelah kiri untuk False dengan harga 15000-20000, 
dimana yang true dengan harga tersebut adalah kode pelanggan dengan A05 sebanyak 4 
dan false dengan kode pelanggan A01 sebanyak 6.
Sedangkan disebelah kanan menunjukkan True dengan warna node selanjutnya putih dimana disebelah kiri 
dengan node warna merah yang disebelah kiri menunjukkan True untuk kode pelanggan A04 sebanyak 2, 
dan sebelah kanan menunjukkan False dengan kode pelanggan A03 sebanyak 3. 
Artinya bahwa pelanggan lebih menyukai warna pink kemudian diikuti warna putih 
selanjutnya diikuti dengan warna merah dimana tidak dengan harga 15000-20000 per pakaian.




Selanjutya simpan hasil analisa di atas:
caranya klik kanan pilih VISUALIZ CLASSIFIER ERROR


lalu simpan dan untuk membukanya klik Tools ARff Viewer


Hmm.....Mudah ya......
Selamat mencoba......