R console

> library('openxlsx')
> library('C50')
> library('reshape2')
> 
> #import data set
> dataCreditRating <- read.xlsx(xlsxFile = 'https://storage.googleapis.com/dqlab-dataset/credit_scoring_dqlab.xlsx')
Warning message:
In download.file(url = xlsxFile, destfile = tmpFile, cacheOK = FALSE,  :
  the 'wininet' method is deprecated for http:// and https:// URLs
> str(dataCreditRating)
'data.frame':	900 obs. of  7 variables:
 $ kode_kontrak           : chr  "AGR-000001" "AGR-000011" "AGR-000030" "AGR-000043" ...
 $ pendapatan_setahun_juta: num  295 271 159 210 165 220 70 88 163 100 ...
 $ kpr_aktif              : chr  "YA" "YA" "TIDAK" "YA" ...
 $ durasi_pinjaman_bulan  : num  48 36 12 12 36 24 36 48 48 36 ...
 $ jumlah_tanggungan      : num  5 5 0 3 0 5 3 3 5 6 ...
 $ rata_rata_overdue      : chr  "61 - 90 days" "61 - 90 days" "0 - 30 days" "46 - 60 days" ...
 $ risk_rating            : num  4 4 1 3 2 1 2 2 2 2 ...
> 
> 
> #dataCreditRating$risk_rating[dataCreditRating$risk_rating == '1'] <- 'satu'
> #dataCreditRating$risk_rating[dataCreditRating$risk_rating == '2'] <- 'dua'
> #dataCreditRating$risk_rating[dataCreditRating$risk_rating == '3'] <- 'tiga'
> #dataCreditRating$risk_rating[dataCreditRating$risk_rating == '4'] <- 'empat'
> #dataCreditRating$risk_rating[dataCreditRating$risk_rating == '5'] <- 'lima'
> 
> 
> 
> #Convert the risk_rating column in a factor
> dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating)
> str(dataCreditRating)
'data.frame':	900 obs. of  7 variables:
 $ kode_kontrak           : chr  "AGR-000001" "AGR-000011" "AGR-000030" "AGR-000043" ...
 $ pendapatan_setahun_juta: num  295 271 159 210 165 220 70 88 163 100 ...
 $ kpr_aktif              : chr  "YA" "YA" "TIDAK" "YA" ...
 $ durasi_pinjaman_bulan  : num  48 36 12 12 36 24 36 48 48 36 ...
 $ jumlah_tanggungan      : num  5 5 0 3 0 5 3 3 5 6 ...
 $ rata_rata_overdue      : chr  "61 - 90 days" "61 - 90 days" "0 - 30 days" "46 - 60 days" ...
 $ risk_rating            : Factor w/ 5 levels "1","2","3","4",..: 4 4 1 3 2 1 2 2 2 2 ...
> 
> #Remove some input variables from the dataset
> #drop_column <- c('pendapatan_setahun_juta','kpr_aktif','rata_rata_overdue','risk_rating')
> #datafeed <- dataCreditRating[,!names(dataCreditRating) %in% drop_column]
> #str(datafeed)
> input_columns <- c('jumlah_tanggungan','durasi_pinjaman_bulan')
> datafeed <- dataCreditRating[, input_columns]
> str(datafeed)
'data.frame':	900 obs. of  2 variables:
 $ jumlah_tanggungan    : num  5 5 0 3 0 5 3 3 5 6 ...
 $ durasi_pinjaman_bulan: num  48 36 12 12 36 24 36 48 48 36 ...
> 
> #Prepare random index portions for training and testing set
> set.seed(100)
> indeks_training_set <- sample(900,800) #90:10
> 
> input_training_set <- datafeed[indeks_training_set,]
> input_testing_set <- datafeed[-indeks_training_set,]
> class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
> 
> 
> #Build a model decision tree for classification risk rating
> risk_rating_model <- C5.0(input_training_set, class_training_set, control=C5.0Control(label='Risk Rating'))
> summary(risk_rating_model)

Call:
C5.0.default(x = input_training_set, y = class_training_set, control = C5.0Control(label = "Risk Rating"))


C5.0 [Release 2.07 GPL Edition]  	Fri Apr  7 16:46:23 2023
-------------------------------

Class specified by attribute `Risk Rating'

Read 800 cases (3 attributes) from undefined.data

Decision tree:

jumlah_tanggungan > 4:
:...durasi_pinjaman_bulan <= 24: 4 (105/30)
:   durasi_pinjaman_bulan > 24: 5 (120/51)
jumlah_tanggungan <= 4:
:...jumlah_tanggungan > 2: 3 (216/20)
    jumlah_tanggungan <= 2:
    :...durasi_pinjaman_bulan <= 36: 1 (264/80)
        durasi_pinjaman_bulan > 36:
        :...jumlah_tanggungan <= 0: 2 (37/7)
            jumlah_tanggungan > 0: 3 (58/4)


Evaluation on training data (800 cases):

	    Decision Tree   
	  ----------------  
	  Size      Errors  

	     6  192(24.0%)   <<


	   (a)   (b)   (c)   (d)   (e)    <-classified as
	  ----  ----  ----  ----  ----
	   184     2     5     6     6    (a): class 1
	    80    30    19     6    11    (b): class 2
	           3   250                (c): class 3
	           2          75    34    (d): class 4
	                      18    69    (e): class 5


	Attribute usage:

	100.00%	jumlah_tanggungan
	 73.00%	durasi_pinjaman_bulan


Time: 0.0 secs

> plot(risk_rating_model)
> 
> #using the model for prediction testing
> predict(risk_rating_model,input_testing_set)
  [1] 1 1 3 3 5 5 1 1 1 3 1 2 1 1 3 3 1 3 3 3 3 3 1 5 1 1 3 1 3 5 1 1 2 1 5 1 1 5 3 3 3 3 4 3 3 1 3 5 2 3 2 5 3 5 1 5
 [57] 4 5 3 4 1 3 4 4 3 5 5 5 3 1 1 1 1 3 5 1 4 5 3 1 3 3 3 3 3 1 3 3 5 4 5 3 3 3 1 1 5 5 3 3
Levels: 1 2 3 4 5
> 
> #comparison of the actual and prediction data for risk rating
> comparison_data <- input_testing_set
> comparison_data$actual_risk_rating <- dataCreditRating[-indeks_training_set,]$risk_rating
> comparison_data$prediction_results <- predict(risk_rating_model,input_testing_set)
> comparison_data
    jumlah_tanggungan durasi_pinjaman_bulan actual_risk_rating prediction_results
3                   0                    12                  1                  1
5                   0                    36                  2                  1
8                   3                    48                  2                  3
40                  3                    36                  2                  3
41                  6                    48                  2                  5
44                  5                    48                  2                  5
58                  0                    12                  1                  1
70                  0                    12                  1                  1
109                 0                    12                  1                  1
110                 4                    12                  3                  3
122                 0                    12                  1                  1
151                 0                    48                  2                  2
179                 1                    36                  1                  1
180                 1                    36                  2                  1
182                 4                    24                  3                  3
195                 3                    48                  3                  3
200                 0                    24                  1                  1
217                 4                    12                  3                  3
230                 2                    48                  3                  3
231                 3                    12                  3                  3
234                 3                    24                  3                  3
236                 4                    24                  3                  3
238                 0                    24                  1                  1
245                 5                    36                  4                  5
252                 0                    24                  1                  1
253                 0                    24                  1                  1
260                 1                    48                  3                  3
265                 0                    36                  2                  1
275                 3                    12                  3                  3
279                 6                    36                  5                  5
285                 1                    36                  1                  1
295                 0                    24                  1                  1
317                 0                    48                  2                  2
343                 0                    24                  1                  1
350                 6                    48                  5                  5
352                 1                    12                  1                  1
356                 2                    36                  2                  1
369                 6                    48                  5                  5
373                 3                    48                  3                  3
375                 2                    48                  3                  3
384                 3                    24                  3                  3
388                 3                    36                  3                  3
399                 6                    24                  4                  4
419                 3                    48                  3                  3
433                 4                    24                  3                  3
437                 1                    36                  1                  1
446                 3                    24                  3                  3
455                 5                    48                  5                  5
493                 0                    48                  2                  2
496                 3                    12                  3                  3
501                 0                    48                  3                  2
521                 5                    48                  4                  5
524                 2                    48                  3                  3
527                 5                    36                  5                  5
534                 1                    36                  1                  1
536                 6                    48                  5                  5
544                 5                    12                  4                  4
548                 6                    48                  5                  5
561                 3                    12                  3                  3
565                 6                    12                  4                  4
574                 1                    24                  1                  1
577                 2                    48                  3                  3
587                 6                    12                  4                  4
594                 6                    12                  4                  4
612                 4                    24                  3                  3
616                 6                    48                  5                  5
621                 5                    36                  5                  5
632                 6                    48                  5                  5
641                 4                    36                  3                  3
645                 2                    12                  2                  1
657                 2                    12                  1                  1
675                 2                    12                  1                  1
687                 2                    12                  1                  1
697                 4                    36                  3                  3
704                 6                    48                  5                  5
707                 2                    12                  1                  1
716                 5                    12                  4                  4
721                 5                    36                  5                  5
729                 1                    48                  3                  3
737                 2                    12                  1                  1
743                 3                    36                  3                  3
748                 1                    48                  3                  3
749                 4                    36                  3                  3
786                 1                    48                  3                  3
799                 3                    12                  3                  3
801                 2                    24                  1                  1
806                 4                    24                  3                  3
814                 3                    36                  3                  3
825                 6                    36                  5                  5
831                 6                    24                  4                  4
861                 5                    48                  5                  5
863                 3                    12                  3                  3
869                 3                    48                  3                  3
870                 3                    48                  3                  3
872                 2                    24                  1                  1
880                 1                    36                  2                  1
888                 5                    48                  5                  5
890                 5                    48                  5                  5
893                 3                    48                  3                  3
897                 2                    48                  3                  3
> 
> #make confusion matrix for the testing data set
> dcast(prediction_results~actual_risk_rating, data=comparison_data)
Using prediction_results as value column: use value.var to override.
Aggregation function missing: defaulting to length
  prediction_results  1 2  3 4  5
1                  1 24 6  0 0  0
2                  2  0 3  1 0  0
3                  3  0 2 37 0  0
4                  4  0 0  0 7  0
5                  5  0 2  0 2 16
> 
> #calculating the number of correct prediction
> nrow(comparison_data[comparison_data$actual_risk_rating==comparison_data$prediction_results,])
[1] 87
> #calculating the number of wrong prediction
> nrow(comparison_data[comparison_data$actual_risk_rating!=comparison_data$prediction_results,])
[1] 13
> 
> #if we have the new data and want to predict the new risk rating for the data
> new_data <- data.frame(jumlah_tanggungan=c(3,2,1,4,5), durasi_pinjaman_bulan=c(24,12,28,24,36))
> new_data$prediction_risk_rating <- predict(risk_rating_model,new_data)
> new_data
  jumlah_tanggungan durasi_pinjaman_bulan prediction_risk_rating
1                 3                    24                      3
2                 2                    12                      1
3                 1                    28                      1
4                 4                    24                      3
5                 5                    36                      5
>