library(tidyverse) # Data manipulation
library(mice)      # Imputation
library(caret)     # Model training & RFE

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

Rows: 10,175
Columns: 5
$ SEQN     <int> 73557, 73558, 73559, 73560, 73561, 73562, 73563, 73564, 73565…
$ SDDSRVYR <int> 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8…
$ RIDSTATR <int> 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2…
$ RIAGENDR <int> 1, 1, 1, 1, 2, 1, 1, 2, 1, 2, 1, 2, 2, 2, 1, 2, 1, 2, 1, 1, 1…
$ RIDAGEYR <int> 69, 54, 72, 9, 73, 56, 0, 61, 42, 56, 65, 26, 0, 9, 76, 10, 1…

Rows: 9,813
Columns: 5
$ SEQN     <int> 73557, 73558, 73559, 73560, 73561, 73562, 73563, 73564, 73566…
$ WTDRD1   <dbl> 16888.328, 17932.144, 59641.813, 142203.070, 59052.357, 49890…
$ WTDR2D   <dbl> 12930.89, 12684.15, 39394.24, 125966.37, 39004.89, 0.00, 4073…
$ DR1DRSTZ <int> 1, 1, 1, 1, 1, 1, 4, 1, 1, 1, 1, 1, 1, 1, 5, 1, 1, 1, 1, 1, 1…
$ DR1EXMER <int> 49, 59, 49, 54, 63, 49, 54, 54, 49, 61, 87, 22, 25, 61, NA, 4…

Rows: 9,813
Columns: 5
$ SEQN     <int> 73557, 73558, 73559, 73560, 73561, 73562, 73563, 73564, 73566…
$ PEASCST1 <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
$ PEASCTM1 <int> 620, 766, 665, 803, 949, 1064, 90, 954, 625, 932, 585, 710, 1…
$ PEASCCT1 <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N…
$ BPXCHR   <int> NA, NA, NA, NA, NA, NA, 152, NA, NA, NA, NA, NA, NA, NA, NA, …

Rows: 9,813
Columns: 5
$ SEQN     <int> 73557, 73558, 73559, 73560, 73561, 73562, 73563, 73564, 73566…
$ URXUMA   <dbl> 4.3, 153.0, 11.9, 16.0, 255.0, 123.0, NA, 19.0, 1.3, 35.0, 25…
$ URXUMS   <dbl> 4.3, 153.0, 11.9, 16.0, 255.0, 123.0, NA, 19.0, 1.3, 35.0, 25…
$ URXUCR.x <int> 39, 50, 113, 76, 147, 74, NA, 242, 18, 215, 31, 116, 177, 144…
$ URXCRS   <dbl> 3447.6, 4420.0, 9989.2, 6718.4, 12994.8, 6541.6, NA, 21392.8,…

Rows: 20,194
Columns: 5
$ SEQN     <int> 73557, 73557, 73558, 73558, 73558, 73558, 73559, 73559, 73559…
$ RXDUSE   <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1…
$ RXDDRUG  <chr> "99999", "INSULIN", "GABAPENTIN", "INSULIN GLARGINE", "OLMESA…
$ RXDDRGID <chr> "", "d00262", "d03182", "d04538", "d04801", "d00746", "d04697…
$ RXQSEEN  <int> NA, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, NA, 1, 1, 1, 1, 2, 2, 2, 2,…

Rows: 10,175
Columns: 5
$ SEQN    <int> 73557, 73558, 73559, 73560, 73561, 73562, 73563, 73564, 73565,…
$ ACD011A <int> 1, 1, 1, 1, 1, NA, NA, 1, NA, 1, 1, 1, NA, 1, 1, 1, 1, NA, NA,…
$ ACD011B <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ACD011C <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA…
$ ACD040  <int> NA, NA, NA, NA, NA, 4, NA, NA, 5, NA, NA, NA, NA, NA, NA, NA, …

       id            gender      education        time_in_us    
 Min.   :73557   Min.   :1.0   Min.   : 0.000   Min.   : 1.000  
 1st Qu.:76100   1st Qu.:1.0   1st Qu.: 2.000   1st Qu.: 4.000  
 Median :78644   Median :1.0   Median : 5.000   Median : 5.000  
 Mean   :78644   Mean   :1.5   Mean   : 6.162   Mean   : 8.838  
 3rd Qu.:81188   3rd Qu.:2.0   3rd Qu.: 9.000   3rd Qu.: 7.000  
 Max.   :83731   Max.   :2.0   Max.   :99.000   Max.   :99.000  
                               NA's   :7372     NA's   :8267    
 householdincome      age             race           race2          water      
 Min.   : 1.00   Min.   : 0.00   Min.   :1.000   Min.   :1.00   Min.   :1.000  
 1st Qu.: 5.00   1st Qu.:10.00   1st Qu.:2.000   1st Qu.:2.00   1st Qu.:3.000  
 Median : 7.00   Median :26.00   Median :3.000   Median :3.00   Median :5.000  
 Mean   :10.51   Mean   :31.48   Mean   :3.092   Mean   :3.29   Mean   :4.501  
 3rd Qu.:14.00   3rd Qu.:52.00   3rd Qu.:4.000   3rd Qu.:4.00   3rd Qu.:6.000  
 Max.   :99.00   Max.   :80.00   Max.   :5.000   Max.   :7.00   Max.   :7.000  
 NA's   :123                                                    NA's   :1392   
    caffiene           niacin           protein           diabp       
 Min.   :   0.00   Min.   :  0.215   Min.   :  0.00   Min.   :  0.00  
 1st Qu.:   0.00   1st Qu.: 13.583   1st Qu.: 45.78   1st Qu.: 58.00  
 Median :  25.00   Median : 20.196   Median : 66.05   Median : 66.00  
 Mean   :  93.34   Mean   : 23.509   Mean   : 74.54   Mean   : 65.77  
 3rd Qu.: 130.00   3rd Qu.: 29.152   3rd Qu.: 93.86   3rd Qu.: 76.00  
 Max.   :2448.00   Max.   :379.852   Max.   :869.49   Max.   :122.00  
 NA's   :1644      NA's   :1644      NA's   :1644     NA's   :3003    
     sysbp         creatinine      urinecreatinine      uacr        
 Min.   : 66.0   Min.   :  25.64   Min.   :  8.0   Min.   :   0.21  
 1st Qu.:106.0   1st Qu.:  61.00   1st Qu.: 65.0   1st Qu.:   5.02  
 Median :116.0   Median :  72.49   Median :112.0   Median :   7.78  
 Mean   :118.1   Mean   :  77.81   Mean   :127.6   Mean   :  41.91  
 3rd Qu.:128.0   3rd Qu.:  86.63   3rd Qu.:171.0   3rd Qu.:  15.29  
 Max.   :228.0   Max.   :1539.04   Max.   :659.0   Max.   :9000.00  
 NA's   :3003    NA's   :3622      NA's   :7485    NA's   :2123     
    albumin        bloodnitro        stones       failingkidney  
 Min.   :24.00   Min.   : 1.00   Min.   :  0.00   Min.   :1.000  
 1st Qu.:41.00   1st Qu.: 9.00   1st Qu.:  1.00   1st Qu.:2.000  
 Median :43.00   Median :12.00   Median :  1.00   Median :2.000  
 Mean   :42.82   Mean   :12.86   Mean   : 29.84   Mean   :1.977  
 3rd Qu.:45.00   3rd Qu.:15.00   3rd Qu.:  2.00   3rd Qu.:2.000  
 Max.   :56.00   Max.   :95.00   Max.   :999.00   Max.   :9.000  
 NA's   :3622    NA's   :3622    NA's   :9640     NA's   :4406   
 stonesboolean  
 Min.   :1.000  
 1st Qu.:2.000  
 Median :2.000  
 Mean   :1.921  
 3rd Qu.:2.000  
 Max.   :9.000  
 NA's   :4406

 iter imp variable
  1   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  1   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  1   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  1   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  1   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  2   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  2   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  2   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  2   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  2   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  3   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  3   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  3   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  3   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  3   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  4   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  4   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  4   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  4   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  4   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  5   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  5   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  5   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  5   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  5   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  6   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  6   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  6   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  6   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  6   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  7   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  7   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  7   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  7   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  7   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  8   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  8   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  8   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  8   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  8   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  9   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  9   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  9   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  9   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  9   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  10   1  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  10   2  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  10   3  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  10   4  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney
  10   5  creatinine  urinecreatinine  uacr  bloodnitro  failingkidney

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  25.64   61.00   72.49   77.81   86.63 1539.04    3622

       id            gender      time_in_us     householdincome      age       
 Min.   :73557   Min.   :1.0   Min.   :0.0000   Min.   : 1.00   Min.   : 0.00  
 1st Qu.:76100   1st Qu.:1.0   1st Qu.:0.0000   1st Qu.: 5.00   1st Qu.:10.00  
 Median :78644   Median :1.0   Median :0.0000   Median : 7.00   Median :26.00  
 Mean   :78644   Mean   :1.5   Mean   :0.1875   Mean   :10.48   Mean   :31.48  
 3rd Qu.:81188   3rd Qu.:2.0   3rd Qu.:0.0000   3rd Qu.:14.00   3rd Qu.:52.00  
 Max.   :83731   Max.   :2.0   Max.   :1.0000   Max.   :99.00   Max.   :80.00  
      race           race2          water          caffiene     
 Min.   :1.000   Min.   :1.00   Min.   :1.000   Min.   :   0.0  
 1st Qu.:2.000   1st Qu.:2.00   1st Qu.:3.000   1st Qu.:   2.0  
 Median :3.000   Median :3.00   Median :6.000   Median :  25.0  
 Mean   :3.092   Mean   :3.29   Mean   :4.706   Mean   :  82.3  
 3rd Qu.:4.000   3rd Qu.:4.00   3rd Qu.:6.000   3rd Qu.: 102.0  
 Max.   :5.000   Max.   :7.00   Max.   :7.000   Max.   :2448.0  
     niacin           protein           diabp            sysbp      
 Min.   :  0.215   Min.   :  0.00   Min.   :  0.00   Min.   : 66.0  
 1st Qu.: 14.829   1st Qu.: 49.63   1st Qu.: 62.00   1st Qu.:110.0  
 Median : 20.196   Median : 66.05   Median : 66.00   Median :116.0  
 Mean   : 22.974   Mean   : 73.17   Mean   : 65.84   Mean   :117.5  
 3rd Qu.: 26.979   3rd Qu.: 87.37   3rd Qu.: 72.00   3rd Qu.:122.0  
 Max.   :379.852   Max.   :869.49   Max.   :122.00   Max.   :228.0  
   creatinine      urinecreatinine      uacr            albumin     
 Min.   :  25.64   Min.   :  8.0   Min.   :   0.21   Min.   :24.00  
 1st Qu.:  59.23   1st Qu.: 68.0   1st Qu.:   5.00   1st Qu.:42.00  
 Median :  70.72   Median :117.0   Median :   7.78   Median :43.00  
 Mean   :  74.75   Mean   :131.9   Mean   :  42.15   Mean   :42.88  
 3rd Qu.:  83.98   3rd Qu.:177.0   3rd Qu.:  15.17   3rd Qu.:44.00  
 Max.   :1539.04   Max.   :659.0   Max.   :9000.00   Max.   :56.00  
   bloodnitro    failingkidney   stonesboolean  
 Min.   : 1.00   Min.   :1.000   Min.   :1.000  
 1st Qu.: 8.00   1st Qu.:2.000   1st Qu.:2.000  
 Median :11.00   Median :2.000   Median :2.000  
 Mean   :11.77   Mean   :1.974   Mean   :1.921  
 3rd Qu.:14.00   3rd Qu.:2.000   3rd Qu.:2.000  
 Max.   :95.00   Max.   :2.000   Max.   :9.000

Loading required package: lattice


Attaching package: ‘caret’


The following object is masked from ‘package:purrr’:

    lift


The following object is masked from ‘package:httr’:

    progress

                      gender   time_in_us householdincome          age
gender           1.000000000 -0.070957298    -0.046330235 -0.082621030
time_in_us      -0.070957298  1.000000000     0.070156206  0.250952173
householdincome -0.046330235  0.070156206     1.000000000  0.016968739
age             -0.082621030  0.250952173     0.016968739  1.000000000
race             0.037428882  0.006511826    -0.024476058  0.033181697
race2            0.018964993  0.069458756    -0.009630431  0.003366239
water            0.006417464  0.044031784     0.025873527 -0.090197910
caffiene        -0.048288863  0.023033037    -0.010892899  0.333588149
niacin          -0.064593314  0.038004931     0.020672666  0.104217369
protein         -0.054792397  0.086996195     0.030088611  0.133614525
diabp           -0.051381249  0.102191198     0.012517244  0.246988021
sysbp           -0.041467206  0.079805562    -0.020232133  0.469085841
creatinine      -0.072448777 -0.028408331    -0.010199230  0.245916420
urinecreatinine  0.001079895 -0.086689244    -0.034533930 -0.094212102
uacr            -0.013128156  0.016765898    -0.007049332  0.088496324
albumin         -0.058780716  0.021094993     0.042399173 -0.215474694
bloodnitro      -0.066532038  0.086720558     0.035360495  0.470218255
failingkidney    0.003707065  0.003385810     0.006910452 -0.094526714
stonesboolean    0.010721949  0.024160363     0.013036832 -0.018995284
                        race        race2        water     caffiene
gender           0.037428882  0.018964993  0.006417464 -0.048288863
time_in_us       0.006511826  0.069458756  0.044031784  0.023033037
householdincome -0.024476058 -0.009630431  0.025873527 -0.010892899
age              0.033181697  0.003366239 -0.090197910  0.333588149
race             1.000000000  0.968422645  0.018338264 -0.029153653
race2            0.968422645  1.000000000  0.029382992 -0.040223845
water            0.018338264  0.029382992  1.000000000 -0.069299776
caffiene        -0.029153653 -0.040223845 -0.069299776  1.000000000
niacin          -0.010211471 -0.014517053 -0.017193084  0.241651730
protein         -0.020089961 -0.019974394 -0.021333536  0.163381075
diabp            0.024428765  0.020131955 -0.054758404  0.146285281
sysbp            0.027894218  0.008789197 -0.091343046  0.138699937
creatinine       0.068712539  0.038795467 -0.044335298  0.076117292
urinecreatinine  0.099162535  0.063330033 -0.014658323 -0.066392552
uacr            -0.004316759 -0.006724843 -0.017678085  0.005019089
albumin         -0.038297602 -0.012912400 -0.020615979 -0.017004475
bloodnitro      -0.007119886 -0.017275327 -0.066284352  0.121141917
failingkidney    0.002493181  0.001898238  0.025811126 -0.011766013
stonesboolean    0.006597954  0.006142984 -0.003506018 -0.023592773
                       niacin      protein        diabp        sysbp
gender          -0.0645933137 -0.054792397 -0.051381249 -0.041467206
time_in_us       0.0380049310  0.086996195  0.102191198  0.079805562
householdincome  0.0206726655  0.030088611  0.012517244 -0.020232133
age              0.1042173689  0.133614525  0.246988021  0.469085841
race            -0.0102114706 -0.020089961  0.024428765  0.027894218
race2           -0.0145170528 -0.019974394  0.020131955  0.008789197
water           -0.0171930844 -0.021333536 -0.054758404 -0.091343046
caffiene         0.2416517295  0.163381075  0.146285281  0.138699937
niacin           1.0000000000  0.748998797  0.049268557  0.023011049
protein          0.7489987969  1.000000000  0.055128755  0.033175259
diabp            0.0492685569  0.055128755  1.000000000  0.431022979
sysbp            0.0230110492  0.033175259  0.431022979  1.000000000
creatinine       0.0522865710  0.057378289  0.044675209  0.146271368
urinecreatinine  0.0005421783 -0.008769935  0.012549420 -0.006899802
uacr            -0.0018907787 -0.008434662  0.026052555  0.151907488
albumin          0.0937018082  0.083605458 -0.046720161 -0.122186102
bloodnitro       0.1019835607  0.152868831  0.037840350  0.220577543
failingkidney   -0.0057558518 -0.012458321  0.047009889 -0.044141730
stonesboolean    0.0026000087 -0.006544445  0.009182641 -0.003186755
                 creatinine urinecreatinine         uacr     albumin
gender          -0.07244878    0.0010798949 -0.013128156 -0.05878072
time_in_us      -0.02840833   -0.0866892438  0.016765898  0.02109499
householdincome -0.01019923   -0.0345339303 -0.007049332  0.04239917
age              0.24591642   -0.0942121017  0.088496324 -0.21547469
race             0.06871254    0.0991625351 -0.004316759 -0.03829760
race2            0.03879547    0.0633300332 -0.006724843 -0.01291240
water           -0.04433530   -0.0146583234 -0.017678085 -0.02061598
caffiene         0.07611729   -0.0663925522  0.005019089 -0.01700447
niacin           0.05228657    0.0005421783 -0.001890779  0.09370181
protein          0.05737829   -0.0087699347 -0.008434662  0.08360546
diabp            0.04467521    0.0125494199  0.026052555 -0.04672016
sysbp            0.14627137   -0.0068998019  0.151907488 -0.12218610
creatinine       1.00000000    0.0555276970  0.445551908 -0.07669201
urinecreatinine  0.05552770    1.0000000000 -0.045688757  0.06350680
uacr             0.44555191   -0.0456887571  1.000000000 -0.17442082
albumin         -0.07669201    0.0635068036 -0.174420819  1.00000000
bloodnitro       0.54673934   -0.0404925656  0.276554972 -0.07161760
failingkidney   -0.30758735    0.0647795285 -0.232206084  0.07911537
stonesboolean   -0.02766800    0.0611988893 -0.029704753  0.03025162
                  bloodnitro failingkidney stonesboolean
gender          -0.066532038   0.003707065   0.010721949
time_in_us       0.086720558   0.003385810   0.024160363
householdincome  0.035360495   0.006910452   0.013036832
age              0.470218255  -0.094526714  -0.018995284
race            -0.007119886   0.002493181   0.006597954
race2           -0.017275327   0.001898238   0.006142984
water           -0.066284352   0.025811126  -0.003506018
caffiene         0.121141917  -0.011766013  -0.023592773
niacin           0.101983561  -0.005755852   0.002600009
protein          0.152868831  -0.012458321  -0.006544445
diabp            0.037840350   0.047009889   0.009182641
sysbp            0.220577543  -0.044141730  -0.003186755
creatinine       0.546739342  -0.307587353  -0.027667998
urinecreatinine -0.040492566   0.064779528   0.061198889
uacr             0.276554972  -0.232206084  -0.029704753
albumin         -0.071617599   0.079115367   0.030251624
bloodnitro       1.000000000  -0.242272649  -0.030230486
failingkidney   -0.242272649   1.000000000   0.040316542
stonesboolean   -0.030230486   0.040316542   1.000000000

ROC curve variable importance

                Importance
creatinine          0.7098
bloodnitro          0.6922
age                 0.6613
uacr                0.6469
urinecreatinine     0.6232
albumin             0.6035
diabp               0.5699
householdincome     0.5481
water               0.5481
sysbp               0.5480
stonesboolean       0.5476
id                  0.5142
gender              0.5059
race                0.5056
time_in_us          0.5042
race2               0.5038
protein             0.5034
niacin              0.5009
caffiene            0.5008

Recursive feature selection

Outer resampling method: Cross-Validated (10 fold) 

Resampling performance over subset size:

 Variables Accuracy  Kappa AccuracySD KappaSD Selected
         1   0.9759 0.2283   0.002891 0.09754         
         2   0.9752 0.2188   0.003363 0.12320         
         3   0.9760 0.2334   0.002497 0.10780         
         4   0.9760 0.2507   0.002499 0.10997         
         5   0.9764 0.2492   0.002618 0.12167        *
         6   0.9763 0.2412   0.002514 0.10984         
         7   0.9761 0.2412   0.002272 0.08857         
         8   0.9758 0.2253   0.002586 0.09853         
         9   0.9761 0.2508   0.002226 0.08428         
        10   0.9762 0.2436   0.002733 0.09494         
        11   0.9760 0.2415   0.002503 0.08900         

The top 5 variables (out of 5):
   creatinine, bloodnitro, age, diabp, urinecreatinine

	1	2	3	4	5
	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
4	88.40	76.02	83.98	61.88	56.58
7	47.74	65.42	67.18	38.90	55.69
9	65.42	114.92	89.28	75.14	62.76
13	64.53	68.07	68.95	68.95	37.13
14	54.81	55.69	54.81	91.94	51.27
16	93.70	58.34	79.56	77.79	92.82
17	70.72	103.43	68.07	86.63	108.73
19	34.48	66.30	74.26	80.44	53.92
22	46.85	69.84	70.72	74.26	40.66
26	92.82	77.79	45.97	66.30	61.88
27	64.53	67.18	90.17	61.00	60.11
30	61.00	38.01	74.26	63.65	44.20
32	82.21	83.10	72.49	83.10	62.76
34	52.16	40.66	58.34	64.53	58.34
35	80.44	82.21	43.32	61.88	106.08
37	66.30	68.95	68.07	83.98	71.60
41	282.88	126.41	127.30	65.42	100.78
46	71.60	78.68	71.60	68.95	59.23
50	106.96	76.02	54.81	48.62	72.49
52	75.14	64.53	94.59	83.10	71.60
53	68.95	64.53	56.58	57.46	55.69
55	88.40	69.84	53.92	62.76	57.46
56	74.26	83.10	76.91	70.72	50.39
61	64.53	68.07	57.46	82.21	38.90
64	80.44	61.88	54.81	57.46	76.02
69	34.48	53.92	38.90	54.81	64.53
70	86.63	67.18	68.07	72.49	102.54
71	56.58	63.65	100.78	58.34	75.14
74	52.16	58.34	98.12	89.28	74.26
78	114.92	90.17	70.72	75.14	81.33
⋮	⋮	⋮	⋮	⋮	⋮
10079	119.34	100.78	78.68	44.20	62.76
10085	68.95	87.52	114.92	76.02	57.46
10088	61.88	89.28	63.65	67.18	60.11
10089	83.10	38.90	45.97	66.30	57.46
10093	102.54	61.88	51.27	60.11	51.27
10094	282.88	139.67	556.92	1103.23	146.74
10095	45.97	60.11	61.00	93.70	76.91
10096	88.40	55.69	68.95	83.10	79.56
10097	89.28	79.56	68.07	83.98	99.01
10098	95.47	90.17	56.58	59.23	68.95
10100	87.52	70.72	69.84	44.20	99.89
10101	56.58	87.52	76.02	38.01	102.54
10105	90.17	66.30	70.72	73.37	100.78
10114	61.00	45.97	70.72	48.62	57.46
10125	39.78	67.18	79.56	71.60	59.23
10129	54.81	60.11	62.76	53.92	40.66
10130	87.52	54.81	91.05	79.56	91.05
10134	65.42	56.58	85.75	63.65	35.36
10139	36.24	67.18	60.11	71.60	86.63
10141	61.00	64.53	72.49	57.46	61.00
10142	70.72	53.04	64.53	57.46	75.14
10150	45.97	65.42	40.66	69.84	55.69
10154	63.65	68.95	61.88	85.75	65.42
10163	89.28	74.26	57.46	46.85	78.68
10166	51.27	83.10	58.34	42.43	40.66
10169	76.02	59.23	61.00	71.60	98.12
10170	73.37	72.49	59.23	52.16	45.97
10172	59.23	74.26	45.97	56.58	55.69
10174	82.21	45.08	50.39	83.98	68.07
10175	72.49	76.02	81.33	49.50	39.78

Project Overview¶

Objective¶

Methodology¶

Data¶

Where does the data come from?¶

The Data Ecosystem¶

Data Processing & Methodology¶

Overcoming Data Sparsity: Imputation Strategy¶

Next we can load in the datasets¶

Verifying Data¶

Checking ID's¶

Dealing with NA¶

Combine datasets and Transform useful columns¶

Feature Selection¶

Imputation of NA's¶

Understanding Data Missingness¶

Cleaned data¶

Feature Selection¶

CorrelationMatrix¶

Variance ranking from MLR¶

Random Forest RFE¶

Conclusion¶

References¶

	SEQN	SDDSRVYR	RIDSTATR	RIAGENDR	RIDAGEYR
	<int>	<int>	<int>	<int>	<int>
1	73557	8	2	1	69
2	73558	8	2	1	54
3	73559	8	2	1	72
4	73560	8	2	1	9
5	73561	8	2	2	73

	SEQN	RXDUSE	RXDDRUG	RXDDRGID	RXQSEEN
	<int>	<int>	<chr>	<chr>	<int>
1	73557	1	99999		NA
2	73557	1	INSULIN	d00262	2
3	73558	1	GABAPENTIN	d03182	1
4	73558	1	INSULIN GLARGINE	d04538	1
5	73558	1	OLMESARTAN	d04801	1

	.
	<dbl>
id	0
gender	0
education	7372
time_in_us	8267
householdincome	123
age	0
race	0
race2	0
water	1392
caffiene	1644
niacin	1644
protein	1644
diabp	3003
sysbp	3003
creatinine	3622
urinecreatinine	7485
uacr	2123
albumin	3622
bloodnitro	3622
stones	9640
failingkidney	4406
stonesboolean	4406

A data.frame: 5 × 5
	SEQN	URXUMA	URXUMS	URXUCR.x	URXCRS
	<int>	<dbl>	<dbl>	<int>	<dbl>
1	73557	4.3	4.3	39	3447.6
2	73558	153.0	153.0	50	4420.0
3	73559	11.9	11.9	113	9989.2
4	73560	16.0	16.0	76	6718.4
5	73561	255.0	255.0	147	12994.8

A data.frame: 5769 × 16
SEQN	KIQ022	KIQ025	KIQ026	KID028	KIQ005	KIQ010	KIQ042	KIQ430	KIQ044	KIQ450	KIQ046	KIQ470	KIQ050	KIQ052	KIQ480
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
73557	2	NA	2	NA	4	2	1	2	2	NA	2	NA	4	4	3
73558	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	2
73559	1	2	2	NA	2	3	2	NA	2	NA	2	NA	NA	NA	2
73561	1	2	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	2
73562	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	0
73564	2	NA	2	NA	3	1	1	2	2	NA	2	NA	3	1	2
73565	2	NA	2	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
73566	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73567	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73568	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	0
73571	2	NA	1	3	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73574	2	NA	1	1	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73577	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	0
73580	2	NA	2	NA	2	1	1	1	1	1	2	NA	1	1	1
73581	2	NA	2	NA	2	1	2	NA	1	1	2	NA	2	2	0
73582	2	NA	2	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
73585	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73589	2	NA	1	1	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73592	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73594	2	NA	2	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
73595	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	0
73596	2	NA	2	NA	2	1	2	NA	1	1	2	NA	2	2	1
73597	1	1	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	0
73598	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73600	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	0
73603	2	NA	2	NA	1	NA	1	1	2	NA	1	1	1	1	0
73604	2	NA	2	NA	5	1	2	NA	1	1	1	4	3	1	0
73607	2	NA	2	NA	4	2	2	NA	1	3	2	NA	1	1	1
73610	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
73613	2	NA	2	NA	2	1	2	NA	1	1	2	NA	3	1	3
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
83678	2	NA	2	NA	2	1	1	2	1	1	2	NA	2	1	1
83683	2	NA	2	NA	1	NA	2	NA	1	1	2	NA	5	2	2
83684	2	NA	1	1	1	NA	2	NA	1	1	2	NA	2	1	0
83687	2	NA	2	NA	3	1	1	1	1	1	1	4	2	1	3
83688	2	NA	2	NA	1	NA	2	NA	2	NA	2	NA	NA	NA	1
83689	2	NA	2	NA	3	1	1	2	2	NA	2	NA	2	1	1
83690	2	NA	2	NA	2	1	1	1	2	NA	2	NA	1	1	0
83692	2	NA	2	NA	4	2	2	NA	2	NA	1	4	1	1	5

A data.frame: 10175 × 22
SEQN	DMDHRGND	DMDEDUC3	DMDYRSUS	INDFMIN2	RIDAGEYR	RIDRETH1	RIDRETH3	DR1DAY	DR1TCAFF	⋯	BPXDI1	BPXSY1	LBDSCRSI	URXUCR	URDACT	LBDSALSI	LBXSBU	KID028	KIQ022	KIQ026
<int>	<int>	<int>	<int>	<int>	<int>	<int>	<int>	<int>	<int>	⋯	<int>	<int>	<dbl>	<int>	<dbl>	<int>	<int>	<int>	<int>	<int>
73557	1	NA	NA	4	69	4	4	2	203	⋯	72	122	106.96	NA	11.03	41	10	NA	2	2
73558	1	NA	NA	7	54	3	3	1	240	⋯	62	156	69.84	NA	306.00	47	16	NA	2	2
73559	1	NA	NA	10	72	3	3	6	45	⋯	90	140	107.85	NA	10.53	37	14	NA	1	2
73560	1	3	NA	9	9	3	3	3	0	⋯	38	108	NA	NA	21.05	NA	NA	NA	NA	NA
73561	1	NA	NA	15	73	3	3	1	24	⋯	86	136	64.53	NA	173.47	43	31	NA	1	2
73562	1	NA	NA	9	56	1	1	3	144	⋯	84	160	78.68	NA	166.22	43	18	NA	2	2
73563	1	NA	NA	15	0	3	3	3	NA	⋯	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
73564	2	NA	NA	10	61	3	3	7	4	⋯	80	118	81.33	NA	7.85	39	17	NA	2	2
73565	1	NA	NA	15	42	2	2	NA	NA	⋯	NA	NA	NA	NA	NA	NA	NA	NA	2	2
73566	2	NA	NA	4	56	3	3	2	266	⋯	74	128	48.62	NA	7.22	41	9	NA	2	2
73567	1	NA	NA	3	65	3	3	7	43	⋯	78	140	85.75	NA	16.28	40	15	NA	2	2
73568	2	NA	NA	15	26	3	3	7	199	⋯	60	106	65.42	31	80.65	45	12	NA	2	2
73569	2	NA	NA	77	0	5	7	NA	NA	⋯	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
73570	2	2	NA	5	9	5	7	2	47	⋯	44	102	NA	116	23.45	NA	NA	NA	NA	NA
73571	1	NA	NA	14	76	3	3	7	264	⋯	68	124	105.20	177	14.58	43	17	3	2	1
73572	2	3	NA	2	10	4	4	4	0	⋯	54	88	NA	NA	35.42	NA	NA	NA	NA	NA
73573	1	4	NA	8	10	4	4	NA	NA	⋯	62	94	NA	NA	8.29	NA	NA	NA	NA	NA
73574	2	NA	4	8	33	5	6	1	872	⋯	56	122	52.16	173	7.51	43	11	1	2	1
73575	2	NA	NA	3	1	4	4	7	3	⋯	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
73576	2	9	NA	8	16	4	4	6	0	⋯	68	108	78.68	166	3.01	51	14	NA	NA	NA
73577	2	NA	4	2	32	1	1	1	210	⋯	74	118	60.11	191	8.90	45	17	NA	2	2
73578	2	15	NA	5	18	1	1	4	0	⋯	58	120	NA	201	5.27	NA	NA	NA	NA	NA
73579	2	6	NA	10	12	3	3	1	0	⋯	72	108	50.39	NA	6.32	47	10	NA	NA	NA
73580	2	NA	NA	12	38	4	4	4	36	⋯	84	124	63.65	NA	2.79	38	10	NA	2	2
73581	1	NA	4	15	50	5	6	7	24	⋯	80	138	83.98	NA	4.95	43	11	NA	2	2
73582	2	NA	NA	3	23	4	4	NA	NA	⋯	56	98	NA	NA	7.61	NA	NA	NA	2	2
73583	1	1	NA	15	7	3	3	7	0	⋯	NA	NA	NA	NA	19.21	NA	NA	NA	NA	NA
73584	2	7	NA	9	13	3	3	1	0	⋯	54	108	52.16	106	4.72	42	14	NA	NA	NA
73585	1	NA	6	7	28	5	6	4	96	⋯	70	106	106.96	NA	2.70	47	23	NA	2	2
73586	1	NA	NA	6	4	5	6	7	0	⋯	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋱	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
83702	2	NA	NA	7	80	3	3	3	95	⋯	86	154	90.17	NA	13.33	41	18	NA	2	2
83703	2	NA	NA	99	22	1	1	1	0	⋯	64	128	64.53	89	9.21	46	13	NA	2	2
83704	2	8	NA	1	15	3	3	4	5	⋯	38	108	63.65	NA	4.85	41	12	NA	NA	NA
83705	1	NA	4	4	35	2	2	4	125	⋯	64	100	70.72	NA	7.03	44	16	NA	2	2
83706	2	0	NA	6	6	4	4	NA	NA	⋯	NA	NA	NA	NA	10.00	NA	NA	NA	NA	NA
83707	2	13	2	3	18	1	1	3	5	⋯	54	106	74.26	NA	13.83	46	11	NA	NA	NA
83708	1	NA	NA	5	64	3	3	5	0	⋯	74	94	176.80	NA	10.55	39	28	NA	2	2
83709	2	NA	NA	15	24	3	3	1	177	⋯	62	116	86.63	NA	7.57	46	19	NA	2	2

A data.frame: 10175 × 20
	id	gender	time_in_us	householdincome	age	race	race2	water	caffiene	niacin	protein	diabp	sysbp	creatinine	urinecreatinine	uacr	albumin	bloodnitro	failingkidney	stonesboolean
	<int>	<int>	<int>	<int>	<int>	<int>	<int>	<int>	<int>	<dbl>	<dbl>	<int>	<int>	<dbl>	<int>	<dbl>	<int>	<int>	<int>	<int>
1	73557	1	NA	4	69	4	4	2	203	11.804	43.63	72	122	106.96	NA	11.03	41	10	2	2
2	73558	1	NA	7	54	3	3	1	240	65.396	338.13	62	156	69.84	NA	306.00	47	16	2	2
3	73559	1	NA	10	72	3	3	6	45	18.342	64.61	90	140	107.85	NA	10.53	37	14	1	2
4	73560	1	NA	9	9	3	3	3	0	21.903	77.75	38	108	NA	NA	21.05	NA	NA	NA	NA
5	73561	1	NA	15	73	3	3	1	24	15.857	55.24	86	136	64.53	NA	173.47	43	31	1	2
6	73562	1	NA	9	56	1	1	3	144	17.119	55.11	84	160	78.68	NA	166.22	43	18	2	2
7	73563	1	NA	15	0	3	3	3	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
8	73564	2	NA	10	61	3	3	7	4	29.342	91.15	80	118	81.33	NA	7.85	39	17	2	2
9	73565	1	NA	15	42	2	2	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	2	2
10	73566	2	NA	4	56	3	3	2	266	13.148	42.26	74	128	48.62	NA	7.22	41	9	2	2
11	73567	1	NA	3	65	3	3	7	43	19.301	38.09	78	140	85.75	NA	16.28	40	15	2	2
12	73568	2	NA	15	26	3	3	7	199	23.003	139.21	60	106	65.42	31	80.65	45	12	2	2
13	73569	2	NA	77	0	5	7	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA	NA
14	73570	2	NA	5	9	5	7	2	47	18.372	76.40	44	102	NA	116	23.45	NA	NA	NA	NA
15	73571	1	NA	14	76	3	3	7	264	19.075	39.40	68	124	105.20	177	14.58	43	17	2	1
16	73572	2	NA	2	10	4	4	4	0	9.963	30.65	54	88	NA	NA	35.42	NA	NA	NA	NA
17	73573	1	NA	8	10	4	4	NA	NA	NA	NA	62	94	NA	NA	8.29	NA	NA	NA	NA
18	73574	2	4	8	33	5	6	1	872	81.974	274.72	56	122	52.16	173	7.51	43	11	2	1
19	73575	2	NA	3	1	4	4	7	3	6.656	21.60	NA	NA	NA	NA	NA	NA	NA	NA	NA
20	73576	2	NA	8	16	4	4	6	0	14.930	48.91	68	108	78.68	166	3.01	51	14	NA	NA
21	73577	2	4	2	32	1	1	1	210	76.601	144.92	74	118	60.11	191	8.90	45	17	2	2
22	73578	2	NA	5	18	1	1	4	0	21.266	81.61	58	120	NA	201	5.27	NA	NA	NA	NA
23	73579	2	NA	10	12	3	3	1	0	20.340	81.54	72	108	50.39	NA	6.32	47	10	NA	NA
24	73580	2	NA	12	38	4	4	4	36	21.680	87.39	84	124	63.65	NA	2.79	38	10	2	2
25	73581	1	4	15	50	5	6	7	24	24.026	96.42	80	138	83.98	NA	4.95	43	11	2	2
26	73582	2	NA	3	23	4	4	NA	NA	NA	NA	56	98	NA	NA	7.61	NA	NA	2	2
27	73583	1	NA	15	7	3	3	7	0	9.927	25.81	NA	NA	NA	NA	19.21	NA	NA	NA	NA
28	73584	2	NA	9	13	3	3	1	0	7.823	13.11	54	108	52.16	106	4.72	42	14	NA	NA
29	73585	1	6	7	28	5	6	4	96	70.313	285.83	70	106	106.96	NA	2.70	47	23	2	2
30	73586	1	NA	6	4	5	6	7	0	7.143	24.92	NA	NA	NA	NA	NA	NA	NA	NA	NA
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
10146	83702	2	NA	7	80	3	3	3	95	11.648	56.02	86	154	90.17	NA	13.33	41	18	2	2
10147	83703	2	NA	99	22	1	1	1	0	16.870	58.97	64	128	64.53	89	9.21	46	13	2	2
10148	83704	2	NA	1	15	3	3	4	5	15.008	81.36	38	108	63.65	NA	4.85	41	12	NA	NA
10149	83705	1	4	4	35	2	2	4	125	28.719	63.40	64	100	70.72	NA	7.03	44	16	2	2
10150	83706	2	NA	6	6	4	4	NA	NA	NA	NA	NA	NA	NA	NA	10.00	NA	NA	NA	NA
10151	83707	2	2	3	18	1	1	3	5	11.780	34.18	54	106	74.26	NA	13.83	46	11	NA	NA
10152	83708	1	NA	5	64	3	3	5	0	38.044	92.38	74	94	176.80	NA	10.55	39	28	2	2
10153	83709	2	NA	15	24	3	3	1	177	15.413	47.70	62	116	86.63	NA	7.57	46	19	2	2