Si të zgjidhni kolonat e rastësishme nga një grup të dhënash

Unë kam një grup të dhënash si:

ID  val1    val2    val3    val4
1   4       9       10      16
2   1.5     6       2.3     99
3   8       7       7       10

Do të doja të kontrolloja nëse numri i kolonave (d.m.th., val kolona) është më pak se 6 dhe nëse është kështu, dua të zgjedh rastësisht numrin e kolonave të mbetura nga kolonat ekzistuese dhe t'i shtoj ato përsëri në grupin e të dhënave.

Në rastin e mësipërm, numri i kolonave të mbetura është 2 (6 - 4 kolona val). Në këtë rast, unë do të doja të zgjidhja 2 kolona të rastësishme nga kolonat val dhe t'i shtoja ato në grupin e të dhënave. një zgjidhje e mundshme do të ishte:

ID  val1    val2    val3    val4   val2   val1
1   4       9       10      16     9      4
2   1.5     6       2.3     99     6      1.5
3   8       7       7       10     7      8

Kolonat val2 dhe val1 zgjidhen rastësisht dhe shtohen në grupin e të dhënave. Problemi me të cilin po përballem është se si të zgjedh kolonat e rastësishme. Unë e di se si të zgjedh rreshtat e rastësishëm duke përdorur funksionin sample_n, por nuk gjeta asnjë funksion për të zgjedhur kolonat e rastësishme.

Ajo që kam bërë deri tani është:

t <- read.csv("path", header=TRUE) # load file
numCols <- 6
cc <- ncol(t[,-1]) #no need for ID column
if(cc < numCols){
   # I need some function to select random columns 
}

21.06.2019

df[, round(runif(1,0,6)), përshtatuni me kolonat tuaja të kërkuara 21.06.2019
E njëjta përgjigje si @jogo (n_wanted <- 15; n_current <- ncol(mtcars); cbind(mtcars, mtcars[, sample(n_current, n_wanted - n_current)])). Thjesht duhet të zgjidhni problemin e kolonës ID 21.06.2019

Përgjigjet:

Një kornizë e të dhënave është thjesht një lloj i veçantë liste, kështu që mund ta mendoni si përzgjedhje të rastësishme të elementeve të listës në vend të kolonave. Kjo do të thotë që një mostër e rastësishme e dy kolonave është aq e thjeshtë sa sample(df, 2). Në rastin tuaj, ju mund t'i mbani gjërat shkurt duke cbindduke marrë një mostër nga df[-1], duke supozuar se ID është kolona e parë:

nc <- 6 + 1 # val columns plus ID column

if(ncol(df) < nc){
    cbind(df, sample(df[-1], nc - ncol(df)))
}

#### OUTPUT ####

  ID val1 val2 val3 val4 val3 val2
1  1  4.0    9 10.0   16 10.0    9
2  2  1.5    6  2.3   99  2.3    6
3  3  8.0    7  7.0   10  7.0    7

Nëse nuk e dini se ku është ID, mund të përdorni diçka si df[-grep("ID", names(df))] në vend të df[-1]. Nëse ka kolona të tjera që nuk janë as ID dhe as nuk fillojnë me val, atëherë duhet të përdorni df[grep("^val", names(df))]. Në rastin e fundit do t'ju duhet gjithashtu të bëni rregullime në nc, d.m.th., në vend të vetëm 1, do t'ju duhet të shtoni numrin e kolonave që nuk fillojnë me val.

21.06.2019

Mund të bëjmë një funksion

add_columns <- function(df, n) {
   cols <- grep("val", names(df), value = TRUE)
   if (length(cols) < n)
     return(cbind(df, df[sample(cols, n - length(cols))]))
   return(df)
}

add_columns(df, 6)
#  ID val1 val2 val3 val4 val2 val1
#1  1  4.0    9 10.0   16    9  4.0
#2  2  1.5    6  2.3   99    6  1.5
#3  3  8.0    7  7.0   10    7  8.0

add_columns(df, 5)
#  ID val1 val2 val3 val4 val3
#1  1  4.0    9 10.0   16 10.0
#2  2  1.5    6  2.3   99  2.3
#3  3  8.0    7  7.0   10  7.0

21.06.2019

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Front End Development Java Nodejs Algorithms Data Tech Computer Science Development HTML AWS CSS Neural Networks Angular ChatGPT Code Typescript Tutorial Python Programming Learning To Code Developer Computer Vision NLP Open Source Productivity Reactjs