Programim dhe zhvillim, javascript, python, php, html

duke ruajtur një kornizë të dhënash në skedarin JSON në njësinë lokale në pyspark

Unë kam një kornizë të dhënash që po përpiqem ta ruaj si skedar JSON duke përdorur pyspark 1.4, por duket se nuk po funksionon. Kur i jap shtegun drejt direktorisë, ai kthen një gabim duke deklaruar se ekziston tashmë. Supozimi im bazohet në dokumentacioni ishte se do të ruante një skedar json në shtegun që i jepni.

df.write.json("C:\Users\username")

Përcaktimi i një drejtorie me një emër nuk prodhon asnjë skedar dhe jep dhe gabimin e "java.io.IOException: Mkdirs dështoi të krijojë skedarin:/C:Users/username/test/_temporary/....etj. Megjithatë, kjo ndodh krijoni një direktori të testit të emrit i cili përmban disa nën-drejtori me skedarë crc bosh.

df.write.json("C:\Users\username\test")

Dhe duke shtuar një shtesë skedari të JSON, prodhon të njëjtin gabim

df.write.json("C:\Users\username\test.JSON")

  • Unë mendoj se ju duhet t'i jepni atij një emër të plotë skedari, jo vetëm drejtorinë. 26.06.2015
  • E provova edhe atë dhe e përditësova postimin. Duket sikur duhet të përcaktohet një lloj direktorie tempo, por dokumentacioni nuk e tregon atë qartë. 26.06.2015
  • A keni leje për të shkruar dhe krijuar drejtori për emrin e përdoruesit specifik.? 26.06.2015
  • po, i verifikova të drejtat në atë direktori dhe përdora getpass.getuser() nga python për të verifikuar që isha i identifikuar si ai përdorues nëpërmjet konsolës. 26.06.2015
  • provoni një qasje alternative si p.sh. df.toJSON().saveAsTextFile(rruga) 26.06.2015
  • prodhon të njëjtin gabim si përpjekjet e tjera 26.06.2015
  • A e keni provuar këtë në një mjedis Linux? Gjithashtu a keni përdorur Spark më parë: 26.06.2015
  • Edhe unë u përballa me një problem të tillë kur përdor Windows.. Kështu që unë ndryshoj në Linux ku i njëjti kod funksiononte në mënyrë perfekte ... 26.06.2015
  • Faleminderit që e provove. Kuptova se kishte të bënte me Windows, ufhh.... 26.06.2015

Përgjigjet:


1

A nuk mund të përdorni vetëm

df.toJSON()

siç tregohet këtu? Nëse jo, atëherë fillimisht transformojeni në një DataFrame panda dhe më pas shkruani në json.

pandas_df = df.toPandas()
pandas_df.to_json("C:\Users\username\test.JSON")
29.06.2015
  • df.toJSON() duket se nuk pranon një grup, por nëse e kaloj një rresht të vetëm, funksionon. po përpiqem ta korrigjoj më shumë këtë. 29.06.2015
  • konvertimi në një kornizë të dhënash Pandas funksionon në mënyrë perfekte, unë ndoshta do të përdorja vetëm një kornizë të dhënash Pandas gjatë gjithë kohës, përveç nëse ka probleme me kujtesën ose përpunimin që do të lindin nga një grup shumë më i madh të dhënash. 29.06.2015
  • Po, përdor DataFrames sa më shpesh që të mundem. Nëse kujtesa bëhet problem, hidhini një sy Dask 01.07.2015

  • 2

    Kur punoni me të dhëna të mëdha, nuk këshillohet konvertimi i kornizës së të dhënave pyspark në panda. ju mund të përdorni komandën e mëposhtme për të ruajtur skedarin json në dosjen e daljes. Këtu df është pyspark.sql.dataframe.DataFrame. Skedari i pjesës do të gjenerohet brenda drejtorisë së daljes nga grupi.

    df.coalesce(1).write.format('json').save('/your_path/output_directory')
    
    10.01.2019

    3

    Do të shmangja përdorimin e write.json pasi shkakton probleme në Windows. Përdorimi i shkrimit të skedarëve të Python duhet të anashkalojë krijimin e drejtorive të përkohshme që po ju japin probleme.

    with open("C:\\Users\\username\\test.json", "w+") as output_file:
        output_file.write(df.toJSON())
    
    29.06.2015
  • Nëse përdor output_file.write(df.toJSON()) ai prodhon TypeError: objekt tampon i pritshëm i karaktereve, po supozoj se po i kalon një grup i cili më pas shkakton dështimin sepse nëse përdor output_file.write(df.toJSON() .first()) do të krijojë me sukses skedarin JSON me vetëm një rresht në të. 29.06.2015
  • E madhe! Përgjigjes sime i shtova prerjet e arratisjes. 29.06.2015
  • Materiale të reja

    Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.
    Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

    Faketojeni derisa ta arrini me të dhënat false
    A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

    Si të përdorni kërkesën API në Python
    Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

    Një udhëzues hap pas hapi për të zotëruar React
    Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

    AI dhe Psikologjia — Pjesa 2
    Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

    Esencialet e punës ditore të kodit tim VS
    Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

    Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues
    Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..