Ky hulumtim ofron një metodë të drejtuar nga të dhënat për përmirësimin e parashikimit të çmimit të apartamenteve me qira në Daegu. Ne kërkojmë të ofrojmë parashikime të sakta të çmimit të qirasë së apartamenteve duke përdorur algoritmet aktuale të mësimit të makinerive, gjë që çon në një nivel më të lartë të saktësisë së parashikimit, duke fuqizuar palët e interesuara të pasurive të paluajtshme për të marrë vendime të mençura.

Kuptimi i problemeve të biznesit

Faza fillestare në procesin e analizës dhe modelimit të të dhënave që synon të kuptojë thellësisht problemin e biznesit që duhet zgjidhur. Në këtë fazë, disa nga gjërat që do të diskutohen përfshijnë sfondin, deklaratën e problemit, qëllimet, palët e interesuara, qasjen analitike dhe vlerësimin metrik.

  • Sfondi

Projektet e ndërtimit në Korenë e Jugut janë vonuar ose janë ndalur. Në fund të vitit të kaluar, disponoheshin 68,000 njësi apartamentesh, një rritje prej 10,000 njësive nga një muaj më parë. Shifrat e shitjeve të njësive të apartamenteve të janarit treguan gjithashtu një ecuri zhgënjyese. Vetëm 25% e totalit të vlerësuar u shit, me shitjet aktuale që arritën vetëm 1,461 njësi në mbarë vendin. Situata ndërlikohet më tej nga faktorë të jashtëm si rritja e normave të kreditimit, rënia e çmimeve të banesave dhe shfaqja e komuniteteve të reja që po tregtojnë gjithashtu njësitë e tyre të banimit. Të gjithë këta faktorë kontribuojnë në nevojën për të menaxhuar siç duhet furnizimin me banesa.

  • Deklaratë problemi

Sfida më e rëndësishme me të cilën përballen ndërtuesit e apartamenteve në sfondin e kushteve të tregut të apartamenteve në Daegu është parashikimi i ndryshimeve të tregut që mund të ndikojnë në çmimet e qirasë së apartamenteve.

  • Qëllimi

Qëllimi kryesor i kësaj nisme është të zhvillojë një model të avancuar parashikues që mund të ofrojë parashikime optimale të çmimeve të qirasë. Ky model do t'u sigurojë palëve të interesuara një mjet të mbështetur nga të dhënat për të marrë vendime të informuara në lidhje me strategjitë e çmimeve, marrëveshjet e qirasë dhe zgjedhjet e investimeve.

  • Aktorët e interesit

Palët kryesore të interesuara të përfshira janë zhvilluesit e pronave që synojnë të vendosin çmime optimale të qirasë.

  • Qasja analitike

Qasja përfshin mbledhjen e të dhënave gjithëpërfshirëse për apartamentet dhe veçoritë e tyre. Këto të dhëna përpunohen dhe përgatiten përmes teknikave të tilla si inxhinieria e veçorive dhe parapërpunimi. Modele të ndryshme parashikuese, si algoritmet e regresionit, do të trajnohen, vlerësohen dhe optimizohen për të dhënë parashikime të sakta.

  • Vlerësimi metrikë

Suksesi i modeleve parashikuese do të vlerësohet duke përdorur metrikë të vendosur si R-Square, RMSE, MAE dhe MAPE. Këto metrika do të vlerësojnë aftësinë e modelit për të parashikuar çmimet e qirasë në mënyrë efektive, duke siguruar që modeli i zgjedhur të përputhet me nevojat e palëve të interesuara dhe të sigurojë njohuri të vlefshme për dinamikën e tregut të qirasë.

Kuptimi i të dhënave

Eksplorimi dhe analizimi i të dhënave për të kuptuar karakteristikat e tyre, të tilla si statistikat përshkruese, llojet e të dhënave dhe modelet e marrëdhënieve ndërmjet variablave.

  • Të dhënat e Daegu Apartemen, e cila analizon variabla të shumtë në lidhje me karakteristikat e banesave në Daegu, përbëhet nga 11 kolona dhe 4123 rreshta.
  • Numri i objekteve publike dhe universiteteve pranë është maksimumi 5.
  • Numri i zyrave publike më të afërta është maksimumi 7
  • Çmimi mesatar i qirasë së apartamenteve në Daegu është 221767 (fituar).
  • Stacioni i metrosë është variabli kategorik me kardinalitetin më të lartë.
  • Marrëdhënia midis variablave diskrete gjithashtu përshkruan një model linear.

Parapërpunimi i të dhënave

Kjo fazë konsiston në pastrimin e të dhënave nga vlerat e munguara ose të pavlefshme. Eksplorimi dhe trajtimi i pikave të jashtme nëse është e nevojshme. Adresimi i çështjeve të shumëkolinearitetit dhe kodimi i veçorive kategorike. Ndarja e të dhënave në të dhëna trajnimi dhe testimi.

  • Analiza e të dhënave eksploruese

Bazuar në grafikun e mësipërm, apartamentet me tarraca të tipit korridor ndodhen kryesisht pranë stacionit të metrosë Kyungbuk_uni_hospital. Ndërsa stacioni që është larg këtyre lloj apartamenteve është stacioni i Daegut. Stacioni Myung-duk është stacioni më i afërt me llojin e apartamenteve të përziera. Stacioni më i largët nga lloji i apartamentit është Kyungbuk_uni_hospital. Apartamentet e korridorit janë gjithashtu afër stacionit Myung-duk.

Trendi i çmimeve nga viti i ndërtimit të apartamenteve 1980 deri në 2015 tregon rritje. Çmimet janë më të shtrenjta në apartamentet me vitet e fundit të ndërtimit. Viti i ndërtimit 2015 ka diapazonin më të lartë të çmimit të qirasë në krahasim me vitet e tjera, midis 400000–600000 (fituar).

Informacioni i marrë nga grafiku me shtylla më sipër është se çmimi mesatar i apartamenteve të tipit korridor është 87968 (Won), çmimi mesatar i apartamenteve të tipit të përzier është 155799 (Won), dhe çmimi mesatar më i lartë i apartamenteve është me tarracë në 275840 (Won).

  • Debati i të dhënave

Vlera që mungon — Bazuar në matricën e mungesës dhe duke kontrolluar për vlerat boshe dhe NaN, nuk ka vlera që mungojnë. Nuk nevojitet trajtim i mëtejshëm sepse përqindja e vlerave që mungojnë në të gjitha kolonat është 0.

Korrigjim — Fotografia e mësipërme tregon se si emri i kolonave është ndryshuar për ta bërë të lehtë për të kuptuar variabelin. Ky emër i ri variabli do të përdoret për hapat e ardhshëm.

Dublikim — Bazuar në zbulimin e kryerjes së dyfishimit të të dhënave, u gjetën 1422 rreshta që përmbajnë të dhëna të dyfishta. Të dhënat e kopjuara hiqen duke mbajtur një nga vlerat.

Etiketa e rrallë — Outlier që gjendet në variablat kategorike. Ky hap në proces zbulon dhe kuantifikon vlerat e rralla. Etiketat e rralla zbulohen në variablin e stacionit të metrosë sepse ka dy vlera që janë nën kufirin 0.05, stacionet janë Chil-sung-market dhe Daegu. Trajtimi i etiketave të rralla bëhet duke grupuar dy vlerat në kategorinë "Të tjerët".

Outlier — Të dhënat e jashtme gjenden në variablat Size dhe Price. Trajtimi bëhet vetëm në variablin Size sepse do të bëhet veçori për modelin. Ndërsa variabli Price nuk trajtohet sepse përqindja e outliers është shumë e vogël dhe do të bëhet ndryshorja e synuar.

  • Inxhinieri e veçorive

Enkodimi— Variablat kategorikë "HallwayType", "SubwayStation" dhe "TimeToSubway" janë të koduara në formë numerike në mënyrë që veçoritë të mund të njihen gjatë procesit të modelimit.

Krijimi i veçorive — Faza e krijimit të veçorive të reja në inxhinierinë e veçorive nuk ekziston sepse ajo përfaqësohet mjaftueshëm nga veçoritë ekzistuese në grupin e të dhënave.

Zgjedhja e veçorive — Të gjitha veçoritë në grupin e të dhënave do të përdoren në procesin e modelimit, kështu që asnjë veçori nuk përjashtohet.

  • Ndan grupin e të dhënave

Të dhënat e të dhënave ndahen në grupe treni dhe testimi me një proporcion prej 70% të të dhënave të trajnimit dhe 30% të të dhënave të testit.

Modelimi

Rrjedha e kryer në këtë proces është zgjedhja e algoritmeve që janë të përshtatshme për parashikimin e çmimeve të qirave të apartamenteve. Kryeni modelimin duke përdorur të dhënat e trajnimit dhe kryeni procesin e trajnimit duke përdorur algoritmin e zgjedhur. Kryeni akordimin e hiperparametrave për të përmirësuar performancën e modelit. Përdorimi i metrikës së vlerësimit për të matur performancën e modelit.

  • Modeli standard

Kriteret më të mira të modelit të bazuara në metrikën e vlerësimit R-Square duke parë vlerën afër 1. Sa për metrikat RMSE, MAE dhe MAPE, mund të zgjidhni vlerën me gabimin më të vogël. Rezultatet e standardeve para akordimit me një model të pavarur morën modelin më të mirë me algoritmin KNeighborsRegressor. Ndërsa Benchmark duke përdorur ansamblin mori modelin më të mirë me algoritmin e modelit XGB. Për këtë arsye, modeli që do të kryhet akordimi i hiperparametrave në fazën tjetër është përdorimi i metodës XGB sepse midis standartit dhe ansamblit rezultatet janë më të mira duke përdorur ansamblin.

  • Krahaso modelin

Krahasimi i rezultateve të parashikimit pas akordimit duke përdorur algoritmin e modelit XGB, vlera R-Square e modelit është rritur nga 0.782477 në 0.784186. Ndërsa bazuar në metrikën MAPE është ende në intervalin 19%. Zgjedhja e metrikës së vlerësimit MAPE është një pikë referimi sepse mund të shohë gabimin në përqindje. Bazuar në Saktësinë e Parashikimit, vlera MAPE midis 11%-20% përfshihet në kategorinë "Parashikimi i mirë" (Lewis, 1982).

  • Shpjegimi i modelit

Grafiku i shpërndarjes ilustron marrëdhënien midis çmimit aktual dhe çmimit të parashikuar. Ai thotë se ndërsa çmimi aktual bëhet më i madh dhe më afër vijës diagonale, çmimi i parashikuar gjithashtu bëhet më i madh. Kjo tregon se modeli tenton të performojë më mirë në parashikimin e çmimeve më të larta, veçanërisht kur çmimi aktual ka një ndryshueshmëri të madhe. Nëse çmimi aktual dhe çmimi i parashikuar priren të jenë të njëjtë ose kanë një ndryshim të vogël, kjo tregon se modeli performon më mirë në ato raste.

Karakteristika më me ndikim në parashikimin e qirave të apartamenteve në Daegu është lloji i korridorit "me tarracë". Bazuar në një eksplorim të shkurtër të të dhënave në fazën e parapërpunimit të të dhënave, apartamentet me tip tarracë korridori kanë një çmim mesatar qiraje më të lartë se llojet e tjera. Kjo lidhet edhe me disponueshmërinë e lehtësirave përreth banesës që është gjithashtu një konsideratë në përcaktimin e çmimit të qirasë së apartamentit. Katër karakteristikat e ardhshme më të rëndësishme pas llojit të korridorit janë objektet e tjera, objektet e përfshira, madhësia (sqf) dhe viti i ndërtuar. Ekzistenca e objekteve publike përreth banesës dhe ambientet brenda banesës janë gjithashtu një konsideratë në përcaktimin e çmimit të qirasë.

  • Kufizimi i modelit

Kufizimi në modelin e grupimit të vlerave të rralla të etiketës nën pragun i referohet aktit të kombinimit ose grupimit të vlerave të rralla në një veçori ose kolonë në një kategori të përgjithshme të quajtur "Të tjera". Qëllimi i këtij hapi është të trajtojë çështjen e mosbalancimit në shpërndarjen e vlerave në veçoritë që mund të ndikojnë në performancën e modelit.

Çdo mospërputhje midis rezultateve të testit të normalitetit Shapiro-Wilk dhe vizualizimit të komplotit QQ mund të tregojë një mospërputhje në shpërndarjen e mbetur. Ndërsa grafiku QQ tregon se mbetjet janë afër një shpërndarjeje normale, testi Shapiro-Wilk nuk jep rezultate që mbështesin normalitetin. Kjo tregon pasiguri në interpretimin e shpërndarjes së mbetur.

Modeli është në gjendje të parashikojë çmimet e apartamenteve vetëm kundrejt 10 veçorive të ndërlidhura, përkatësisht HallwayType, TimeToSubway, SubwayStation, Other Facilities, Public Office, University, Parking, YearBuilt, Facilities Included, dhe Size(sqf). Modeli nuk ka marrë parasysh veçori të tjera si vendndodhjet më specifike gjeografike, kushtet socio-ekonomike të zonës dhe faktorë të tjerë të jashtëm që mund të ndikojnë në çmimet e qirasë.

konkluzioni

  • Algoritmi XGBoost dhe akordimi i parametrave përmirësoi vlerën R-Square të modelit nga 0,782477 në 0,784186. Megjithatë, metrika e vlerësimit MAPE mbetet brenda intervalit 19%. Vlerat MAPE midis 11%-20% bien në kategorinë "Parashikimi i mirë", duke treguar performancë të mirë. Këto rezultate mund të përdoren si referencë për përcaktimin e çmimeve optimale të qirasë, pasi diapazoni i gabimeve është më pak se 20%. Në atë rast, duke i lejuar zhvilluesit e apartamenteve të zbatojnë strategji për të rritur fitimet.
  • Analiza e rëndësisë së veçorive zbulon tre faktorë kryesorë që ndikojnë në çmimet e qirasë së apartamenteve në Daegu. Lloji i korridorit 'Terraced' është faktori më domethënës, me qira më të larta për shkak të vendndodhjes dhe aksesit premium. Objektet e tjera, si parqet, dyqanet dhe restorantet, gjithashtu luajnë një rol në përcaktimin e çmimeve të qirave. Së fundi, tipari 'Facilities Included', i cili përfshin lehtësira të plota dhe të përshtatshme, gjithashtu ndikon në çmimin e pritshëm të qirasë.
  • Marrëdhënia midis çmimeve aktuale dhe atyre të parashikuara, me çmimin e parashikuar më afër çmimit aktual ndërsa i afrohet vijës diagonale. Modeli është efektiv në parashikimin e çmimeve më të larta dhe të ndryshueshme dhe çmime pothuajse identike.
  • Megjithatë, duhet theksuar se modeli ka kufizime, si modelimi me vetëm 10 veçori specifike të cilat mund të mos mbulojnë të gjithë faktorët që ndikojnë në çmimet e qirasë së apartamenteve. Prandaj, në zhvillimin e ardhshëm, mund të konsiderohet të përfshijë më shumë veçori dhe të përfshijë algoritme të tjera për të analizuar të dhënat e të dhënave në mënyrë më gjithëpërfshirëse.

Rekomandim

  • Inxhinieria e veçorive - Përveç veçorive të konsideruara tashmë, merrni parasysh gjetjen ose krijimin e veçorive të reja që kanë një korrelacion të fortë me variablin e synuar.
  • Algoritme të tjera — Eksploroni algoritme të ndryshme nga ato të përdorura tashmë, të tilla si Makinat Vektoriale Mbështetëse (SVM), Rrjetet Neurale ose algoritme të tjera të përshtatshme për problemet e regresionit.
  • Analiza e mbetur - Nëse shpërndarja e mbetur nuk është normale, merrni parasysh transformimin e të dhënave në objektiv ose veçori të caktuara në mënyrë që mbetjet t'i afrohen një shpërndarjeje normale.
  • Kufizimi i modelit - Merrni parasysh përfshirjen e më shumë veçorive që mund të kenë ndikim në qiratë e apartamenteve.

Burimi

https://koreajoongangdaily.joins.com/2023/02/07/business/industry/housing/20230207175620058.html

http://dx.doi.org/10.7717/peerj-cs.623

https://www.numbeo.com/property-investment/in/Daegu

http://dx.doi.org/10.12982/cmujns.2014.0044

Lewis, C. D. (1982). Metodat e parashikimit industrial dhe të biznesit: Një udhëzues praktik për zbutjen eksponenciale dhe përshtatjen e kurbës