Bashkëautor nga: Daman Papneja, Christian Sewall, Chenjiayi Ye

Kuptimi i biznesit

Trips & Travel.com është një platformë udhëzuese udhëtimi që ndihmon qindra njerëz të bëhen udhëtarë më të mirë, nga planifikimi te rezervimi e deri te ndërmarrja e një udhëtimi. Kompania operon në industrinë e turizmit prej 1.09 trilion dollarësh, në të cilën marketingu është një komponent kyç. Trips & Travel.com dëshiron të mundësojë dhe të krijojë një model të qëndrueshëm biznesi për të zgjeruar bazën e klientëve të tij duke prezantuar një paketë të re turistike Wellness në portofolin e produkteve të saj. Trips&Travel.com ka prezantuar më parë disa produkte me norma të larta konvertimi; megjithatë, kompania ka bërë kosto të konsiderueshme marketingu gjatë kryerjes së këtyre projekteve. Me lançimin e kësaj pakete të re Wellness, kompania shpreson të shpenzojë dollarët e marketingut në mënyrë më efikase duke identifikuar klientët e duhur për të synuar dhe duke krijuar vlerë nga klientët e synuar duke pasur parasysh ndryshimin e qëndrimeve ndaj udhëtimeve që kanë rezultuar nga pandemia COVID-19.

Ka rrugë të shumta për nxjerrjen e të dhënave që mund të përdoren për të identifikuar modelet dhe treguesit e segmenteve të klientëve në të dhënat e nivelit të klientit të kapur nga faqja e internetit. Zgjidhjet e minierave të të dhënave mund të parashikojnë gjasat e klientit për të pranuar paketat e pushimeve duke pasur parasysh karakteristikat e klientit, si dhe të identifikojnë variablat më të rëndësishëm kur klasifikojnë sjelljen e klientit. Duke zbatuar zgjidhje të nxjerrjes së të dhënave që japin njohuri mbi sjelljen e klientëve, Trips&Travel.com mund të përshtatë strategjinë e tyre të marketingut dhe të nisë Paketën e Turizmit Wellness për të synuar segmente me potencial të lartë për gjenerim të plumbit dhe rritje të të ardhurave.

Kuptimi i të dhënave

Ky grup të dhënash kapi informacione nga përdoruesit e Trips&Travel.com të cilëve u ishin paraqitur paketa pushimesh. Në këto të dhëna tabelare përfshiheshin informacione në nivel klienti, duke përfshirë moshën, profesionin, gjininë dhe të ardhurat mujore. Përveç kësaj, pati një përzgjedhje të mëtejshme të variablave që lidhen me biznesin kryesor të klientit tonë. Për shembull, lloji i paketës së pushimeve të tregtuar, kohëzgjatja e ofertës së shitësit, numri total i personave që planifikojnë të bëjnë udhëtimin me klientin dhe numrin total të ndjekjeve të bëra nga shitësi pas hapjes së shitjes.

ndryshorja e synuar për analizën tonë është ndryshorja kategorike “ProdTaken”, një variabël kategorik binare që tregon vendimin e klientit për të marrë ofertën e udhëtimit që i është bërë. Ne përdorëm këto të dhëna të nivelit të klientit dhe këtë ndryshore të synuar për të informuar detyrën tonë thelbësore për klasifikimin e grupeve të klientëve me teknika të mbikëqyrura të mësimit të makinerive. Ne identifikuam segmente që mund të blejnë paketën e turizmit të mirëqenies, segmente me norma të larta konvertimi që do të lejonin kompaninë të maksimizonte efikasitetin e marketingut dhe gjenerimin e të ardhurave.

Përgatitja e të Dhënave

1) EDA

Në një rishikim të përciptë të të dhënave, ne numëruam të gjitha vlerat zero në secilën kolonë dhe rresht për të marrë një perspektivë mbi madhësinë e të dhënave që mungonin, duke vërejtur se të gjitha rreshtat nuk kishin më shumë se tre vlera nule. Ne identifikuam gjithashtu të dhëna joefektive për të thjeshtuar procesin tonë të nxjerrjes së të dhënave. Për shembull, fusha 'numri i identifikimit të klientit', e cila identifikon në mënyrë unike çdo klient, u hoq pasi nuk shtoi ndonjë informacion thelbësor në të dhënat në fjalë. Në vend të kësaj, ne krijuam një kolonë të thjeshtuar "X" për të identifikuar në mënyrë unike çdo klient.

Hapi i parë që u ndërmor në EDA-n tonë ishte një statistikë e thjeshtë përmbledhëse që u mor nga korniza jonë e të dhënave. Ky vështrim paraprak në të dhënat na dha intervalet për variablat tona të vazhdueshme, si dhe tregoi se kishte një numër të vlerave nule brenda ndryshoreve tona të vazhdueshme. Variablat kategorikë u analizuan duke ndërtuar grafikët e frekuencës dhe duke identifikuar praninë e vlerave nule brenda ndryshoreve tona kategorike. Një inspektim vizual i të dhënave dha gjithashtu rezultate të frytshme, pasi në të dhënat tona u vu re prania e dy regjistrimeve krejtësisht nule.

2) Përshkrimi i shpërndarjes së variablave numerikë

Siç mund ta shohim në Ekspozitën 1, ekipi ynë identifikoi shpërndarjen e çdo ndryshoreje numerike. Shumica e variablave duken të shpërndara mjaft normalisht. Sidoqoftë, variablat e emërtuara "Kohëzgjatja e hapit", "Numri i udhëtimeve" dhe "Të ardhurat mujore" janë të anuar djathtas. Funksioni, 'data_prof' identifikoi praninë e kurtozës midis variablave për 'Kohëzgjatja e hapit', 'Të ardhurat mujore' dhe 'Numri i udhëtimeve'. Shtrirja në përgjithësi ishte në një interval normal (midis -1 dhe 1), por ishte më i lartë në "Kohëzgjatja e lartësisë", "Të ardhurat mujore" dhe "Numri i udhëtimeve". Prania e kurtozës tregon një prani të madhe të jashtzave brenda bishteve të këtyre variablave përkatës. Ky është një konsideratë e rëndësishme që duhet të merret parasysh kur interpretojmë rezultatet tona përfundimtare nga një këndvështrim konkluzion, pasi gabimet standarde dhe statistikat t mund të fryhen.

3) Ballafaqimi me NA dhe Outliers

Nëpërmjet EDA-s sonë, ne vumë re se dy rreshtat e fundit të grupit tonë të të dhënave ishin të mbushura me vlera nule, kështu që morëm vendimin për t'i hequr këto dy rreshta. Për NA-të e pranishme brenda variablave tona numerike të vazhdueshme, ne krijuam një tabelë që shfaqte numërimin e vlerave të NA dhe vlerat e tyre mesatare. Për të ruajtur integritetin e të dhënave tona, ne zhvendosëm vlerat NA me mesataren për atë fushë. E vetmja variabël kategorike me vlera NA ishte "Lloji i Kontaktit". Kishte 27 vlera NA në këtë fushë (0.51% e grupit të të dhënave), dhe kështu, zgjidhja ishte heqja e rreshtave.

Përveç kësaj, ne krijuam grafikët e kutive për të identifikuar vizualisht praninë e të jashtëzakonshëm në të gjitha fushat numerike (“NumberofTrips”, “DurationOfPitch”, “NumberOfPersonVisiting” dhe “NumberOfFollowups” dhe “MonthlyCome”). Për secilën nga pesë kolonat, ne identifikuam vetëm gamën ndërkuartilore të ndryshores dhe mbajtëm vlerat që janë brenda kufirit të poshtëm (kuantili i 25-të — 1,5 * IQR) dhe kufiri i sipërm (kuantili i 75-të + 1,5 * IQR). Si rezultat, ne ishim në gjendje të krijonim një nëngrup të vlerave të fushës bazuar në pragjet për të gjitha fushat numerike, duke eliminuar rekordet që përmbajnë vlera të identifikuara si të jashtme në analizën tonë. Ne morëm vendimin për të përfshirë vlerat periferike të të ardhurave mujorebrenda grupit tonë të të dhënave, pasi ato korrespondonin me individë me të ardhura të larta dhe nëse i hiqnim këto, ne po hiqnim marrëdhëniet përkatëse nga të dhënat.Heqja e këtyre të dhënave do të krijonte një paragjykim në rezultatet tona, pasi ne do të eliminonim informacionin jetik në analizën tonë.

Hapi i fundit në përpunimin paraprak të të dhënave ishte krijimi i variablave të rremë për të përfaqësuar variabla të ndryshme kategorikebrenda grupit tonë të të dhënave. Pas lidhjes së këtyre kolonave me kornizën tonë të të dhënave, të dhënat tona ishin gati për ndërtimin e modelit dhe analiza të mëtejshme.

Modelimi

1) Modeli i maksimizimit të fitimit

Vendimi i biznesit që po modelohej ishte i bazuar në maksimizimin e fitimit të gjeneruar duke zbërthyer llogaritjen e fitimit në formën: Fitimi = Vlera * Probabiliteti. Meqenëse detyra jonë kryesore përqendrohej te klasifikimi dhe nuk u dhanë të dhëna për çmimin, vlera e biznesit që do të nxirrej qëndronte në identifikimin e nxitësve të probabilitetit të një klienti për të pranuar një ofertë pushimi(shih Ekspozitën 2 për supozimet). Nëse synojmë klientët, kemi një rast kur ata pranojnë ofertën ose refuzojnë ofertën tonë: 𝐸(𝑃𝑜𝑓𝑖𝑡|𝑇, 𝑋) = 𝑃(𝐴𝑐𝑐𝑒𝑝 𝑢𝑒 𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋) − 𝐶𝑜𝑠𝑡) + 𝑃 (𝑛𝑜𝑡𝐴𝑐𝑐𝑒𝑝𝑡 | 𝑇, 𝑋) * (𝑉𝑎𝑙𝑢𝑒 𝑁𝑜𝑡𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋) - 𝐶𝑜𝑠𝑡) e cila është e barabartë me: 𝐸 (𝑃𝑟𝑜𝑓𝑖𝑡 | 𝑇, 𝑋) = 𝑃 (𝐴𝑐𝑐𝑒𝑝𝑡 | 𝑇, 𝑋) * (𝑉𝑎𝑙𝑢𝑒 𝐴𝑐𝑐𝑒𝑝𝑡 𝑋) - 𝐶𝑜𝑠𝑡) + + ❑( klientët ekzistues besnikë): 𝐸 (𝑃𝑟𝑜𝑓𝑖𝑡 | 𝑛𝑜𝑡𝑇, 𝑋) = 𝑃 (𝐴𝑐𝑐𝑒𝑝𝑡 | 𝑛𝑜𝑡𝑇, 𝑋) * 𝑉𝑎𝑙𝑢𝑒 𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋) + 𝑃 (𝑛𝑜𝑡𝐴𝑐𝑐𝑒𝑝𝑡 | 𝑛𝑜𝑡𝑇, 𝑋) * 𝑉𝑎𝑙𝑢𝑒 𝑛𝑜𝑡𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋), e cila është e barabartë me: 𝐸 (𝑃𝑜𝑓𝑖𝑡|𝑛𝑜𝑡𝑇, 𝑋) = 𝑃(𝐴𝑐𝑐𝑒𝑝𝑡| 𝑒 𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋). Nëse i bashkojmë të dy komponentët, kemi

𝑇𝑜𝑡𝑎𝑙 𝑃𝑟𝑜𝑓𝑖𝑡 = 𝐸(𝑃𝑟𝑜𝑓𝑖𝑡|𝑇, 𝑋) + 𝐸(𝑃𝑟𝑜𝑓𝑖𝑡|𝑛𝑜𝑡𝑇, 𝑋) = 𝑃(𝐴𝑐𝑐𝑒𝑝𝑡|𝑇, 𝑋) * (𝑉𝑎𝑙𝑢𝑒 𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋) − 𝐶𝑜𝑠𝑡) + 𝑃(𝑛𝑜𝑡𝐴𝑐𝑐𝑒𝑝𝑡|𝑇, 𝑋) * (− 𝐶𝑜𝑠𝑡) + 𝑃(𝐴𝑐𝑐𝑒𝑝𝑡|𝑛𝑜𝑡𝑇, 𝑋) * 𝑉𝑎𝑙𝑢𝑒 𝐴𝑐𝑐𝑒𝑝𝑡 (𝑋)

Bazuar në këtë qasje, ne kemi zhvilluar modele të tilla siregresioni logjistik, regresioni LASSO dhe Random Forest për të përcaktuar nëse klientët individualë me karakteristika të caktuara do të merrnin paketën e re. Me supozimin se ne do të synojmë segmentet e klientëve që identifikojmë si më të mundshmet për të pranuar ofertën përmes analizës sonë, qëllimi ynë është të maksimizojmë probabilitetin që klientët e synuar të pranojnë ofertën tonë dhe të minimizojmë probabilitetin e klientëve të synuar. të cilët nuk e pranojnë ofertën tonë për të maksimizuar fitimin.

2) Komploti i korrelacionit dhe shumëkolineariteti

Përpara se të ndërtonim modelet tona, ne fillimisht identifikuam marrëdhëniet midis ndryshoreve tona numerike të pavarura duke përdorur një grafikë korrelacioni. Ne zbuluam se katër çifte të ndryshoreve tona treguan multikolinearitet, d.m.th., një variabël parashikues në modelin tonë mund të parashikohet në mënyrë lineare nga tjetra me një korrelacion prej 1.

Kështu, ne vendosëm të hiqnim një variabël nga çdo çift për të shmangur futjen e paragjykimeve në modelin tonë, domethënë, hoqëm katër llojet e paketave "standarde", "luksoze", "superdeluxe" dhe "mbret" duke mbajtur katër emërtimet "menaxher, " "SeniorManager", "AVP" dhe "VP" në grupin tonë të të dhënave. Për më tepër, ne identifikuam katër termat më domethënës të ndërveprimit që janë kuptimplotë për analizën tonë përmes një grafiku të ndërlidhur të renditur (Shfaqja 3) dhe vendosëm t'i përfshijmë ato (“NumberOfPersonVisiting” * “NumberOfChildrenVisiting”, “Mosha” * “Të ardhurat mujore,” "Të ardhurat mujore" * "VP" dhe "Të ardhurat mujore" * "AVP") në disa nga modelet tona.

Më pas, ne ndamë grupin e të dhënave origjinale në një grup trajnimi dhe një grup vërtetimi me një ndarje 8:2. Me dy grupe të dhënash të veçanta, ne ishim në gjendje të ndërtonim modele duke përdorur grupin e trajnimit dhe të testonim fuqinë parashikuese të modeleve tona duke e aplikuar atë në grupin e vlefshmërisë për të parashikuar variablin e rezultatit.

3) 5 Modele të Mësimit të Makinerisë

Meqenëse ky është një problem klasifikimi, pesë modelet që kemi zhvilluar për të klasifikuar nëse klientët do të marrin paketën përfshijnë: 1) modelin e regresionit logjistik, 2) modelin e regresionit logjistik me termat e ndërveprimit, 3) Regresioni LASSO, 4) regresioni pas LASSO, dhe 5) Modeli Random Forest. Më konkretisht, ne përfshimë si variablat numerikë ashtu edhe kategorikë (të zëvendësuar nga variablat dummy në përputhje me rrethanat) në regresionin e parë logjistik, variablat e pavarura numerike dhe kategorike (të zëvendësuara nga variablat dummy) model. Në modelin tonë të dytë, neshtuam katër termat e ndërveprimit të specifikuara më parëpër të kapur marrëdhënie të forta midis variablave të pavarur të zgjedhur. Në modelin tonë të tretë dhe të katërt, modeli i regresionit LASSO dhe i regresionit pas LASSO, vendosëm të përdorim një zgjedhje teorikisht të vlefshme për parametrin e penalitetit lambda për t'iu përshtatur modelit në mënyrë që të shmangim zgjedhjen e shumë ose shumë pak variablave. E fundit, por jo më pak e rëndësishme, ne ekzekutuam një model Random Forest me tre pemë CART, një minimum prej 1000 vëzhgimesh në çdo nyje terminale të pemës CART dhe 15 variabla të ekzaminuar në çdo ndarje të pemëve të CART të përshtatura për t'iu përshtatur të dhënave tona.

4) Kompensimet e secilit model

Brenda përzgjedhjes sonë të algoritmeve të nxjerrjes së të dhënave, kishtekompozime midis secilës zgjedhje. Megjithëse modelet e regresionit logjistik supozojnë një marrëdhënie lineare midis variablave të varur dhe të pavarur, ato mund të jenë ende shumë të dobishme për të gjetur probabilitetin e suksesit/dështimit të ngjarjes dhe drejtimin se si variablat lidhen me rezultatin. Këto modele gjithashtu mund të kapin marrëdhëniet midis variablave të varur individualë dhe variablave të pavarur duke prodhuar rezultate sasiore në forma numerike, duke mundësuar interpretimin efikas të efekteve margjinale të ndryshimit në secilën variabël të varur.

Ndërsa modelet e regresionit logjistik janë relativisht të lehta për t'u zbatuar dhe interpretuar, Pylli i rastësishëm, si një algoritëm i kutisë së zezë, vuan nga një mungesë shpjegueshmërie dhe interpretueshmëriesi dhe nga pak kontroll njerëzor mbi modelin. Pavarësisht nga ky disavantazh, modelet Random Forest konsiderohen ende mjete të fuqishme klasifikimi për shkak të aftësisë së tyre për të identifikuar variabla të rëndësishëm dhe për të ofruar saktësi të lartë duke balancuar kompromisin paragjykim-variancë. Ngjashëm me modelet Random Forest, modelet LASSO dhe Post-LASSO mund të zgjedhin gjithashtu variablat më të rëndësishme nga grupi i të dhënave të trajnimit. Megjithatë, këto modele nuk janë të afta të bëjnë përzgjedhje grupore dhe kanë tendencë të injorojnë variabla jo të rëndësishme që mund të ofrojnë njohuri interesante.

Vlerësimi dhe Gjetja

1) Vlerësimi

Vështirësia - Si duhet të vlerësojmë?

Fillimisht, ne u përpoqëm të verifikonim secilin model bazuar në vlerën e tij të R-Squared. Megjithatë, kjo nuk funksionoi dhe hasëm një papjekur për të. pak kohë.

Më vonë, zbuluam se meqenëse R-Squared është një përshkrim statistikor i mënyrës se si mostrat përshtaten përgjatë një modeli linear, funksionon vetëm nëse ka një lidhje lineare midis veçorive dhe rezultateve.

Për një model të bazuar në klasifikim, të gjithë parametrat përfshihen brenda një Matrice Konfuzioni. Prandaj, vendosëm të llogarisim Saktësia jashtë kampionit (OOS)në vend që të masim performancën e secilit model. Duke krahasuar performancën përmes një matrice konfuzioni, ne ishim në gjendje të llogarisnim normën e vërtetë pozitive (TPR), normën false pozitive (FPR), normën e vërtetë negative (TNR) dhe normën e gabuar negative (FNR) dhe të llogarisnim saktësinë duke përdorur ato vlera.

Për të vlerësuar saktësinë e OOS, ne kryem një K-Fold Cross Validation për të vlerësuar pesë modelet që krijuam (regresioni logjistik, regresioni logjistik me ndërveprime, LASSO, post-LASSO dhe Random Forest). Ne përcaktuam 10 palosje dhe çdo palosje e vetme tregoi se një model Pylli i rastësishëm funksionon më saktë midis pesë modeleve. Ekspozita e bashkangjitur (Eksponata 4) tregon performancën përgjatë palosjes dhe tabelën shoqëruese (Ekspozita 5). ) tregon saktësinë mesatare të secilit model nga 10 palosje. Bazuar në rezultatin nga ky proces verifikimi, mund të konkludojmë se modeli ynë Random Forest është mesatarisht rreth 94% e saktësisë së parashikimit në klasifikimin e klientëve. Bazuar në këtë gjetje, ne do të donim të navigojmë se si Trips & Travel.com duhet të zhvillojnë biznesin e tyre. Për të interpretuar rezultatin e Pyllit të rastësishëm, mund të shikojmë grafikun e rëndësisë së krijuar nga Pylli i rastësishëm (Shfaqja 6) për të identifikuarvariablat e renditur sipas rendit të përgjegjshmërisë si një standard i mirë klasifikimi.

2) Gjetja

Midis këtyre variablave, ne zgjodhëm tre treguesit më të rëndësishëm duke vizatuar secilin prej tyre me ProdTaken (ndryshore e varur). Ekspozita 7 është një komplot i 'Të ardhurave mujore'. Nga kjo, mund të konkludojmë se njerëzit me të ardhura më të larta mujore kanë një shans më të ulët për të marrë paketën eTrips & Travel.com, e cila ishte krejt në kundërshtim me atë që parashikonim përpara komplotit. Ekspozita 8 është paraqitur me "Mosha". Ky grafik tregon qartë se mosha e njerëzve që zgjedhin paketën janë më të ulëta se ata që nuk e zgjedhin. Për të qenë më specifik,mosha e grupit të mëparshëm varionte nga mesi i viteve 20 dhe fundi i viteve 30, ndërsa grupi i dytë ra midis fillimit të viteve 30 dhe mesi të 40-ta.Më në fund, Ekspozita 9 është Ekspozita 9 është. një komplot i bazuar në 'NumberOfTrips'. Nga ky komplot, mund të konfirmojmë se njerëzit që kishin udhëtuar 2–3 herë priren ta marrin paketën, ndërsa njerëzit që udhëtuan 3–4 herë më parë nuk ka gjasa të zgjedhin paketën.

Bazuar në këto gjetje, ekipi ynë do të sugjeronte Trips & Travel.com të zhvillojë strategji biznesi të synuara për grupet e klientëve të listuar më sipër. Metodat specifike do të ilustrohen në vendosje.

Vendosja dhe kufizimi

1) Vendosja

Duke optimizuar procesin e shtrirjes së marketingut duke identifikuar shtytësit kryesorë të pranimit të paketave, përfaqësuesit e shërbimit ndaj klientit dhe agjentët e udhëtimit mund të identifikojnë segmentet e tregut të qëndrueshëm që kanë gjasat më të larta për të pranuar ofertën. Rezultati i këtij gërmimi të të dhënave mund të vendoset duke rritur shpërndarjen e burimeve të marketingut për grupet e synuara. Sipas modelit tonë, nëse ne vë në shënjestër klientët të cilët mesatarisht kanë të ardhura më të ulëta / janë më të rinj / ne presim sasinë më të madhe të kthimit për të rritur më tej biznesin, pasi ne synojmë klientët me gjasat më të larta për të pranuar paketën e pushimeve dhe vlerën gjeneruese. Për më tepër, duke shpërndarë burime marketingu dhe duke ofruar stimuj të tillë si zbritje dhe paketa me çmime të reduktuara për segmentet me konvertim më të ulët, ne shpresojmë të rrisim gjasat për t'i përvetësuar ato dhe për të gjeneruar vlerë. Duke synuar grupet e duhura, ne jemi në gjendje të maksimizojmë P( 𝐴𝑐𝑐𝑒𝑝𝑡 | T, X) dhe të minimizojmë P(𝑛𝑜𝑡𝐴𝑐𝑐𝑒𝑝𝑡 | T, X) në të njëjtën kohë.

2) Kufizimi dhe kërkime të mëtejshme

Ekzistojnë gjithashtu disa çështje për të cilat firma duhet të jetë e vetëdijshme kur vendos këtë strategji. Kjo strategji bazohet në sjelljet e klientëve të pranishëm në të dhënat nga e kaluara. Për të ecur përpara, mund të ketë variabla të rinj, të cilët nuk përfshihen në grupin tonë të të dhënave, që një klient i vlerëson në mënyrë implicite kur shqyrton këtë paketë të re. Për të rregulluar mirë këtë strategji marketingu, do të duhet të merren më shumë të dhëna për të përshkruar më mirë klientët dhe sjelljet e tyre. Konsiderata më e rëndësishme etike që duhet analizuar është çështja e nevojës për më shumë të dhëna për të përshkruar klientin. Natyrisht, kjo nxjerr në pah parimet e integritetit dhe sigurisë së të dhënave që duhet të adresohen për të mbrojtur të dhënat e klientit, kështu që ky është një ekuilibër që duhet të merret parasysh.

Referencat

Deloitte. Vështrime të udhëtimit. https://www2.deloitte.com/us/en/insights/focus/transportation/summer-travel-survey-predictions.html

Kaggle. Paketa_Pushime_Parashikimi. https://www.kaggle.com/datasets/susant4learning/holiday-package-purchase-predictio