Unë kam një bazë të dhënash postgresql që e përdor për një server prodhimi. Unë dua të krijoj një grup Hadoop/Spark për të ekzekutuar punët e mapreduce. Për ta bërë këtë, më duhet të ngarkoj të dhënat nga baza ime e të dhënave postgres në hdfs. Qasja naive është të kesh një punë grupore që një herë në ditë hedh përmbajtjen e bazës së të dhënave (120 GB) në HDFS. Kjo do të ishte e kotë dhe e kushtueshme. Meqenëse shumica e të dhënave nuk do të ndryshojnë nga një ditë në tjetrën, teorikisht mund të jetë shumë më e lirë dhe më efikase të dërgohen vetëm ndryshimet çdo ditë. A është e mundur kjo?
Kam lexuar pak për sqoop dhe duket se ofron funksionalitetin që dua, por kërkon të bëj ndryshime në bazën e të dhënave dhe aplikacionin. A ka ndonjë mënyrë që nuk kërkon të bësh ndonjë ndryshim në bazën e të dhënave?