Programim dhe zhvillim, javascript, python, php, html

Si të merrni shtegun e nyjeve përmes XMLreader

Unë e di se si të marr shtegun e nyjes përmes DODocument:

$dom = new DOMDocument;

$dom->loadXML('<fruits><fruit><name>Apple</name><name>Banana</name></fruit></fruits>');

foreach($dom->getElementsByTagName('*') as $node){
    // e.g. $node->getNodePath();
};

Pyetja ime është: Më duhet të marr të gjitha nyjet + numrin e herëve që ndodh në një skedar dhe kam skedarë SHUMË të mëdhenj.

Një skedar shembull është ky:

<products>
    <product>
        <properties>
            <property></property>
            <property></property>
        </properties>
    </product>
    ...
</products>
  • nyja <products> shfaqet 1 herë (sepse është nyja rrënjë)
  • nyja <product> shfaqet 60 000 herë
  • nyja <property> shfaqet 120 000 herë (2 herë për produkt)

PARALAJMËRIM: sepse çdo skedar është i ndryshëm, unë NUK e kam emrin e nyjës rrënjë! në këtë shembull, është <products> por mund të jetë diçka tjetër). Për të marrë emrin e nyjës rrënjë, unë përdor këtë kod:

$simpleXML = simplexml_load_file(<-- filename goes here -->);
$root = $simpleXML->getName();

Kam gjetur këtë depo: https://github.com/dkrnl/SimpleXMLReader

Pastaj përdor këtë kod:

$reader = new SimpleXMLReader;

$reader->open(<!-- filename goes here -->);

$reader->registerCallback($root,function($reader){

    $xml = $reader->expandDomDocument();

    foreach($xml->childNodes as $child){

        list($nodes,$counter) = getChildrenOfAllNodes($child,$nodes,$counter);

    };

};

$reader->parse();

$reader->close();

Dhe ky është funksioni im "getChildrenOfAllNodes":

    function getChildrenOfAllNodes(DOMNOde $node,$nodes,$counter){

        foreach($node->childNodes as $child){

            if($child->hasChildNodes()){

                list($nodes,$counter) = getChildrenOfAllNodes($child,$nodes,$counter);

            };

            if(strpos($child->nodeName,'#') === false){

                if(array_key_exists($child->nodeName,$nodes)){

                    $nodes[$child->nodeName]['count'] += 1;

                    $nodes[$child->nodeName]['path'] = $child->getNodePath();

                }else{

                    $nodes[$child->nodeName] = array(
                        'name'  => $child->nodeName,
                        'path'  => $child->getNodePath(),
                        'count' => 1
                    );

                }

                $counter++;

            };

        };

        return array($nodes,$counter);

    };

Punon me skedarë rreth 1000 nyje, por skedarë me më shumë se 1000 nyje, vazhdon të përpunohet.

Pyetja ime është: a ka një zgjidhje (më të mirë) (se kjo) për të marrë të gjithë emrat + nyjet në një skedar xml për skedarë shumë të mëdhenj?

Faleminderit!

10.08.2017

Përgjigjet:


1

XMLReader është rruga për të shkuar. Por nuk duhet ta zgjeroni të gjithë dokumentin (Kjo është ajo që ndodh në shembull).

Ju përdorni XMLReader:read() dhe XMLReader:next() për të lundruar te nyjet që përfaqësojnë të dhënat tuaja (product). Zgjero atë nyje në DOM dhe përdor metoda DOM/xpath për të marrë të dhëna, DOMNode::getNodePath() për të marrë shtegun e pjesshëm të nyjes.

Parashtesoni atë shteg manualisht me strukturën e jashtme, p.sh. ndryshoje sipas tij.

$reader = new XMLReader();
$reader->open('php://stdin');

$document = new DOMDocument();
$xpath= new DOMXpath($document);

while ($reader->read() and $reader->localName != 'fruit') { 
}

if ($reader->localName == 'fruit') {
  $counter = 0;
  do {
    $fruit = $reader->expand($document);
    $counter++;
    foreach ($xpath->evaluate('name', $fruit) as $name) {
      var_dump(
        [ 
          'name' => $name->textContent,
          'local_path' => $name->getNodePath(),
          'path' => preg_replace(
            '(^/(\w+))', '/fruits$2['.$counter.']', $name->getNodePath()
          )  
        ]
      );
    }
  } while ($reader->next('fruit'));
}

Prodhimi:

array(3) {
  ["name"]=>
  string(5) "Apple"
  ["local_path"]=>
  string(14) "/fruit/name[1]"
  ["path"]=>
  string(18) "/fruits[1]/name[1]"
}
array(3) {
  ["name"]=>
  string(6) "Banana"
  ["local_path"]=>
  string(14) "/fruit/name[2]"
  ["path"]=>
  string(18) "/fruits[1]/name[2]"
}

Nëse nuk i njihni vetë nyjet, do t'ju duhet të përsërisni duke përdorur strukturën, kontrolloni llojet e nyjeve dhe ruani emrat e nyjeve të gjetura në variabla.

$nodeNames = [
  'list' => NULL,
  'item' => NULL
];
while ($reader->read()) {
  if ($reader->nodeType == XML_ELEMENT_NODE) {
    if (NULL === $nodeNames['list']) {
      $nodeNames['list'] = $reader->localName;
    } elseif (NULL === $nodeNames['item']) {
      $nodeNames['item'] = $reader->localName;
    } else {
      break;
    }
  }
}

var_dump($nodeNames);
if ($reader->nodeType == XML_ELEMENT_NODE && $reader->localName == $nodeNames['item']) {
  $counter = 0;
  do {
    $item = $reader->expand($document);
    var_dump($item->getNodePath());
  } while ($reader->next($nodeNames['item']));
}
10.08.2017
Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.
Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false
A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python
Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React
Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2
Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS
Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues
Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..