Kështu që unë dua të fshij të gjithë titujt e seksioneve të zeza në këtë faqe interneti, p.sh. Titulli i shkurtër, Interpretimi, Administrimi i Aktit... por deri tani mund ta bëj këtë vetëm për 2 të parat në Pjesën I.
import scrapy
class ActScraper1Spider(scrapy.Spider):
name = 'act_scraper_1'
allowed_domains = ['sso.agc.gov.sg']
start_urls = ['https://sso.agc.gov.sg/Act/AA2004']
def parse(self, response):
info = response.xpath("//div[@class='body']/table//td[@class='part']/div[@class='prov1']")
for titles in info:
yield {
'Section title': titles.xpath(".//td[@class='prov1Hdr']/span[2]/text()").get()
}
Ka gjithsej 8 pjesë të përfshira në këtë faqe interneti siç shihet nga 8 //table[@width='100%']
Titujt gjenden këtu //div[@class='body']/table//td[@class='part']/div[@class='prov1']/td[@class='prov1Hdr']/ span/text()