Snyggt i Python

Innehållsförteckning
De Skrapning av skärmen eller skärmskrapning, tillåter oss att extrahera information från en webbsida genom att ladda ner sidan och därefter bearbeta den med ett program; Detta är mycket användbart, särskilt när vi behöver uppdaterad information från en webbplats som inte har någon API tillgängliga eller några Webb-service.
Att utföra en Skrapning av skärmen, vi måste helt enkelt ladda ner innehållet och kunna manipulera det så att vi kan extrahera det som intresserar oss, för detta kan vi använda olika tekniker som användning av reguljära uttryck eller kanske hjälpa oss själva med andra bibliotek som t.ex. Städa.
Vad är Tidy?
För att kunna läsa a HTML Vi måste lita på dess struktur, eftersom eftersom vi inte vet exakt vilket innehåll den har, vet vi åtminstone att om vi söker efter strukturer HTML något vi kan få, dock inte alltid HTML den är välformad, antingen på grund av ett utelämnandefel, eller för att programmeraren vet att vissa webbläsare tenderar att tolka HTML även om det finns några brister.
Vid denna tidpunkt spelar in Städa, som inte är något annat än ett verktyg som gör att vi kan reparera felaktig HTML, är det mycket konfigurerbart och låter oss anpassa hur det ska tolka de korrigeringar det kan göra, på så sätt vet vi med säkerhet vilken typ av dokument kommer att resultera i slutet.
Låt oss först se en bild av en kod HTML Med många fel kan denna kod tolkas av vissa webbläsare, men det är inte en korrekt kod i sin bildning:

Som vi kan se har varje rad praktiskt taget ett fel, det vanligaste är att taggar inte stängs, sedan ser vi taggar som stängs på fel plats, etc.
Sedan använder vi Städa och låt oss se koden redan rättad, där kommer vi att inse hur viktigt detta bibliotek är och all hjälp det kan ge oss:

På bilden ser vi hur det korrigerades av Städa, måste vi notera att även om Tidy är ett stort bibliotek, kan det förmodligen inte lösa alla fel i HTMLDet hjälper oss dock mycket när det gäller att bygga vår välformade HTML.
Få ordning
Det finns flera sätt att få ordning på sin officiella sida http: / /tidy.sf.net. vi kan skaffa biblioteket, men det finns inget sätt i den källan att integrera det med Pytonorm så vi måste tillgripa en alternativ källa, för detta har vi två alternativ: uTidy tillgänglig på http: / /utidylib.berlios.de och mxTidy tillgänglig på http://egenix.com/files/python/mxTidy.html, uTidy verkar vara den mest uppdaterade av de två men mxTidy är lite lättare att installera, det är upp till alla att se vilken att använda.
Låt oss se ett exempel på hur man använder Städa När vi har installerat det, i följande kod är det vi ska göra att öppna en HTML -fil med fel och läsa den med Tidy, då visar vi informationen på skärmen.
 från delprocessimport Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close () print tidy.stdout.read () 

Som vi kan se är det ganska enkelt att använda StädaNär vi väl har tillräckligt med förtroende för det genom att känna till bibliotekets beteende väl kan vi uppnå mycket intressanta saker.Gillade du och hjälpte denna handledning?Du kan belöna författaren genom att trycka på den här knappen för att ge honom en positiv poäng
wave wave wave wave wave