ANÀLISI XML EN PYTHON

Aquest article se centra en com es pot analitzar un fitxer XML determinat i extreure'n algunes dades útils d'una manera estructurada. XML: XML significa eXtensible Markup Language. Va ser dissenyat per emmagatzemar i transportar dades. Va ser dissenyat per ser llegible tant per l'home com per la màquina. És per això que els objectius de disseny d'XML posen l'accent en la simplicitat, la generalitat i la usabilitat a través d'Internet. El fitxer XML que s'analitzarà en aquest tutorial és en realitat un canal RSS. RSS: RSS (Rich Site Summary sovint anomenat Really Simple Syndication) utilitza una família de formats de canals web estàndard per publicar informació actualitzada amb freqüència, com ara entrades de blocs, titulars de notícies, vídeo d'àudio. RSS és text sense format XML.

El format RSS en si és relativament fàcil de llegir tant per processos automatitzats com per humans.
L'RSS processat en aquest tutorial és el canal RSS de les notícies principals d'un lloc web de notícies popular. Podeu comprovar-ho aquí . El nostre objectiu és processar aquest canal RSS (o fitxer XML) i desar-lo en un altre format per a un ús futur.

Mòdul Python utilitzat: Aquest article es centrarà en l'ús d'inbuilt xml mòdul en Python per analitzar XML i el focus principal estarà en el ElementTree XML API d'aquest mòdul. Implementació: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

Carregueu el feed RSS des de l'URL especificat i deseu-lo com a fitxer XML.
Analitzeu el fitxer XML per desar les notícies com una llista de diccionaris on cada diccionari és una sola notícia.
Deseu les notícies en un fitxer CSV.

Intentem entendre el codi a trossos:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

Element

ElementTree

Element

parseXML()

tree = ET.parse(xmlfile)

ElementTree

fitxer xml.

root = tree.getroot()

arrencar ()

arbre

Element

for item in root.findall('./channel/item'):

element

./canal/element

XPath

element

canal

arrel

aquí

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

element

notícies

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

nen.atribut

url

mitjans de comunicació: contingut

news[child.tag] = child.text.encode('utf8')

nen.etiqueta

nen.text

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

llocs de notícies

savetoCSV()

Així doncs, aquí es veuen les nostres dades amb format ara:

Com podeu veure, les dades del fitxer XML jeràrquic s'han convertit en un simple fitxer CSV de manera que totes les notícies s'emmagatzemen en forma de taula. Això també fa que sigui més fàcil ampliar la base de dades. També es pot utilitzar les dades semblants a JSON directament a les seves aplicacions! Aquesta és la millor alternativa per extreure dades de llocs web que no proporcionen una API pública però que proporcionen alguns canals RSS. Es poden trobar tot el codi i els fitxers utilitzats a l'article anterior aquí . Què després?

Podeu fer una ullada a més fonts rss del lloc web de notícies utilitzat a l'exemple anterior. Podeu provar de crear una versió ampliada de l'exemple anterior analitzant també altres fonts rss.
Ets fan del cricket? Aleshores això El feed rss ha de ser del teu interès! Podeu analitzar aquest fitxer XML per obtenir informació sobre els partits de cricket en directe i utilitzar-lo per fer un notificador d'escriptori!

Test d'HTML i XML Crea un qüestionari

TechCodeview

Anàlisi XML en Python