Pérégrinations: [Tuto] XPath et PHP5

Sommaire

Qu'est-ce qu'XPath ?

Comment l'utiliser en PHP5 ?

Comment accéder aux éléments ?

La syntaxe XPath appliquée à la recherche d'éléments

Notation complète :

Notation abrégée :

Arborescence des noeuds :

Désigner plusieurs noeuds à la fois :

La syntaxe XPath appliquée à la recherche d'attributs

La syntaxe XPath appliquée à la recherche de texte

Syntaxe d'un flux RSS 2.0 dans du XML

Exemple : afficher les titres de flux RSS contenant le mot PHP

Sources

En savoir plus

Qu'est-ce qu'XPath ?

XPath
est un langage pour désigner une portion d'un document
XML
.
Au départ, XPath a été créé pour uniformiser une syntaxe entre XSL (feuilles de style pour documents XML) et XPointer (désigneurs de documents XML à distance). Donc XPath permet d'accéder précisément à un élément d'un document XML.
XPath est utilisé par les développeurs comme une syntaxe de tri et de recherche dans les documents XML, grâce à ses expressions régulières. En effet, couplé à un langage de programmation, par les boucles, on peut donc extraire des données précises d'un document XML. Une utilisation, par exemple pourrait être de trier des titres de nouvelles arrivant dans un flux RSS, par un mot-clef.
Comment l'utiliser en PHP5 ?

En PHP5, les fonctions DOMDocument ont été complétées par l'extension simpleXML qui ajoute une manière simple et orientée objet d'accéder à des arbres DOM, donc à tout document XML, ou XHTML.
Comment accéder aux éléments ?

Nous nous intéresserons aux noeuds de trois types :
1. les noeuds d'éléments, c'est-à-dire les balises XML
2. les noeuds d'attributs, qui ajoutent des informations aux balises
3. les noeuds de texte, les données du document
Notez que simpleXML propose déjà des méthodes pour accéder aux éléments et attributs.
1. La syntaxe XPath appliquée à la recherche d'éléments
  
  Il existe deux syntaxes pour noter le chemin à travers les éléments du DOM XML : la méthode complète, qui garantit le moins d'erreurs possibles et le plus de précision, et la méthode abrégée qui est plus rapide à écrire.
  Soient des balises, et je veux désigner l'élément c:
  
  <a>
  
  <b>
  
  <c></c>
  
  <c></c>
  
  <c></c>
  
  </b>
  
  </a>
2. La syntaxe XPath appliquée à la recherche d'attributs
  
  La notation longue des attributs se fait par le mot clef attribute, et la notation abrégée par le caractère @.
  
  <personne>
  
  <yeux couleur ="bleu">
  
  </yeux>
  
  <cheveux couleur="blond">longs</cheveux>
  
  </personne>
  
  <personne>
  
  <yeux couleur ="gris">
  
  </yeux>
  
  <cheveux couleur="blond">en brosse</cheveux>
  
  </personne>
  
  <personne>
  
  <yeux couleur ="brun">
  
  </yeux>
  
  <cheveux couleur="noir">courts</cheveux>
  
  </personne>
  Pour désigner les attributs de couleurs d'yeux, je note :
  
  /child::personne/child::yeux/attribute::couleur (complète)
  /personne/yeux/@couleur (abrégée)
3. La syntaxe XPath appliquée à la recherche de texte
  
  On utilise la fonction contains(chaine, motif). Depuis PHP, notre chaîne sera le titre de la nouvelle qu'on souhaite examiner. On peut examiner aussi bien les noeuds que leurs attributs, que le texte contenu dans le noeud élément.
  
  Syntaxe d'un flux RSS 2.0 dans du XML
  
  <rss version="2.0">
  
  <channel>
  
  <title>Titre du channel</title>
  
  <link>http://www.monsite.com</link>
  
  <description>Description du channel</description>
  
  items...
  
  </channel>
  
  </rss>
  
  Exemple : afficher les titres de flux RSS contenant le mot PHP
  
  //On spécifie les sources RSS
  
  $tablo_flux[0] = 'http://afup.org/backend.php3';
  
  $tablo_flux[1] = 'http://www.nexen.net/index2.php?option=com_rss&feed=RSS0.91&no_html=1';
  
  $tablo_flux[2] = 'http://news.google.fr/news?oe=utf-8&client=firefox-a&rls=org.mozilla:fr:official&tab=dn&ned=fr&topic=t&output=rss';
  
  // Nous connaissons l'arborescence de ces flux, car c'est spécifié
  
  for($i=0;$i < count($tablo_flux);$i++)
  
  {
  
  $racine[$i] = simplexml_load_file($tablo_flux[$i]);
  
  //sensible à la casse
  
  $recherche = '/rss/channel/item[contains(title,"PHP")]/title';
  
  $titres = $racine[$i]->xpath($recherche);
  
  // Quand il n'y a pas de résultat, $titres vaut FALSE
  
  if($titres)
  
  {
  
  foreach($titres as $actu)
  
  {
  
  echo '<a href="'.htmlentities((string)$actu->link).'">'.utf8_decode($actu)."</a><br />";
  
  }
  
  }
  
  }
Sources

http://fr.wikipedia.org/wiki/XPath

http://xmlfr.org/w3c/TR/xpath/

http://www.w3.org/TR/xpath20/

http://fr.selfhtml.org/xml/representation/syntaxexpath.htm

http://jerome.developpez.com/xmlxsl/xpath/?lpage=&rpage=1

http://www.oreilly.com/catalog/xmlnut/chapter/ch09.html

http://www.stervinou.com/projets/rss/
En savoir plus

Article de Wikipedia sur Xpath

http://fr.wikipedia.org/wiki/XPath
Norme du W3C sur XPath

http://www.w3.org/TR/xpath
Manuel PHP sur SimpleXML

http://fr2.php.net/manual/fr/ref.simplexml.php

Extrait d'un ouvrage O'Reilly (XML in a Nutshell
By Elliotte Rusty Harold & W. Scott Means
)

http://www.oreilly.com/catalog/xmlnut/chapter/ch09.html
Les fonctions Xpath
http://fr.selfhtml.org/xml/representation/fonctionsxpath.htm
Former des flux RSS 2.0 http://ghostdogpr.developpez.com/articles/rss/

Libellés : php, tuto, tutoriel, xml, xpath

[poster sur Del.icio.us]

Pérégrinations

Evénement

Que fais-je ?

J'aime, je link

Posts PrÃ©cÃ©dents

Mon autre blog

09 mars 2006

[Tuto] XPath et PHP5

Qu'est-ce qu'XPath ?

Comment l'utiliser en PHP5 ?

Comment accéder aux éléments ?

La syntaxe XPath appliquée à la recherche d'éléments

Notation complète :

Notation abrégée :

Arborescence des noeuds :

Désigner plusieurs noeuds à la fois :

La syntaxe XPath appliquée à la recherche d'attributs

La syntaxe XPath appliquée à la recherche de texte

Syntaxe d'un flux RSS 2.0 dans du XML

Exemple : afficher les titres de flux RSS contenant le mot PHP

Sources

En savoir plus