Donnez vie à vos documents numériques !
 

Répondre à : Trier des pages sur un critere "texte"

abracadabraPDF Forums PDF – Général Trier des pages sur un critere "texte" Répondre à : Trier des pages sur un critere "texte"

#63352
Merlin
Maître des clés

Je suppose que la moulinette qui a servi à générer ce PDF n’est pas très respectueuse des spécifications du format et place les mots à l’aveuglette.
Ci-joint le même PDF auquel j’ai appliqué le balisage automatique d’Acrobat Pro : les mots s’affichent dans l’ordre de lecture.

Mais pourquoi vouloir détecter la position des mots ?
Comme on la chance que ce qu’on cherche (six chiffres consécutifs) n’existe pas ailleurs dans les pages il suffit de comparer leur valeur avec une regex GREP qui ne capte que les “mots” entiers de six chiffres (les tirets ne sont pas comptés comme des mots ni avec, on le voit dans les résultats du script : ils n’apparaissent pas).

Ces deux regex sont utilisables (et testées, contrairement à la précédente qui est trop gourmande) :

bd{6,6}b
ou