abracadabraPDF › Forums › PDF – Général › Comment extraire le texte d’un pdf (1.4) › Répondre à : Comment extraire le texte d’un pdf (1.4)
Bonjour,
Merci pour vos questions, désolé de ne répondre que maintenant :Ooops:
En fait, je programme sous Lazarus c’est un peu comme DELPHI et j’aimerai lire le contenu d’un PDF sans passer par un quelconque lecteur.
J’ai vu que le texte du PDF est compressé en DEFLATE entre deux balises “stream” et “endstream”.
Une fois décompressé le texte est présent caractère par caractère entre deux basiles “beginbfchar” et “endbfchar”.
Avant la balise “beginbfchar” il y a le nombre de caractères, donc impossible de se tromper à l’extraction.
En voici un exemple :
25 beginbfchar
<01> <0042>
<02> <006F>
<03> <006E>
…
<19> <002E>
endbfchar
j’ai rajouté les points de suspension pour ne pas tout réécrire.
Les nombres sont écris en hexadécimal donc 19 en héxa = 25 en en décimal.
En me documentant sur le site officiel j’ai vu une documentation sur les PDF de 1300 pages… j’ai bien essayé de chercher mais sans grand résultats.
Je croyais que ça venait d’un codage CMAP mais je ne crois pas que ce soit ça. Alors peut être que les phrases sont codées comme avec le système T9 des téléphones portable ??? Je ne sais pas :doute:
Si vous pouvez m’aider j’aimerai bien réussir à récupérer ce texte, ou bien alors savoir où chercher ?
Merci !