Donnez vie à vos documents numériques !
 

Répondre à : Comment extraire le texte d’un pdf (1.4)

abracadabraPDF Forums PDF – Général Comment extraire le texte d’un pdf (1.4) Répondre à : Comment extraire le texte d’un pdf (1.4)

#50338
Leam
Invité

Merci pour vos réponses.

Pour mieux comprendre ce que je fais, c’est comme si vous ouvrez un fichier PDF avec un éditeur de texte comme Bloc-Note ou Nodepad++ et d’essayer d’extraire le texte présent.

Dans ma nouvelle recherche j’ai essayé de lire un fichier PDF conçu avec PDF créator.

En décompressant les valeurs entre les deux balises “stream” et “endstream” je suis maintenant capable de récupérer le texte car le codage est différent.

je remarque un codage similaire à celui présenté sur ce lien :
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx

avec des caractères qui peuvent être extrais facilement comme dans l’exemple du lien ci-dessus :
[(A)-2.7801(u)-2.7801( )-2.77991(p)-2.77991(l)-2.77991(a)-2.77954(i)-2.77991(s)-2.78065(i)-2.77991(r)-2.77991(,)600]TJ

Pour la phrase “Au plaisir,

Je ne connais pas trop le PDF, merci pour vos remarques, je vais voir le système de mesure d’encrage je ne sais pas ce que c’est ?