Donnez vie à vos documents numériques !
 

Répondre à : Comment extraire le texte d’un pdf (1.4)

abracadabraPDF Forums PDF – Général Comment extraire le texte d’un pdf (1.4) Répondre à : Comment extraire le texte d’un pdf (1.4)

#50338
Leam
Invité

Merci pour vos réponses.

Pour mieux comprendre ce que je fais, c’est comme si vous ouvrez un fichier PDF avec un éditeur de texte comme Bloc-Note ou Nodepad++ et d’essayer d’extraire le texte présent.

Dans ma nouvelle recherche j’ai essayé de lire un fichier PDF conçu avec PDF créator.

En décompressant les valeurs entre les deux balises « stream » et « endstream » je suis maintenant capable de récupérer le texte car le codage est différent.

je remarque un codage similaire à celui présenté sur ce lien :
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx

avec des caractères qui peuvent être extrais facilement comme dans l’exemple du lien ci-dessus :
[(A)-2.7801(u)-2.7801( )-2.77991(p)-2.77991(l)-2.77991(a)-2.77954(i)-2.77991(s)-2.78065(i)-2.77991(r)-2.77991(,)600]TJ

Pour la phrase « Au plaisir,« 

Je ne connais pas trop le PDF, merci pour vos remarques, je vais voir le système de mesure d’encrage je ne sais pas ce que c’est ?