Donnez vie à vos documents numériques !
 

Indexation pivote des pages

abracadabraPDF Forums PDF – Général Indexation pivote des pages

  • Ce sujet est vide.
  • Créateur
    Sujet
  • #45122
    Zanluque
    Membre

    Bonjour,
    nouveau sur ce forum, je cherche une solution à un problème rencontré récemment.

    J’utilise Acrobat Pro X sur Windows 8.
    Le document en question est un Palmarès des années ’50 dont certaines pages sont en mode paysage. Le document est en mode A4 portrait.
    Le document a été scanné en PDF 600dpi.
    Les pages en mode paysage ont été pivotées avec Acrobat pour permettre une lecture plus aisée par les visiteurs d’un site où ce document sera disponible.
    J’ai besoin d’indexer ce document pour permettre la recherche du nom des élèves (et trouver les pages du document où figurent ces élèves).

    Après avoir lancé le processus d’indexation par
    -> Traitement du document / Optimiser le fichier PDF numérisé
    j’ai constaté que certaines pages se remettaient en mode portrait.
    En outre, les noms des élèves de ces pages pivotées ne faisaient pas partie de l’index (une recherche dans le document indexé ne permet pas de les retrouver).

    Comment empêcher Acrobat de pivoter ces pages ou l’obliger de conserver la mise en page initiale?

    Pour vos tests, j’ai mis ici quatre pages du PDF original:
    http://ovh.to/AHaZRfr

    Chez moi, après optimisation, une page sur deux pivote en mode portrait et n’est pas indexée.

    Une suggestion ?
    Cordialement,
    Jean-Luc

Affichage de 10 réponses de 1 à 10 (sur un total de 10)
  • Auteur
    Réponses
  • #58697
    Merlin
    Maître des clés

    Bonjour et bienvenue.

    En fait il faudrait essayer de ne pas faire la rotation des pages avant d’effectuer la Reconnaissance de caractères.
    Acrobat devrait le faire automatiquement, et indexer le texte en fonction.

    Je pourrais tester, y compris avec la version beta d’Acrobat DC, mais il faudrait que tu postes les fichiers originaux (avant OCR).

    #58698
    Zanluque
    Membre

    Bonjour Merlin,
    le problème dans les pages concernées, je crois, est qu’il y a du texte écrit “dans les deux sens”, c-à-d verticalement et horizontalement. Je ne veux indexer que le texte “horizontal”, lisible en mode paysage.
    Dans le fichier que j’ai envoyé (voir mon message initial), l’indexation n’est pas encore faite. Si on indexe ce fichier PDF, certaines pages sont basculées et d’autres pas. C’est Acrobat qui décide, semble-t-il, et cela, je ne le veux pas. Je veux forcer la reconnaissance de caractères dans l’orientation que j’impose pour les pages.
    Si je n’effectue pas la rotation des pages avant l’OCR, Acrobat m’indexe le texte que je ne souhaite pas car il pivote certaines pages et pas d’autres.
    Les pages sont des tableaux dont les noms des élèves sont écrits horizontalement dans la colonne de gauche et les matières étudiées (religion, math, langue) sont écrites verticalement dans le haut des colonnes de droite.
    Cordialement,
    Jean-Luc

    #58699
    Merlin
    Maître des clés

    Dans le fichier que j’ai envoyé (voir mon message initial), l’indexation n’est pas encore faite.

    Je ne sais pas exactement ce que tu entends par “indexer” mais dans ton document la reconnaissance de caractères a déjà été effectuée, sauf sur une seule page.
    En tous cas si tu as encore les originaux je serais curieux de savoir ce que ça donne avec Acrobat DC.
    :Smiley01:

    #58700
    Zanluque
    Membre

    Merci pour l’attention portée à mon problème.
    Je continuerai la discussion ce week-end (et la préparation des fichiers originaux) car je suis indisponible avant cela.
    Cordialement,
    Jean-Luc

    #58701
    Zanluque
    Membre

    Voilà…
    Tous les documents nécessaires pour effectuer les essais.
     
    Les 5 pages scannées (format PNG sous conteneur ZIP):
    Images_43_47.zip :

    http://ovh.to/sACkXcN

    Le fichier PDF créé au départ de ces 5 pages:
    Palmares 43_47.pdf :

    http://ovh.to/tW4DWoy

    Ce que j’appelle “indexer” est le traitement du PDF pour rendre le texte reconnaissable en tant que tel (OCR) et permettre ultérieurement la recherche de mots dans ce texte.
    Cette opération s’effectue (dans mon Acrobat X Pro) via
    -> Outils
    -> Traitement du document
    -> Optimiser le fichier PDF numérisé
    Cordialement,
    Jean-Luc

    #58702
    Merlin
    Maître des clés

    La seule chose qu’on peut faire c’est décocher l’option “Rotation automatique des pages” pour éviter les rotations intempestives.
    Mais pour le reste je ne vois pas quoi faire, y compris avec Acrobat DC…
    :joker:

    #58703
    Zanluque
    Membre

    La seule chose qu’on peut faire c’est décocher l’option “Rotation automatique des pages” pour éviter les rotations intempestives.
    Mais pour le reste je ne vois pas quoi faire, y compris avec Acrobat DC…
    :joker:

    Bonjour Merlin,
    je ne trouve pas l’endroit où décocher “Rotation automatique des pages”.

    Dans ce problème, j’ai l’impression que Acrobat compare la quantité de texte écrit horizontalement avec celui écrit verticalement et si ce dernier est plus important (s’il comporte plus de mots), Acrobat pivote la page en faveur de cette lisibilité-là.

    Existe-t-il un autre logiciel qui puisse obtenir ce que je souhaite ?

    Cordialement,
    Jean-Luc

    #58704
    Merlin
    Maître des clés

    Existe-t-il un autre logiciel qui puisse obtenir ce que je souhaite ?

    Je ne sais pas.
    :joker:

    #58705
    Zanluque
    Membre

    Bonjour Merlin,
    Merci pour la capture-écran.

    La fonction “redressement” ne concerne pas le pivotage des pages. Cette fonction remet à l’horizontale un texte qui serait incliné.
    Si on la désactive, les pages pivotent quand même.
    :mur:
    Je vais aller voir du côté des logiciels de reconnaissance de caractères (OCR), genre Sprint Abby Finereader, s’il n’y aurait pas une solution par ce biais.

    Cordialement,
    Jean-Luc

    #58706
    Merlin
    Maître des clés

    :bonjour:

Affichage de 10 réponses de 1 à 10 (sur un total de 10)
  • Vous devez être connecté pour répondre à ce sujet.