Python et pdf¶

Il eexiste une librairie permettant de manipuler des fichiers pdf

pypdf: http://pybrary.net/pyPdf/ version de python testé: python 27

permet de créer et de manipuler des fichiers pdf

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("document1.pdf", "rb"))

# print the title of document1.pdf
print "title = %s" % (input1.getDocumentInfo().title)

# add page 1 from input1 to output document, unchanged
output.addPage(input1.getPage(0))

# add page 2 from input1, but rotated clockwise 90 degrees
output.addPage(input1.getPage(1).rotateClockwise(90))

# add page 3 from input1, rotated the other way:
output.addPage(input1.getPage(2).rotateCounterClockwise(90))
# alt: output.addPage(input1.getPage(2).rotateClockwise(270))

# add page 4 from input1, but first add a watermark from another pdf:
page4 = input1.getPage(3)
watermark = PdfFileReader(file("watermark.pdf", "rb"))
page4.mergePage(watermark.getPage(0))

# add page 5 from input1, but crop it to half size:
page5 = input1.getPage(4)
page5.mediaBox.upperRight = (
    page5.mediaBox.getUpperRight_x() / 2,
    page5.mediaBox.getUpperRight_y() / 2
)
output.addPage(page5)

# print how many pages input1 has:
print "document1.pdf has %s pages." % input1.getNumPages()

# finally, write "output" to document-output.pdf
outputStream = file("document-output.pdf", "wb")
output.write(outputStream)
outputStream.close()

Cette librairie permet de manipuler les pdf a volonter (fusion, découpage, rotation) mais aussi par exemple extraction des commentaires (on a accès aux objets que contient le pdf)

import pyPdf

def extract(path):
    pdf = pyPdf.PdfFileReader(file(path,"rb"))
    list(pdf.pages) # Process all the objects.
    objs = pdf.resolvedObjects

    for i in range(0,pdf.getNumPages()):
        pg = pdf.getPage(i)
        if pg.has_key('/Annots'):
            for note in pg['/Annots']:
                if objs[0][note.idnum].has_key('/Contents'):
                    print("Page %i : %s" % (i, objs[0][note.idnum]['/Contents']))

extract('file.pdf')