Achtergrondinformatie en verdiepende materialen bij het KB Summerschool onderdeel "PDF en EPUB ontrafeld".
The History of the PDF: Timeline
Inside PDF is een serie artikelen over hoe het PDF formaat in elkaar zit. Erg technisch, dus vooral voor de echte die-hards!
-
What's so hard about PDF text extraction?. Dit artikel geeft een goed overzicht van de vele problemen die kunnen optreden bij de extractie van tekst uit PDF bestanden.
-
Brief Overview of the Portable Document Format and Some Challenges for Text Extraction
A look inside an EPUB file - een EPUB bestand is eigenlijk gewoon een ZIP container, met daarin XML metadata en XHTML content.
Valid, but not accessible: crazy fixed EPUB layouts gaat in op problemen die kunnen optreden met "fixed layout" EPUB bestanden. Tekstextractie op dergelijke bestanden kan ook onverwachte resultaten opleveren. Niet genoemd hier: EPUBs die uit alleen maar afbeeldingen bestaan (dit zie je vaak bij geïllustreerde kinderboeken).
Apache Tika is open-source software voor het herkennen en extraheren van metadata en tekst. Tika ondersteunt een groot aantal bestandsformaten, waaronder PDF en EPUB.
Tika-python is een Python wrapper waarmee je Apache Tika binnen Pythonprojecten kunt gebruiken.
pip install tika
Onderstaande code leest een input PDF bestand uit, extraheert de tekst met Tika-python, en schrijft de geëxtraheerde tekst weg naar een output tekstbestand:
#! /usr/bin/env python3
import tika
from tika import parser
# Define input, output
fileIn = "whatever.pdf"
fileOut = "whatever.txt"
# Parse input file
parsed = parser.from_file(fileIn, service='text')
# Get text
content = parsed["content"]
# Write text to output file
with open(fileOut, 'w', encoding='utf-8') as fout:
fout.write(content)
- Working with batches of PDF files - o.a. extractie van tekst, afbeeldingen, en optische tekenherkenning met open-source command-line tools.
- PDF processing and analysis with open-source tools - nog meer PDF manipulatie met open-source command-line tools.