Skip to content

Achtergrondinformatie en verdiepende materialen bij het KB Summerschool onderdeel PDF en EPUB

Notifications You must be signed in to change notification settings

KBNLresearch/summerSchoolPDFEpub

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 

Repository files navigation

PDF en EPUB ontrafeld

Achtergrondinformatie en verdiepende materialen bij het KB Summerschool onderdeel "PDF en EPUB ontrafeld".

Geschiedenis

The History of the PDF: Timeline

Opbouw en structuur

Inside PDF is een serie artikelen over hoe het PDF formaat in elkaar zit. Erg technisch, dus vooral voor de echte die-hards!

Problemen PDF tekstextractie

Geschiedenis

EPUB History and Future

Opbouw en structuur

A look inside an EPUB file - een EPUB bestand is eigenlijk gewoon een ZIP container, met daarin XML metadata en XHTML content.

Problemen EPUB tekstextractie

Valid, but not accessible: crazy fixed EPUB layouts gaat in op problemen die kunnen optreden met "fixed layout" EPUB bestanden. Tekstextractie op dergelijke bestanden kan ook onverwachte resultaten opleveren. Niet genoemd hier: EPUBs die uit alleen maar afbeeldingen bestaan (dit zie je vaak bij geïllustreerde kinderboeken).

Tekstextractie met Apache Tika

Apache Tika is open-source software voor het herkennen en extraheren van metadata en tekst. Tika ondersteunt een groot aantal bestandsformaten, waaronder PDF en EPUB.

Tika-python is een Python wrapper waarmee je Apache Tika binnen Pythonprojecten kunt gebruiken.

Tika-python instalatie

pip install tika

Tika-python voorbeeld

Onderstaande code leest een input PDF bestand uit, extraheert de tekst met Tika-python, en schrijft de geëxtraheerde tekst weg naar een output tekstbestand:

#! /usr/bin/env python3

import tika
from tika import parser

# Define input, output
fileIn = "whatever.pdf"
fileOut = "whatever.txt"

# Parse input file
parsed = parser.from_file(fileIn, service='text')

# Get text
content = parsed["content"]

# Write text to output file 
with open(fileOut, 'w', encoding='utf-8') as fout:
    fout.write(content)

Vergelijking tekstextractietools voor EPUB

Meer PDF tools

About

Achtergrondinformatie en verdiepende materialen bij het KB Summerschool onderdeel PDF en EPUB

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published