Στόχος του project είναι να συνενώσει τα αρχεία που παίρνει ως εισόδους με βάση το πρώτο πεδίο τους το οποίο είναι ένας μοναδικός identifier για κάθε τίτλο. Για κάθε τίτλο που εμφανίζεται και στα δύο αρχεία εισόδου, εμφανίζονται τα πεδία identifier και primaryTitle που βρίσκονται στο αρχείο title.basics.tsv και για κάθε εναλλακτικό τίτλο του στο title.akas.tsv, τον εναλλακτικό τίτλο και σε παρένθεση τις περιοχές στις οποίες χρησιμοποιείται ο εναλλακτικός τίτλος. Το αποτέλεσμα είναι ένα tab seperated αρχείο εξόδου. Το project διαβάζει τα αρχεία και βγάζει αποτελέσματα χωρίς να φορτώσει όλα τα δεδομένα στην μνήμη.
Τα δεδομένα χρησιμοποιούνται από την βάση της IMDB (Internet Movie Database).
link
Τα αρχεία εισόδου πρέπει να βρίσκονται σε φάκελο "data".
Μέσα στον φάκελο "data" τους φακέλους:
- title.akas.tsv
- title.basics.tsv
Οι οποίοι βρίσκονται στα δεδομένα της βάσης.
MIT © 2020 Thomas Siozos