Een lijst van gekeurde Nederlandse woorden met hun betekenis. Ik kon voor een projectje geen soortgelijke dataset vinden online. Definities zijn opgeschoond met verschillende regexes, maar zijn nog niet helemaal schoon.
Het volgende formaat wordt gevolgd in Woordenlijst.txt:
Woord>Betekenis_1>Betekenis_2>...>Betekenis_n
Lijst valt onder het CC BY-SA 3.0 licentie, gezien het verwerken en gebruiken van wikitionary entries. Woorden zijn een subset van opentaal "OpenTaal-210G-basis-gekeurd.txt" van https://www.opentaal.org/bestanden. Subset is gebaseerd op de aanwezigheid van betekenissen in Wikitionary. Betekenissen zijn genomen van een recente dump van de wikitionary paginas; "nlwiktionary-20211001-pages-articles-multistream.xml" van https://dumps.wikimedia.org/nlwiktionary/.