Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Corrigindo consistência na Wikidata #26

Closed
ppKrauss opened this issue Jul 15, 2018 · 0 comments
Closed

Corrigindo consistência na Wikidata #26

ppKrauss opened this issue Jul 15, 2018 · 0 comments

Comments

@ppKrauss
Copy link
Contributor

ppKrauss commented Jul 15, 2018

A partir da gestão dos resultados da melhora proposta pela issue #23 ficou evidente a necessidade de se também efetuar ações a partir deste projeto na Wikidata.

Casos de erro de atribuição

Não tem como descobrir, e por isso a validação com o idIBGE é tão importante. Uma vez detectada a suspeita deve-se proceder à verificação humana. As suspeitas tem sido geradas com sucesso pelo php src/etc/dumpWikidata.php chk, que por sua vez permite listar com SQL e gerar um CSV. O procedimento completo seria:

  1. Gera lista dos suspeitos em CSV (exemplo SQL abaixo).

  2. Converte CSV em planilha Google ou interface similar para testar links, exemplo.

  3. Converte dados apurados em SQL (UPDATE em função do idIBGE, final abaixo).

COPY ( 
  SELECT "idIBGE",name||'/'||state as cidade_nome, '' as "WIKIDATA_correctConfirmed",
       concat('https://www.google.com.br/search?q=',replace("lexLabel",'.','+'),'+',upper(state),'+wikipedia+município') as "click_and_check"
  FROM io.citybr 
  WHERE "idIBGE" IN  (   
      '1700400','5200605','1500859','5000708','....','2616308','2933307'
  )
) to '/tmp/buscarWikidataCorreto.csv' HEADER CSV;

---- depois da verificação humana
UPDATE io.citybr set "wdId"='Q22060165' WHERE "idIBGE"='1700400';
UPDATE io.citybr set "wdId"='Q22060523' WHERE "idIBGE"='5200605';
UPDATE io.citybr set "wdId"='Q22060315' WHERE "idIBGE"='1500859';
UPDATE io.citybr set "wdId"='Q22067433' WHERE "idIBGE"='5000708';
...

Demanda por merge na Wikidata

Ao subir as ~50 correções e conferir páginas Wikidata, ficou mais evidente o problema da duplicação de conceitos na Wikidata (!), tipicamente entidades mais antigas sendo mantidos como verdadeiras, apesar da Wikipedia apontar para duplicada mais nova.

.... Uma solução que ajuda a destacar os problemáticos é criando um atributo no nosso dump que list o número de links Wikipedia e destaque o link para a Wikipedia Português, que é a "fonte fiável" de auditoria do conceito.

Outras dicas e confirmações de que ter a referência idIBGE é a melhor saída antes do merge.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant