You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
A partir da gestão dos resultados da melhora proposta pela issue #23 ficou evidente a necessidade de se também efetuar ações a partir deste projeto na Wikidata.
Casos de erro de atribuição
Não tem como descobrir, e por isso a validação com o idIBGE é tão importante. Uma vez detectada a suspeita deve-se proceder à verificação humana. As suspeitas tem sido geradas com sucesso pelo php src/etc/dumpWikidata.php chk, que por sua vez permite listar com SQL e gerar um CSV. O procedimento completo seria:
Gera lista dos suspeitos em CSV (exemplo SQL abaixo).
Converte CSV em planilha Google ou interface similar para testar links, exemplo.
Converte dados apurados em SQL (UPDATE em função do idIBGE, final abaixo).
COPY (
SELECT"idIBGE",name||'/'||state as cidade_nome, ''as"WIKIDATA_correctConfirmed",
concat('https://www.google.com.br/search?q=',replace("lexLabel",'.','+'),'+',upper(state),'+wikipedia+município') as"click_and_check"FROMio.citybrWHERE"idIBGE"IN (
'1700400','5200605','1500859','5000708','....','2616308','2933307'
)
) to '/tmp/buscarWikidataCorreto.csv' HEADER CSV;
---- depois da verificação humanaUPDATEio.citybrset"wdId"='Q22060165'WHERE"idIBGE"='1700400';
UPDATEio.citybrset"wdId"='Q22060523'WHERE"idIBGE"='5200605';
UPDATEio.citybrset"wdId"='Q22060315'WHERE"idIBGE"='1500859';
UPDATEio.citybrset"wdId"='Q22067433'WHERE"idIBGE"='5000708';
...
Demanda por merge na Wikidata
Ao subir as ~50 correções e conferir páginas Wikidata, ficou mais evidente o problema da duplicação de conceitos na Wikidata (!), tipicamente entidades mais antigas sendo mantidos como verdadeiras, apesar da Wikipedia apontar para duplicada mais nova.
.... Uma solução que ajuda a destacar os problemáticos é criando um atributo no nosso dump que list o número de links Wikipedia e destaque o link para a Wikipedia Português, que é a "fonte fiável" de auditoria do conceito.
Outras dicas e confirmações de que ter a referência idIBGE é a melhor saída antes do merge.
A partir da gestão dos resultados da melhora proposta pela issue #23 ficou evidente a necessidade de se também efetuar ações a partir deste projeto na Wikidata.
Casos de erro de atribuição
Não tem como descobrir, e por isso a validação com o
idIBGE
é tão importante. Uma vez detectada a suspeita deve-se proceder à verificação humana. As suspeitas tem sido geradas com sucesso pelophp src/etc/dumpWikidata.php chk
, que por sua vez permite listar com SQL e gerar um CSV. O procedimento completo seria:Gera lista dos suspeitos em CSV (exemplo SQL abaixo).
Converte CSV em planilha Google ou interface similar para testar links, exemplo.
Converte dados apurados em SQL (UPDATE em função do idIBGE, final abaixo).
Demanda por merge na Wikidata
Ao subir as ~50 correções e conferir páginas Wikidata, ficou mais evidente o problema da duplicação de conceitos na Wikidata (!), tipicamente entidades mais antigas sendo mantidos como verdadeiras, apesar da Wikipedia apontar para duplicada mais nova.
.... Uma solução que ajuda a destacar os problemáticos é criando um atributo no nosso dump que list o número de links Wikipedia e destaque o link para a Wikipedia Português, que é a "fonte fiável" de auditoria do conceito.
Outras dicas e confirmações de que ter a referência idIBGE é a melhor saída antes do merge.
The text was updated successfully, but these errors were encountered: