Klargör i specifikationen för vilka textvärden som språk förväntas #84

matthiaspalmer · 2021-04-12T11:11:43Z

I dagsläget beskriver rekommendation 12 när man ska tillhandahålla en språkangivelse för en text. Det vore kanske lämpligt i en framtida version av specifikationen att lägga till information om detta direkt i specifikationsdokumentet.

salgo60 · 2021-04-12T11:41:06Z

Borde man inte vara tydlig att man skall jobba i riktning semantisk interoperabilitet och begära att det anges - eller finns detta men används inte? Tycker det känns 1980 att prata om att datat presenteras bara på ett språk och inte är språkoberoende...

Jag skrev en artikel i veckan hur vi skapar semantisk interoperabilitet med svenska Litteraturbanken, böcker från tidigt 1900-tal och verk från 1750 där dom redan 1750 insåg vikten av persistenta unika identifierare för runstenar (något jag tjatat om för dataset länk)

"Dataroundtripping Wikidata - Wikicommons - Runestones pictures"

Lyfter vi inte blicken så fortsätter galenskap som att FHM publicerar sitt data på en svensk WEBsida om hur Corona vaccineringen i Sverige fortskrider och OWiD som sammanställer data för hela världen måste läsa från den sidan... OWiD Sverige data --> uppdateras genom att dom hämtar datat från FHMs svenska websida

jag länkade denna diskussion från community.dataportal.se "Kategorisera API:er efter datasort"

kristineulander · 2021-04-14T09:37:40Z

Just språkangivelse för själva metadatan är ett krav för att i sin tur möta krav i lagen om digital offentlig service. Behovet handlar om en person med en uppläsningsmaskin använder Sveriges dataportal behöver språkangivelse finnas, annars kommer uppläsningen inte fungera på ett bra sätt. Eftersom dataportalen synliggör metadata som publiceras av andra tar vi fram rekommendationer och krav för denna metadata.

Absolut är semantisk interoperabilitet i data prioriterade frågor. Just i detta github-repo har vi ärenden som rör just metadataspecifikationen. Relaterat till dina kommentarer kan verksamheter i metadataspecifikationen peka ut unik idenfierare t.ex URI här

salgo60 · 2021-04-14T16:37:00Z

visa gärna med exempel jag tror ni springer åt fel håll. Att lägga översättningen i varje dataset utan att knyta ihop samma som känns fel tänkt.... vad händer om det blir krav på att stödja även svenska minoritets språk --> att man skall in och översätta alla dataset....

Att kravet skall vara att när ni hämtar ut data så skall det ha språktag löser man när man hämtar kopplingen till kunskapsgrafen där översättningen skall ligga. Jag har påtalat att EDP Europeiska Dataportalen gör fel som skickar runt massa text strängar med språktag se notebook och även min fråga till dom vid 54:10 minuter om dom inte springer åt fel håll som bara har textsträngar så svarar dom vagt att dom borde nog ha det... ett annat EU projekt Europeana samlar precis som EDP ihop objekt från 3500 museer och där har man inte språktag och inte kunskapsgraf så där har det blivit oanvändbar metadata se min blog "Carl Larsson who is that - sadly Europeana doesnt know --> #Metadatadebt" kostnad för projektet är nog > 100 miljoner Euro och dom starta 2012 med detta...

Om du lägger den språkberoende delen i en kunskapsgraf så behöver man

bara ändra på ETT ställe så ändras detta i alla dataset som pekar på detta objekt i kunskapsgrafen
skall du stödja flera språk så ändrar du på ett ställe och lägger till detta språk i kunskapsgrafen
när du hämtar ut data så kopplar du ihop objektet i kunskapsgrafen
snyggast vore om ni skapa en kunskapsgraf ihop med alla andra dataportaler så vi enkelt kan söka i alla EU portaler samtidigt på vårt eget språk och läsa på vårt eget språk
Jag ser bara Wikidata som ett socialt experiment som visar att tekniken finns men skall man vara seriösa som Amazon, Facebook, Google så har man sin egen kunskapsgraf....

Datamängdens huvudsakliga identifikator, t.ex. en URI eller annan unik identifierare i katalogens sammanhang.
känns mer att ha en unik identifierare för datamängden vilket är lika viktigt

Jag kollade lite hos EDP och dom sitter med massa data med språkkoder och har ingen kunskapsgraf dvs. det står "kommunkod lang=sv" dvs. kan du inte svenska så måste du börja leta vad kommunkod betyder och försöka förstå vad det är och skall du hitta motsvarande kod för övriga Europeiska länders dataset tar det tid....

European data portal - quality of Metadata.ipynb

matthiaspalmer · 2024-05-29T10:06:21Z

Det står tydligt i specifikationen i dagsläget att värdemängden är Sträng med språk när så är fallet. Det borde vara tydligt nog.

salgo60 · 2024-05-29T10:36:49Z

Sträng med språk när så är fallet

ni kan inte låta varje dataleverantör och konsument skapa egna textsträngar det blir kaos se exempel det som levereras till EDP blir "fulöversatt" det är inte seriöst
- börja skapa kunskapsgrafer modell Wikidata är min tro

Dagens svenska data i EDP efter att dataportalen funnits > 10 år

Tror jag inte sett ett enda dataset med språktag som levererats det måste vara obligatoriskt och tydligare...

Öppna data är till för att konsumera internationellt
Dagens data omogenhet gör att man inte ser den internationella vinsten
- se även tramset med EDP som istället för kunskapsgrafer sitter och "fulöversätter" och hittar på "egna" språktaggar som fi-t-sv-t0-mtec se projektkyrkogården id: 77-4-2 Antipattern: Strings not things - Dataportalen Väst - skapar 3 silos och skickar skräpdata till EDP

2020 hade inte EDP en kunskaposgraf

Jag kollade lite hos EDP och dom sitter med massa data med språkkoder och har ingen kunskapsgraf dvs. det står "kommunkod lang=sv" dvs. kan du inte svenska så måste du börja leta vad kommunkod betyder och försöka förstå vad det är och skall du hitta motsvarande kod för övriga Europeiska länders dataset tar det tid....

European data portal - quality of Metadata.ipynb

2021 status Kunskapsgraf hos EDP

Jag hade fräckheten på ett EDP event 17 nov 2021 att säga att när Google hade presenterat hur dom jobbar med Kunskapsgrafer så

springer inte EDP åt fel håll som skickar runt massa text strängar med en språktag

EDP svar var lite mummel vid 54:20 och jag uppfatta att problemet dom såg var kompetensen ute i länderna dvs. för Sverige skulle det vara DIGGs förmåga med KG #70

Googles presentation 22:30 med Knowledge graph reconciliation....

både EDP och svenska portalen saknar detta steget och saknar KG är min känsla...
- det som skickas in visas för slutanvändarna... kan vara att textsträngar översätts men det blir gissar jag samma haveri som Europeana och konstnärer jag visade på 2019 - vet inte om EDPs datakvaliten diskuteras någonstans.... har inte hört någon på den svenska portalen som använder det datat....

matthiaspalmer · 2024-05-29T13:00:23Z

@salgo60 Jag gjorde just en koll, 97.7% av alla datamängder har en språkangivelse på rätt sätt i Sveriges dataportal.
Så, jo, vi kan och ger det ansvaret till de som levererar metadata och det ansvaret tas emot väl.

Det exemplet du tar "Utegym Tidaholms kommun" vars formella URI är:
https://catalog.tidaholm.se/store/2/resource/52
(Som också har korrekt content negotiation till flera olika RDF format.)

Den datamängden har titel angiven på både svenska och engelska med korrekta språktaggar.
Båda titlarna finns också korrekt representerade på data.europa.eu.

Dessutom finns ytterligare titlar som de automatöversatt till andra språk, det är deras val att de gör det. Det är inget vi kan påverka. För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs.

Vidare är det samma identifierare för datamängden i Tidaholms egen datakatalog som på dataportal.se, den bevaras alltså vid vår skördning.
Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder. Det är ett beteende som jag personligen tycker illa om, men det är inte förbjudet. Vi driver aktivt ett påverkansarbete för att bevara URI:er hela vägen. Vilket bland annat har lett till att det finns en mer nyanserad diskussion om frågan, men vi har inte gått iland med ett ändrat beteende ännu. Kanske kommer det i samband med nya principer om skördning och stabilitet i vad som skördas.

Men, notera att frågan om beständiga identifierare är separat och inte en del av detta ärende.

Så, @salgo60 jag förstår inte vad du klagar på. Du har fel i sak och jag saknar stringens, saklighet och fokus kring ämnet i ärendet i din kommentar. Du bör överväga detta innan du kommenterar mer framöver, annars finns en risk att jag av rutin kommer ta bort dina inlägg. Du kanske upplever detta som lite hårt sagt, men jag säger detta ur ett tidseffektivitetsperspektiv vid arbete med skattefinansierad verksamhet.

salgo60 · 2024-05-30T00:17:22Z

1) Den datamängden har titel angiven på både svenska och engelska med korrekta språktaggar.
Men EU är väl inte 2 språk? Skall DCAT-AP-SE fungera så måste ni leverera på alla dom språk som öppna dataportaler ni skickar till stödjer... testa att google översätt tillbaka till svenska hur det blir hos EDP

Fråga 1-1: finns den i svenska dataportalen jag hittar den inte LÄNK

2) Jag gjorde just en koll, 97.7% av alla datamängder

stickprov eller har ni rapporter på metadata kvaliten som vi kan se?

3) Dessutom finns ytterligare titlar som de automatöversatt till andra språk, det är deras val att de gör det

Lyssnar du på min fråga 2022 där jag hävdar att EDP (och även Svenska dataportalen) gör fel så svarar dom och jag tolkar det som EDP tycker att det är ni lokala länder som är problemet att man inte följer best practise som Google och andra gör med Knowledge Graph / reconciliation... skriver ni nu nya specar så bör ni peka på vikten av att datat kommer att skickas till EDP och skall stödja dom språk dom har > 20 stycken

Det jag ser

Svenska Dataportalen: tycker det är EDPs problem att deras data inte går att översättas till vettiga textsträngar på flera språk
EDP: måste arbeta långsamt med de olika länderna där exempelvis Kunskapsgrafer är en väg framåt yada yada yada - som jag tolkar att de enskilda länderna som Svenska Dataportalen inte är kompetenta

4) För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs.
Testa med Google Translation och översätt dom tillbaka det blir mycket trams.....

min tro är att få använder detta data som har så dålig kvalite och att det är extremt svårt att navigera när det är så mycket felöversättningar
bara att hitta alla utegym från EDP men även på svenska dataportalen är en omöjlighet om inte datat städas upp jmf alla registrerade utegym från Wikidata https://w.wiki/AE9x

4-1) För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs

dom har valt hittepå språkkoder som är väl same same att ha olika named graphs, problemet är att översättningarna blir dåliga och findability dålig när vi skickar ämnesord: utegym/motion/Essunga kommun
- sökning på keyword utegym i EDP blir 11 träff enligt mig väldigt geggigt och känns som ingen styrning finns på det som presenteras - inte mycket har hänt sedan 2022 med den enormt enkla datat för utegym

min poäng när jag kollade så var det enormt låg kvalite på de textsträngar som skapas hos EDP --> saker kan inte användas eller hittas

skall man skapa en DCAT-AP-SE spec som skickas till en europeisk dataportal så måste den levererade kvaliten vara ok

5) Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder. Det är ett beteende som jag personligen tycker illa om, men det är inte förbjudet. Vi driver aktivt ett påverkansarbete för att bevara

Fråga 5: Var kan vi följa detta påverkansarbete. Loggas inte ärenden så kommer saker som detta aldrig att lösas...

som datakonsument kan jag INTE avgöra om det data jag ser är samma version av datamängd på en annan portal se och läs Google Blog "Building Google Dataset Search and Fostering an Open Data Ecosystem"

6) Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder

Fråga 6: varför kan ni inte hämta tillbaka EDP url:arna och ha det i svenska dataportalens data som sedan kan hämtas av de lokala dataportalerna... inte fel att ha schema.org/sameAs

7) Du har fel i sak och jag saknar stringens, saklighet och fokus kring ämnet i ärendet i din kommentar

jag tror ni konsulter biter er själva i foten när vi nu 2024 sitter med dålig data och specar en DCAT-AP-SE spec där det borde vara tydligt att det mottagaren konsumerar dvs. EDP knappt går att använda och att dom vill ha data > 20 språk. Att bara vifta bort det som det är deras ansvar eller att det är dom som skickar in det till svenska dataportalens ansvar fungerar inte, då får vi i bästa fall svenska/engelska.... och EDP försöker koka soppa på en spik...

Läs vad EDP vill ha av er map data kvalitet

8) men jag säger detta ur ett tidseffektivitetsperspektiv vid arbete med skattefinansierad verksamhet.

Nix ingen är mer glad än jag om ni levererar och vågar utmana DIGG kommuner myndigheter...

hoppas du inte skyller underleveranserna på mig utan som sagt vågar utmana kommuner/myndigheter/DIGG/konsulter....

blir bara sorgsen att se projekt som NSÖD som dag 0 talar om att skala upp och sedan sitter vi nu 2024 med samma laguppställning och samma dåliga data.... Tror det skulle behövas en Jens Nylander som visade på kostnader av allt dålig data

intressant att se är vad han gör på 1 år jmf försöken med "Leverantörsreskontra som öppna data - hur du publicerar" där felet gissar jag är att man specar och specar och inte har kompetens att göra skitjobbet.... utan har en övertro att befintlig organisation skall leverera... men som sagt det är utanför specen men intressant hur mycket elände som hittas under alla stenar han lyfter på ;-)
- saker som Jens driver på att beslutat att organisationsnummer måste vara rätt angivna på fakturorna hädanefter. --> exempel hur att jobba med datat och inte bara skapa specar som ingen följer gör skillnad - våga ställa krav på alla aktörer och var tydlig med dessa krav

matthiaspalmer · 2024-05-30T15:36:19Z

Appropå fråga 1.1: @salgo60 Tack för att du påpekar att datamängden saknas. Datamängden finns på Västra Götalands portal: https://www.vgregion.se/ov/dataportal-vast/datakatalog/

Men inte på dataportal.se. Det verkar som Tidaholm har två datakataloger i två olika system. Och den som skördas till dataportalen inte har några publika datamängder. Vi kontaktar dem och frågar hur det ska vara.

Fråga 1: Nej, finns inga krav på att tillhandahålla titlar på 20 språk, uppenbart slöseri med tid och resurser. Bättre EDP automatöversätter till de språk man inte tillhandahåller. Att tillhandahålla på svenska och engelska är en bra kompromiss ur ett svenskt perspektiv, en del kan vilja tillhandahålla mer.

Fråga 2: Nej det finns ingen publik rapport, du kan gå in på enskilda organisationer på admin, eller skriva ett skript mot dumpen här: https://admin.dataportal.se/all.rdf

Fråga 3: Jag förstår inte vad du referar till. Vi leverar länkade data med URI:er nästan överallt. Dvs things istf. strings. De få ställen där det är strängar är för att du måste ha det, t.ex. titlar. Som jag skrev tycker jag det är bra att EDP gör det. Finns ingen konflikt.

Fråga 4 och 4.1 går inte att förstå. Om du inte vet vad named graphs är bör du slå upp det, inte ställa irrelvanta och svårtydbara frågor. Det slösar bådas våran tid.

Fråga 5: Jodå det går att följa, se här: https://github.com/SEMICeu/DCAT-AP/tree/master/Webinars/10-Mar-2022 och den resulterande rekommendationen (som jag inte är helt nöjd med) finns här: https://github.com/SEMICeu/DCAT-AP/blob/2.x.y-draft/releases/2.x.y/usageguide-identifiers.md

Fråga 6: Det handlar om prioriteringar och lämplighet, i detta fall är det högst olämpligt. EDP lägger en referens på CatalogRecord nivån via dct:identifier som en sträng... Inte så jag skulle gjort det men bättre än inget.

Fråga 7: Det är ingen som viftar bort något. Men EDP hanterar inte data, bara metadata. Så kritiken som börjar med att vi sitter med dålig data och att det är 2024 applicerar inte. Du får ta det i något annat fora. Vi gör det vi ska och mer därtill när det gäller metadata. Sverige kommer sannolikt vara först ut med att införa DCAT-AP3.

Fråga 8: Du får bli hur ledsen du vill över att saker inte är som de borde. Men min roll (och många andras) är att agera professionellt och hjälpa våra myndigheter när de efterfrågar det. I detta fall handlar det om nästa version av DCAT-AP-SE, inget annat. Så vi får försöka hålla oss till ämnet.

Sen vill jag påpeka att mina svar ovan är relativt korta och bemöter det du sagt, inget annat. Inga onödiga bilder eller länkar till saker som inte har med saken att göra. Det gör att det blir betydligt lättare att besvara. Jag uppmanar dig att reflektera över detta om du vill att dina inlägg ska bli lästa och göra en verklig skillnad.

Härmed kommer jag stänga detta ärende då själva frågan är avgjord, dina frågor är besvarade och ingen åtgärd är planerad för DCAT-AP-SE3.

salgo60 · 2024-06-16T08:12:34Z

Det är ingen ide att argumentera blir bara tragiskt att en extern konsult som skall få fart på öppen data tycker svenska engelska är ok och #76 DIGG som skall vara en expert myndighet verkar helt sakna visioner eller kunskaper att bygga ekosystem

har inte mer hänt sedan 2010 då dataportalen starta så kan vi inte förvänta oss att detta skall bli mer effektivt 2024 och 10 år framåt
tycker ni att automatöversätta data och har tittat hur illa det blir så gissar jag ni inte vill att datat skall användas
- ni har inte själva försökt hämta data från EDP utan det är pdf specande på svenska som alla pengar går till

men bara tanken att svenska engelska är ok när vi har fem lagskyddade minoritetsspråk i vårt land: finska, meänkieli, jiddisch, romani och samiska och detta skall skickas till en europisk dataportal blir det galet..

här har ni SPARQL till EDP - SPARQL

intressant att se "císařské povinné otisky" uppladdat 56833 ggr... vad kan det vara....
- blir trams när konsumenten skall städa datat
- lyssna på 10 år gammal insikt från LIBRISXL utvecklare som ni på metasolution intervjuade om detta grundfel
  vid 49:05 nu uppmuntrar ni att skapa lösningar med automatöversättningar och tror det blir bra dvs. "ni tycker att man skall ha ett regeringsverk vid varje kran i varje lägenhet" för att använda Niklas Lindström m,etafor...

dvs. det ni ser är key dvs. ämnesord som är idag massa textsträngar som måste vara länkade data ifall detta skall fungera.... dvs. det är inte bara datasettet som skall ha länkade data utan även metadatat gissar att ingen ens orkar reagerar på dina kommentarer visar på hur stort kunskapsglapp det är mellan att kunna leverera bra data och de pdf dokument som skrivs idag.....

Gissar att bra metadata från icke svensk talande länder kan vara av intresse.... annars så är hela iden med EDP fel... eller ännu ett kejsarens nya kläder där konsulter hejar på dåliga lösningar som inte gör skillnad...

Nog om detta trams...

bra att ni visar upp er på GITHUB
tråkigt att vi inte ser att detta tar fart
galet att DIGG inte visar att dom är en digital expertmyndighet utan mer som statskontoret håller fram lägger pengar på externa konsulter som jag inte tycker gör skillnad
over and out

Fler och fler verkar tycka det fungerar dåligt med dataportalen se diskussion tråkigt att DIGG inte är starka nog att vara del av diskussionen....

Målet måste vara att skapa användbar data / metadata

matthiaspalmer added the framtid label Apr 12, 2021

matthiaspalmer added avslå and removed framtid labels May 29, 2024

matthiaspalmer closed this as completed May 30, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Klargör i specifikationen för vilka textvärden som språk förväntas #84

Klargör i specifikationen för vilka textvärden som språk förväntas #84

matthiaspalmer commented Apr 12, 2021

salgo60 commented Apr 12, 2021 •

edited

Loading

kristineulander commented Apr 14, 2021

salgo60 commented Apr 14, 2021 •

edited

Loading

matthiaspalmer commented May 29, 2024

salgo60 commented May 29, 2024 •

edited

Loading

matthiaspalmer commented May 29, 2024

salgo60 commented May 30, 2024 •

edited

Loading

matthiaspalmer commented May 30, 2024

salgo60 commented Jun 16, 2024 •

edited

Loading

Klargör i specifikationen för vilka textvärden som språk förväntas #84

Klargör i specifikationen för vilka textvärden som språk förväntas #84

Comments

matthiaspalmer commented Apr 12, 2021

salgo60 commented Apr 12, 2021 • edited Loading

kristineulander commented Apr 14, 2021

salgo60 commented Apr 14, 2021 • edited Loading

matthiaspalmer commented May 29, 2024

salgo60 commented May 29, 2024 • edited Loading

2020 hade inte EDP en kunskaposgraf

2021 status Kunskapsgraf hos EDP

matthiaspalmer commented May 29, 2024

salgo60 commented May 30, 2024 • edited Loading

matthiaspalmer commented May 30, 2024

salgo60 commented Jun 16, 2024 • edited Loading

Fler och fler verkar tycka det fungerar dåligt med dataportalen se diskussion tråkigt att DIGG inte är starka nog att vara del av diskussionen....

Målet måste vara att skapa användbar data / metadata

salgo60 commented Apr 12, 2021 •

edited

Loading

salgo60 commented Apr 14, 2021 •

edited

Loading

salgo60 commented May 29, 2024 •

edited

Loading

salgo60 commented May 30, 2024 •

edited

Loading

salgo60 commented Jun 16, 2024 •

edited

Loading