-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Klargör i specifikationen för vilka textvärden som språk förväntas #84
Comments
Borde man inte vara tydlig att man skall jobba i riktning semantisk interoperabilitet och begära att det anges - eller finns detta men används inte? Tycker det känns 1980 att prata om att datat presenteras bara på ett språk och inte är språkoberoende... Jag skrev en artikel i veckan hur vi skapar semantisk interoperabilitet med svenska Litteraturbanken, böcker från tidigt 1900-tal och verk från 1750 där dom redan 1750 insåg vikten av persistenta unika identifierare för runstenar (något jag tjatat om för dataset länk) Lyfter vi inte blicken så fortsätter galenskap som att FHM publicerar sitt data på en svensk WEBsida om hur Corona vaccineringen i Sverige fortskrider och OWiD som sammanställer data för hela världen måste läsa från den sidan... OWiD Sverige data --> uppdateras genom att dom hämtar datat från FHMs svenska websida
|
Just språkangivelse för själva metadatan är ett krav för att i sin tur möta krav i lagen om digital offentlig service. Behovet handlar om en person med en uppläsningsmaskin använder Sveriges dataportal behöver språkangivelse finnas, annars kommer uppläsningen inte fungera på ett bra sätt. Eftersom dataportalen synliggör metadata som publiceras av andra tar vi fram rekommendationer och krav för denna metadata. Absolut är semantisk interoperabilitet i data prioriterade frågor. Just i detta github-repo har vi ärenden som rör just metadataspecifikationen. Relaterat till dina kommentarer kan verksamheter i metadataspecifikationen peka ut unik idenfierare t.ex URI här |
visa gärna med exempel jag tror ni springer åt fel håll. Att lägga översättningen i varje dataset utan att knyta ihop samma som känns fel tänkt.... vad händer om det blir krav på att stödja även svenska minoritets språk --> att man skall in och översätta alla dataset.... Att kravet skall vara att när ni hämtar ut data så skall det ha språktag löser man när man hämtar kopplingen till kunskapsgrafen där översättningen skall ligga. Jag har påtalat att EDP Europeiska Dataportalen gör fel som skickar runt massa text strängar med språktag se notebook och även min fråga till dom vid 54:10 minuter om dom inte springer åt fel håll som bara har textsträngar så svarar dom vagt att dom borde nog ha det... ett annat EU projekt Europeana samlar precis som EDP ihop objekt från 3500 museer och där har man inte språktag och inte kunskapsgraf så där har det blivit oanvändbar metadata se min blog "Carl Larsson who is that - sadly Europeana doesnt know --> #Metadatadebt" kostnad för projektet är nog > 100 miljoner Euro och dom starta 2012 med detta... Om du lägger den språkberoende delen i en kunskapsgraf så behöver man
Jag kollade lite hos EDP och dom sitter med massa data med språkkoder och har ingen kunskapsgraf dvs. det står "kommunkod lang=sv" dvs. kan du inte svenska så måste du börja leta vad kommunkod betyder och försöka förstå vad det är och skall du hitta motsvarande kod för övriga Europeiska länders dataset tar det tid.... |
Det står tydligt i specifikationen i dagsläget att värdemängden är |
Dagens svenska data i EDP efter att dataportalen funnits > 10 år Tror jag inte sett ett enda dataset med språktag som levererats det måste vara obligatoriskt och tydligare...
2020 hade inte EDP en kunskaposgrafJag kollade lite hos EDP och dom sitter med massa data med språkkoder och har ingen kunskapsgraf dvs. det står "kommunkod lang=sv" dvs. kan du inte svenska så måste du börja leta vad kommunkod betyder och försöka förstå vad det är och skall du hitta motsvarande kod för övriga Europeiska länders dataset tar det tid.... 2021 status Kunskapsgraf hos EDPJag hade fräckheten på ett EDP event 17 nov 2021 att säga att när Google hade presenterat hur dom jobbar med Kunskapsgrafer så
EDP svar var lite mummel vid 54:20 och jag uppfatta att problemet dom såg var kompetensen ute i länderna dvs. för Sverige skulle det vara DIGGs förmåga med KG #70 Googles presentation 22:30 med Knowledge graph reconciliation....
|
@salgo60 Jag gjorde just en koll, 97.7% av alla datamängder har en språkangivelse på rätt sätt i Sveriges dataportal. Det exemplet du tar "Utegym Tidaholms kommun" vars formella URI är: Den datamängden har titel angiven på både svenska och engelska med korrekta språktaggar. Dessutom finns ytterligare titlar som de automatöversatt till andra språk, det är deras val att de gör det. Det är inget vi kan påverka. För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs. Vidare är det samma identifierare för datamängden i Tidaholms egen datakatalog som på dataportal.se, den bevaras alltså vid vår skördning. Men, notera att frågan om beständiga identifierare är separat och inte en del av detta ärende. Så, @salgo60 jag förstår inte vad du klagar på. Du har fel i sak och jag saknar stringens, saklighet och fokus kring ämnet i ärendet i din kommentar. Du bör överväga detta innan du kommenterar mer framöver, annars finns en risk att jag av rutin kommer ta bort dina inlägg. Du kanske upplever detta som lite hårt sagt, men jag säger detta ur ett tidseffektivitetsperspektiv vid arbete med skattefinansierad verksamhet. |
1) Den datamängden har titel angiven på både svenska och engelska med korrekta språktaggar. Fråga 1-1: finns den i svenska dataportalen jag hittar den inte LÄNK 2) Jag gjorde just en koll, 97.7% av alla datamängder stickprov eller har ni rapporter på metadata kvaliten som vi kan se? 3) Dessutom finns ytterligare titlar som de automatöversatt till andra språk, det är deras val att de gör det Lyssnar du på min fråga 2022 där jag hävdar att EDP (och även Svenska dataportalen) gör fel så svarar dom och jag tolkar det som EDP tycker att det är ni lokala länder som är problemet att man inte följer best practise som Google och andra gör med Knowledge Graph / reconciliation... skriver ni nu nya specar så bör ni peka på vikten av att datat kommer att skickas till EDP och skall stödja dom språk dom har > 20 stycken Det jag ser
4) För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs.
4-1) För min del tycker jag det är helt ok även om jag skulle föredragit att de separarerat det i olika named graphs
skall man skapa en DCAT-AP-SE spec som skickas till en europeisk dataportal så måste den levererade kvaliten vara ok 5) Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder. Det är ett beteende som jag personligen tycker illa om, men det är inte förbjudet. Vi driver aktivt ett påverkansarbete för att bevara Fråga 5: Var kan vi följa detta påverkansarbete. Loggas inte ärenden så kommer saker som detta aldrig att lösas...
6) Men tyvärr har data.europa.eu en annan princip som bygger på att man skapar nya URI:er för alla datamängder Fråga 6: varför kan ni inte hämta tillbaka EDP url:arna och ha det i svenska dataportalens data som sedan kan hämtas av de lokala dataportalerna... inte fel att ha schema.org/sameAs 7) Du har fel i sak och jag saknar stringens, saklighet och fokus kring ämnet i ärendet i din kommentar jag tror ni konsulter biter er själva i foten när vi nu 2024 sitter med dålig data och specar en DCAT-AP-SE spec där det borde vara tydligt att det mottagaren konsumerar dvs. EDP knappt går att använda och att dom vill ha data > 20 språk. Att bara vifta bort det som det är deras ansvar eller att det är dom som skickar in det till svenska dataportalens ansvar fungerar inte, då får vi i bästa fall svenska/engelska.... och EDP försöker koka soppa på en spik... Läs vad EDP vill ha av er map data kvalitet 8) men jag säger detta ur ett tidseffektivitetsperspektiv vid arbete med skattefinansierad verksamhet. Nix ingen är mer glad än jag om ni levererar och vågar utmana DIGG kommuner myndigheter...
blir bara sorgsen att se projekt som NSÖD som dag 0 talar om att skala upp och sedan sitter vi nu 2024 med samma laguppställning och samma dåliga data.... Tror det skulle behövas en Jens Nylander som visade på kostnader av allt dålig data
|
Appropå fråga 1.1: @salgo60 Tack för att du påpekar att datamängden saknas. Datamängden finns på Västra Götalands portal: https://www.vgregion.se/ov/dataportal-vast/datakatalog/ Men inte på dataportal.se. Det verkar som Tidaholm har två datakataloger i två olika system. Och den som skördas till dataportalen inte har några publika datamängder. Vi kontaktar dem och frågar hur det ska vara. Fråga 1: Nej, finns inga krav på att tillhandahålla titlar på 20 språk, uppenbart slöseri med tid och resurser. Bättre EDP automatöversätter till de språk man inte tillhandahåller. Att tillhandahålla på svenska och engelska är en bra kompromiss ur ett svenskt perspektiv, en del kan vilja tillhandahålla mer. Fråga 2: Nej det finns ingen publik rapport, du kan gå in på enskilda organisationer på admin, eller skriva ett skript mot dumpen här: https://admin.dataportal.se/all.rdf Fråga 3: Jag förstår inte vad du referar till. Vi leverar länkade data med URI:er nästan överallt. Dvs things istf. strings. De få ställen där det är strängar är för att du måste ha det, t.ex. titlar. Som jag skrev tycker jag det är bra att EDP gör det. Finns ingen konflikt. Fråga 4 och 4.1 går inte att förstå. Om du inte vet vad named graphs är bör du slå upp det, inte ställa irrelvanta och svårtydbara frågor. Det slösar bådas våran tid. Fråga 5: Jodå det går att följa, se här: https://github.com/SEMICeu/DCAT-AP/tree/master/Webinars/10-Mar-2022 och den resulterande rekommendationen (som jag inte är helt nöjd med) finns här: https://github.com/SEMICeu/DCAT-AP/blob/2.x.y-draft/releases/2.x.y/usageguide-identifiers.md Fråga 6: Det handlar om prioriteringar och lämplighet, i detta fall är det högst olämpligt. EDP lägger en referens på CatalogRecord nivån via dct:identifier som en sträng... Inte så jag skulle gjort det men bättre än inget. Fråga 7: Det är ingen som viftar bort något. Men EDP hanterar inte data, bara metadata. Så kritiken som börjar med att vi sitter med dålig data och att det är 2024 applicerar inte. Du får ta det i något annat fora. Vi gör det vi ska och mer därtill när det gäller metadata. Sverige kommer sannolikt vara först ut med att införa DCAT-AP3. Fråga 8: Du får bli hur ledsen du vill över att saker inte är som de borde. Men min roll (och många andras) är att agera professionellt och hjälpa våra myndigheter när de efterfrågar det. I detta fall handlar det om nästa version av DCAT-AP-SE, inget annat. Så vi får försöka hålla oss till ämnet. Sen vill jag påpeka att mina svar ovan är relativt korta och bemöter det du sagt, inget annat. Inga onödiga bilder eller länkar till saker som inte har med saken att göra. Det gör att det blir betydligt lättare att besvara. Jag uppmanar dig att reflektera över detta om du vill att dina inlägg ska bli lästa och göra en verklig skillnad. Härmed kommer jag stänga detta ärende då själva frågan är avgjord, dina frågor är besvarade och ingen åtgärd är planerad för DCAT-AP-SE3. |
Det är ingen ide att argumentera blir bara tragiskt att en extern konsult som skall få fart på öppen data tycker svenska engelska är ok och #76 DIGG som skall vara en expert myndighet verkar helt sakna visioner eller kunskaper att bygga ekosystem
men bara tanken att svenska engelska är ok när vi har fem lagskyddade minoritetsspråk i vårt land: finska, meänkieli, jiddisch, romani och samiska och detta skall skickas till en europisk dataportal blir det galet..
dvs. det ni ser är key dvs. ämnesord som är idag massa textsträngar som måste vara länkade data ifall detta skall fungera.... dvs. det är inte bara datasettet som skall ha länkade data utan även metadatat gissar att ingen ens orkar reagerar på dina kommentarer visar på hur stort kunskapsglapp det är mellan att kunna leverera bra data och de pdf dokument som skrivs idag..... Gissar att bra metadata från icke svensk talande länder kan vara av intresse.... annars så är hela iden med EDP fel... eller ännu ett kejsarens nya kläder där konsulter hejar på dåliga lösningar som inte gör skillnad... Nog om detta trams...
Fler och fler verkar tycka det fungerar dåligt med dataportalen se diskussion tråkigt att DIGG inte är starka nog att vara del av diskussionen....Målet måste vara att skapa användbar data / metadata |
I dagsläget beskriver rekommendation 12 när man ska tillhandahålla en språkangivelse för en text. Det vore kanske lämpligt i en framtida version av specifikationen att lägga till information om detta direkt i specifikationsdokumentet.
The text was updated successfully, but these errors were encountered: