layout |
---|
default |
Domácí úkoly zpracujte v Rmd
(Markdown), nebo qmd
(quarto) formátu,
odevzdejte ve ZKOMPILOVANÉ verzi, tj. výstup do html/pdf/docx
souboru.
- U zkompilovaných výstupů musejí být viditelné použité příkazy, tj. nastavení
echo=T
(je defaultní). - Podle potřeby přiložte dataset a zdrojový Rmd nebo qmd soubor.
- Pokud odevzdáváte úkol v komprimovaném souboru, používejte výhradně .zip formát.
Obecná doporučení pro práci s R (domácí úkoly)
-
Používejte nejnovější verzi R
-
Používejte nejnovější verzi RStudio
-
Aktualizujte balíčky
-
Je-li to nutné, nainstalujte si poslední verzi Pandoc (
Rmd
compiler)install.packages("installr",dependencies = T)
installr::install.pandoc() # may require admin access rights
Vypracujte zadání ve skriptu R03_data_handling_exercise.Rmd
.
Zkompilovaný html/pdf/docx soubor odevzdejte prostřednictvím odevzdávárny v insisu.
Bonusový úkol (2b): Quick exercise: 3 ze skriptu R06_dplyr.Rmd
(poslední příklad ze skriptu)
-
Stažení zajímavého datasetu z databáze Eurostat/WDI/OECD, (u Eurostatu použijte data na úrovni NUTS2/NUTS3), prostřednictvím balíčku R.
- Orientace v datasetu: Popis ukazatelů, obsažených v datasetu (typově: jaké věkové skupiny jsou sledovány, ...).
- Úprava dat pomocí balíčku
dplyr
a pipe operátoru: filtrování "vhodných" ukazatelů podle Vašeho uvážení. Popište, jaká data jste vybrali (případně proč). - Jednoduchá vizualizace dat pomocí balíčku
ggplot2
. Před vizualizací dat ověřte rozměr výsledného datasetu pomocí příkazudim()
. Při správném filtrování musí počet řádků datasetu odpovídat zobrazovaným datům. (Např: zobrazuji řady s HDP pro 10 regionů a 5 let -> data frame má 50 řádků v tzv. dlouhém formátu.) - Převod do formátu časových řad (využijte balíček
zoo
). - Úkol může být založen na postupech ze skriptu
R07_Eurostat.Rmd
(ale nepoužívejte přímo datasety z tohoto skriptu). - Doprovoďte Váš výstup stručným slovním komentářem (popište zvolené proměnné).
-
Vypracujte Assignment 1 (na ř. 275 skriptu
R11_Missing_data.R
) -
Úkol odevzdejte ve zkompilovaném formátu (html, docx nebo pdf soubor vytvořený/zkompilovaný z markdown či quarto souboru)
Vizualizace prostorových dat v R - kartogram (infomapa)
-
K vizualizaci použijte dva různé datasety: jeden může vycházet z úkolu pro minulý týden, druhý dataset si opět zvolte/vyhledejte na Eurostatu (nebo použijte jiný vhodný zdroj dat).
-
Pro Vámi vybrané proměnné zobrazte infomapu, např. podle vzoru ze skriptu
R02_ggplot_choropleths.R
- Zobrazte alespoň čtyři různé infomapy: použijte různé projekce, různá časová období (použijte fazety), odlišné NUTS úrovně, zobrazte proměnné pro různé sledované skupiny (věkové skupiny, skupiny podle vzdělání, pohlaví, atd.).
- Pokud pracujete se státy jako Francie nebo Španělsko, je vhodné z datasetu odstranit zámořská území (nebo ohraničit oblast zobrazovanou na mapě).
- Před vizualizací dat v
ggplot()
zkontrolujte rozměr datasetu. - Použití dat z Eurostatu není podmínkou, lze využít WDI nebo jinou databázi
Interpolace prostorových dat
- Vyřešte úlohu ze skriptu
R06b_Complex_spatial_interpolation_example.Rmd
a odevzdejte ve zkompilovaném formátu (html/docx/pdf). - Před zpracováním dat je vhodné podrobně si přečíst doprovodné informace a návod ze skriptu. `
Testování prostorové (ne)závislosti a shluková analýza
- Pro tento úkol lze použít data (tj. regiony), která jste stáhli v rámci úkolu v předchozích týdnech, pokud má výběr alespoň 50 pozorování. V opačném případě (malý výbět) najděte jiný dataset (ideálně na úrovni NUTS2 nebo NUTS3), abyste měli dostatek pozorování pro analýzu.
-
Zvolte jednu proměnnou (a jedno období pozorování - co nejblíže roku 2024 - a proveďte Moranův test na prostorovou nezávislost.
-
Použijte alespoň dva různé způsoby definice prostorové struktury (vzdálenost, vzdálenost + kNN, společná hranice) k ověření robustnosti výsledků vůči změnám prostorové struktury.
-
Proveďte shlukovou analýzu (alespoň jeden typ výstupu) - jako vodítko můžete použít skript
R09_LISA_and_clusters.R
z bloku 2. -
Slovně okomentujte výsledky (interpretujte výsledek testu).
Zpracujte rozšířený abstrakt své seminární práce - popište vybrané téma (motivace, výzkumný záměr), popište data, popište preferovanou odhadovou metodu. Jaký je Váš konkrétní cíl? Jaké vidíte potenciální problémy či komplikace? Případně uveďte zpracovaný model a/nebo dílčí výstupy odhadu. Rozsah 1-2 strany A4 (cca 400-800 slov).
- V případě nejasností konzultujte svůj záměr prostřednictvím e-mailu nebo během KH.
- Upozorňuji, že termín odevzdání vybočuje z běžného režimu (neděle před cvičením).
- Hodnoceno pěti body, jako standardní týdenní úkol.
-
Stepwise a penalizovaná regrese
-
Upozornění: zapomněl jsem úkol z týdne 9 zadat včas do insisu a na web kurzu. Termín odevzdání je proto posunut do pátku 22.11., abyste měli čas na vypracování. Děkuji za pochopení.
-
Každý si vyberte vhodný dataset, například ze seznamu zde:
- https://vincentarelbundock.github.io/Rdatasets/datasets.html
- Vyberete-li jiný dataset, srozumitelně popište data.
- Závislou proměnnou pro svůj model pečlivě vybírejte, v kontextu datasetu Váš výběr musí dávat smysl -- výběr zdůvodněte.
- Vybírejte takový dataset, abyste kromě závislé proměnné měli alespoň dalších 10+ potenciálních regresorů.
-
Proveďte stepwise regresi, použijte alespoň dvě varianty výběru (best subset, forward, backwards)
-
Proveďte tzv. penalizovanou regresi (alespoň jednu z variant: ridge, LASSO, elastic net).
-
Popište/vyhodnoťte predikční vlastnosti.
Zpracujte úkol podle zadání ve skriptu R16_GAM_diamonds_example.R
z Bloku 3 (odevzdejte ve zkompilované markdown podobě (pdf, html, Word).
- Zpracujte úkol ze skriptu
R06_LME_wagepanel_hierarchical_data.R
, komentujte výsledky (odevzdejte ve zkompilované markdown podobě (pdf, html, Word).
- Podle instrukcí ze cvičení dokončete skript
R08_Interaction_Terms_Logit.R
z bloku 4 - sekci "Assignment 1". - Podle postupu ze cvičení použijte interakční členy vyššího řádu, nejen párové interakční členy.