coursera. 10.
TODO: сделать rmd и отправить на datacamp
время 5-10, идеально 6-7, отрывки с названиями в программе упоминать названия отрывков соединяющие предложения (только что разобрали то-то, осталось то-то то-то)
Лекция 1
- Презентация помощников :)
- метод наименьших квадратов:
- рост-вес, задача про слитки
- множественная регрессия
- модель CAPM
- сразу множественная регрессия
- RSS, R^2, TSS, ESS, остатки (ошибки прогнозов)
- введение в R
- введение в R-studio (картинка в картинке)
- в R есть встроенные наборы данных
- установка пакетов и загрузка пакетов
- чтение данных из разных источников: csv (российские нюансы)
- описательные статистики
- основные ggplot2 графики: гистограмма, рассеяния (+hexbin), # facet,
- парная регрессия
quiz: + неоцениваемый data.camp нестатистич мнк (посчитать R2, остатки, можем ли мы посчитать эпсилон2 по реальным данным) какая команда посчитает среднее у вектора z: average(z), mean(z), неоцениваемый data.camp (чуть больше) простая работа со встроенным набором данных (посчитайте среднюю цену бриллиантов)
Лекция 2
- Проекция (картинка): условия первого порядка скалярно и матрично
- вывод дисперсии \hb_2, \hb_1 и ковариации \hb_1 и \hb_2
- объяснение понятия ковариационная матрица \hb
- вывод дисперсии \hb для тех кто знает линейную алгебру
- напоминание про условное математическое ожидание
- проверка гипотез, доверительные интервалы для коэффициентов (t-распределение)
- расшифровка стандартной таблички R
- p-value
- точечный прогноз
- R вместо статистических таблиц
quiz: (c возможностью запустить data.camp) теоретически по табличке проверьте гипотезы по встроенному набору данных оцените проверьте спрогнозируйте
Лекция 3 Теорема Гаусса-Маркова
- версия с фиксированными переменными (убрать почти полностью)
- версия со стохастическими регрессорами (сразу) проверка гипотезы об одном линейном ограничении проверка гипотезы о значимости регрессии в целом проверка гипотез о линенйых ограничениях дамми переменные - возврат к задаче про слитки ограниченная / неограниченная модель тестирование
- два типа доверительных интервала для прогнозов
- прогнозирование в R
- деление выборки на две части
- загрузка данных из внешних источников
посчитать --- среднее доход по мужчинам построить регрессию конкртено y на x2, x3 и: (для себя построить график (не оцениваниется)) найти r2 построить доверительные интервал для beta2 спрогнозоировть y у мужчины c x2=..., x3=... и поместить в переменную
Лекция. 4 мультиколлинеарность
- неустойчивость оценок
- регуляризация: LASSO + ridge + elastic net
- outliers метод главных компонент - снижение размерности задачи ? проиллюстрировать на 3 наблюдения 2 переменных найти 1 главную компоненту ? кросс-валидация и деление выборки на две части
- обработка данных dplyr (filter, select, mutate, group_by-summarise_)
- оформление документа с использованием Rmd (взаимодействие с Word и Latex)
quiz: найдите три веса для первой компоненты VIF найдите оценки LASSO при лямбда = ... выкладываем файл с данными и маленький R шаблон с командой загрузки
Лекция 5 Гетероскедастичность последствия методы борьбы: устойчивые ошибки
- намекнуть на взвешенные мнк (обобщенный)
mitderm: (без ограничения времени) включая гетероскедастичность выдали домашку (!)
Лекция 6 автокорреляция последствия устойчивые ошибки
- работа с временными рядами в К
- lubridate
- больше графиков (!)
- больше R
- написать свою функцию
quiz (поменьше так как выдана домашка)
- выберите способ как в R сделать ... (несколько верных)
Лекция 7 метод максимального правдоподобия
- примеры ML Логит, пробит
- предельные эффекты - два типа
- оценивание в R
- прогнозирование
quiz:
Лекция 8 стационарность ARMA, acf, pacf
- нестационарные ряды:
- удаление тренда
- взятие разности - понятие о единичном корне
- в лекции руками привести пример кажущейся регрессия с симулированными данными и с реальными
quiz: + сдача домашки в конце недели
Лекция 9 инструментальные переменные
- эндогенность
- причины
- инструментальные переменные ? воспроизвести какую-то классическую статью
теоретический квиз: ...
- проверка чужих домашек
Лекция 10. квантильная регрессия случайный лес регрессия пик-плато (spike and slab regression)
экзамен: с расчетами и теорией
По квизам: 8 квизов, в расчет идет 7 лучших 0.25 midterm 0.25 final 0.35 home ass 0.15
границы: 60/80
с линейной алгеброй/без алгебры линал: метод главных компонент мнк
каждый квиз: примерно 10 теоретических и 10 R вопросов все квизи весят одинаково
Фишки:
- Карандашная эконометрика - трехминутка в стиле vihart/minutephysics к каждому занятию
- упражнения в R - datacamp
- пакет swirl - позволяет создавать диалоговые упражнения в R, а потом загружать результаты на курсеру, но datacamp симпатичнее
- задание по RLMS
- интеграция kaggle - задание про титаник?
Лекция .
= Сергей Рощин "Второй отряд космонавтов"
- хорошее содержание
- хорошее визуальное представление
- он-лайн сопровождение курса
отсмотреть эконометрические английские курсы - по лекции отсмотреть вышкинские
- открыть данные по курсу (!) - в конец их проанализировать!
- ответ - меньше дня (!)
- особенно технические вопросы - ошибка в тесте
- да, спасибо! уже исправили
- большая нагрузка первые две-три недели
- все получат деньги по завершении курса
- возможность повторения
- на курсере при востребованности
- внутри вышки
макро: 10 институты: 7 латех: 5 экономика труда: 10 корпы: 11 фин рынки: 9 микра: 10
вывод: метрика: 10
исключительные права - передаются вышке материалы можно свободно использовать при преподавании
3 семинара - для ассистентов
студенты - обсуждать занятия любят - на запрет редактируют негативно
активность на форуме в оценку - студенты редактируют негативно
съемки: Аврора + Digital October, DO не выдерживает сроки - отказались
курс сильно набирает на первой неделе (!) имеет смысл не давать весомых домашек при старте
Евгения
снять промо ролик: 1.5 минуты подготовить текст заранее в одежде не должно быть зеленого цвета без мелкого рисунка: клеточек --- линеечек Шаболовка 31 на съемку - час Марина - согласует графики съемок если съемки отменяются меньше чем за сутки, то вышка платит аренду оборудования
загрузка материалов - за 2 недели до начала - завершить тренинг - в конце сентября
при выполнения каждого задания смотрит в камеру и вводит один и тот же текст
- диплом/или с отличием
probability шанхайского университета - gamification
peer оценки
8-10 минут - фрагмент одна лекция 1 час - полтора
презентацию - заранее съемочной группе
написать про необходимость съемки с экрана
про права на цитирование своего учебника
Introduction to Computational Finance and Financial Econometrics
- снято видео обычных лекций/семинаров персонаж на фоне презентаций Regression Analysis - голос за презентациями в knitr
картинка в картинке комбинированные съемки презентация с закадровым голосом (изредка) интервью если рисовать на планшете - то много
встроенные задания (!)
подборка статей (?)
тест числовой
в тесте вопросы, которые не обсуждались в лекции - негативная реакция
ценится личная реакция преподавателя ответ преподавателя на форуме - google hangouts - очная встреча - жалели те, кто не смогли слетать во второй по интенсивности город после Москвы (? на встречу)
Wiki курса - каждый может редактировать Data analysis and statistical inference - пример вики
расположить студентов и задания на одной шкале (?)
cheat sheet по проверке гипотез ?
cheat sheet по линейной алгебре ?
cheat sheet по формулам
- дополнять в виде wiki
страничка про авторов
карта кто откуда, zeemaps
в вики - FAQ - перекинуть ответы на горячие
ссылки на ресурсы
анонсы - каждую неделю - заготовки
облако тегов - сделать в R - по результатам обсуждения на форумах - показать код
отрицательно редактируют на одну попытку в тестах оптимальна чтобы в зачет шла лучшая
положительно - чтобы в зачете не учитывались результаты худших недель
основной формат: человек на фоне презентаций knitr
мелочи: если код R не влезает в строчку - делать через ; (?) хочется этого избежать, с другой стороны хорошо когда код влезает на экран
сразу начинать с множественной регрессии два сертификата - с линейной алгеброй и доказательствами и без (?)
в начале R-studio показать скринкастом шаблон для теха видео ответы на популярные вопросы - ниже качество, ну и ладушки :) лучший вопрос
нумерация слайдов - нужна (!) ioslides by default, выкладывать слайды в pdf видео - на youtube
все наши данные свести в один .Rdata
статичные страницы:
- российские нюансы
- смена кодировок
- шаблон для генерации pdf через .Rmd
- про папки с русскими буквами
- про русские буквы на графиках
- шаблоны
-
шаблон для заданий R по курсу (загрузка дженнабора пакетов и данных)
-
шаблон для Rnw файла
-
шаблон для генерации pdf через .Rmd
-
завести виртуальные машины со всеми виндовсами
- рисунок с этрусской вазы ?
план скринкаста:
- Убедитесь, что установлены доп. пакеты
Три режима работы с R:
В консоли:
отличает заглавные и строчные буквы два равносильных присваивания a <- 5 a = 5 незаконченные строки
Кратко:
Две полезных кнопки:
todo: отправить инструкцию по установке
- выслать план курса (с указаниями формата)
- начать с 5-ой лекции чтобы побороть неуверенность
- самостоятельно разбивать на 10-минутные интервалы
пожелания по рисункам (в любом формате) (конкретные картинки) субтитры появятся сами собой - загружать заранее
хочу вычитать субтитры -> Саше Мазурову хочу чтобы лекции были доступны после окончания курса ---> Саше Мазурову
Александра Скородумова skorodumova@lektorium.tv www.lectorium.tv
- 7 906 245 44 27
Женя Рылова +7 968 655 27 48 zhuk@lektorium.tv
- лекция готовая (картинки будут перерисованы) высылаю: pdf, html, tex 5/27 - много! лучше меньше инфо на слайде и чаще смена
вставки с прозрачной доской для вывода формул
- оставляем и помечаем места для скринкастов и выводов формул
camtasia avermedia
видео-инструкция по установке
тех-хитрости:
Если ругается на \end{frame} There is no line here to end Причина --- в \ в формулах внутри [ ] Решение: корректировать тех вручную, ставить \begin{multline} \end{multline} при этом не работает перевод rmd -> html
компьютер в виде коробочки
- вопросы на внимание - потом
- в каждом 10-минутном фрагменте 1 вопрос
ближ пятница: 12-13 - помучить win7 среда: 11-ччч пятница: 10-13
- непроверяемые задачи для самостоятельного решения с ответами
Микросюжеты:
- функции в R
- f, возводит в квадрат
- f, с необязательным параметром, возводит в произвольную степень
- что-то мелкое полезное?
-
первый запуск R-studio: настройка knitr, установка пакетов пользователь с русским логином!!! ?настроить сообщения по английски ?настроить МАКСИМУМ (что?) по английски?
-
три режима работы с R-studio:
- диалоговый, консоль, написание документа сразу: диалоговый: R-калькулятор NA, Inf, NaN разница > и + вверх-вниз, таб
- написание скрипта и 3 типа объектов: вектора, таблички с данными, списки
- вектор конкретный
- вектор случайный (несколько законов распределения)
- написание документа:
-
код внутри строки
-
код блоком
-
опция: echo=TRUE/FALSE
-
шаблон Rmd с загрузкой пакетов и опций в начале
сюжеты у доски: закрыть логит:
- выписать уравнение регрессии проинтерпретировать для разных дамми-переменных
- выписать предельные эффекты
- двигать точки на графиках с порогами ---> перерисовать ROC-кривую
упражнения по гск
- какое взвешивание наблюдений нужно сделать
- тест GQ по данным
упражнения по автокорреляции
- связь оценки и DW
- провести тест BG
- пример с ценами квартир
- логарифмирование
гетероскедастичность:
- определение
- причины
- пример
- плохие последствия --- неверные стандартные ошибки (!) --- неприменимость t, F тестов при использовании обычных стандартных ошибок --- неэффективность оценок МНК
- хорошие новости --- оценки МНК несмещенные --- оценки МНК состоятельные
- визуальная диагностика
- тесты --- тест GQ --- тест Уайта (или Бройша-Пагана)
- борьба: --- использование устойчивых к ак стандартных ошибок --- [редко] моделирование структуры гетероскедастичности
- взвешенный МНК
- неправильная практика: протестировать, и использовать устойчивые в зависимости от результатов теста
- с чем можно спутать ГСК - логарифмирование
автокорреляция:
- определение
- причины
- пример
- плохие последствия --- неверные стандартные ошибки (!) --- неприменимость t, F тестов при использовании обычных стандартных ошибок --- неэффективность оценок МНК
- хорошие новости --- оценки МНК несмещенные --- оценки МНК состоятельные
- визуальная диагностика
- тесты --- DW - тест (ограничения) --- тест Бройша-Годфри
- борьба: --- использование устойчивых к ак стандартных ошибок --- моделирование структуры автокорреляции (анализ временных рядов)
- неправильная практика: протестировать, и использовать устойчивые в зависимости от результатов теста
- про пространственные данные