-
Notifications
You must be signed in to change notification settings - Fork 1
Результати виконання домашнього завдання №4
Для дослідження ми обрали не всю планету, а лише США, тому статистичні дані грипу відповідно беруться для цієї країни. Джелером даних є вебсайт центру контролю і профілактики захворювань США. Збір, збереження і обробка інформації проводиться за допомогою розробленого ADT (опис ADT). Після здійснення всіх потрібних маніпуляцій ми можемо легко отримати потрібні для подальшого аналізу дані. Основною ціллю нашого дослідження є порівняння статистики грипу і COVID-19, тому розроблений абстрактний тип даних має методи, які дозволяють користувачу остримувати для кожного року окремо та середню кількість смертей, хворих і людей, які виздоровіли.
Джерелом статистичних даних COVID-19 є API розроблене John Hopkins University. Взаємодія між користувачем і API відбувається за допомогою хостингу (короткий опис) і розробленого абстрактного типу даних (опис ADT). Використовуючи CoronaADT, користувач може отримувати всі потрібні для подальшого аналізу дані.
При порівнянні використовувались середні статистичні дані для грипу за 2010-2016 роки і останні статистичні дані COVID-19. Для відображення результатів обчислень було вибрано стовпчасту діаграму. Відсоткові відношення виводяться у текстовому форматі в консоль.
Головною ціллю нашого проєкту було порівняння статистики грипу і COVID-19. Для дослідження ми вибрали конкретну країну, бо це дає можливість при подальшому розширенні можливостей нашої програми набагато легше порівнювати вплив різних факторів на сататистику вірусу, наприклад рівня самоізоляції. Часовою одиницею, для якої ми накопичували дані, є один рік. Саме такий проміжок часу дозволяє усвідомити масштаб хвороби і уникнути похибок. При порівнянні даних за один день є велика ймовірність неправильно протрактувати результати. До прикладу, якщо б ми порівнювали статистику 1 лютого, то могло б скластись враження, що COVID-19 не є небезпечним, але сьогоднішня ситуація в світі (станом на 10.05.2020) показує зовсім інше. Проблемою стало те, що пандемія COVID-19 почалась 5 місяців тому, тому ми вирішили використовувати машинне навчання для заповненя статистичної "пустоти". Також користувач має можливість порівняти грип і COVID-19 без прогнозування.
При аналізі кількості хворих ми бачимо, що хворих на коронавірус значно менше, ніж на грип. Може скластись хибне враження, що COVID-19 не є небезпечним, навіть, якщо врахувати, що для нього ми маємо дані всього за 5 місяців. І це не дивно при перевазі грипу в 16 разів, але початкове враження швидко руйнує графік порівняння кількості смертей. Не зважаючи на значну перевагу в кількості хворих, по кількості смертей COVID-19 випередив грип у декілька разів.
Існує багато методів машинного навчання, за допомогою яких можна прогнозувати поширення вірусу. Нами було відібрано три: Linear Regression, Polynomial Regression і Radial Basis Function. З них в процесі розробки ми вибрали найкращий на наш погляд. Після проведення тестів метод RFB - Radial Basis Function показав найкращі результати у прогнозуванні поширення COVID-19 до кінця 2020 року.
-
RBF - 99.2% accuracy
-
Linear Regression - 98.8% accuracy
-
Polynomial Regression - 95.2% accuracy
Результати проведених обчислювальних операцій з використанням машинного навчання тільки підтвердили результати аналогічних обчислень без нього. При збереженні тепершньої тенденції COVID-19 в майбутньому буде приблизно така ситуація:
-
Середня кількість хворих на грип за 2010-2016 роки буде становити 437% від середньої кількості хворих на COVID-19 в 2020 році.
-
Середня кількість людей, які вилікувались від грипу за 2010-2016 роки буде становити 574% від середньої кількості людей, які вилікувались від COVID-19 в 2020 році.
-
Середня кількість смертей від грипу за 2010-2016 роки буде більше ніж в 10 раців менша ніж від COVID-19 за 2020 рік.