fourth_step__analysis.Rmd

---
title: "fourth_step__analysis"
author: "Amos Bationo"
date: "2023-04-19"
output: html_document
---

Loading packages

```{r loading packages and figure config, echo=FALSE}
library("tidyverse")
library("ggplot2")
library("gridExtra")  # Combine plots in one figure
library("lawstat")  # to perform a Levene's test for homogeneity of variances using the 'leveneTest' 

# fig config}
title_size <- 16
subtitle_size <- 12
caption_size <- 12
img_width <- 10
img_height <- 5
casual_member_colors <- c("#DFAE41","#109FC6")
```

# -------------- Descriptive analysis
#______________________________________________________________________________#
### ---- Data sets
```{r Data sets, echo=FALSE}
df <- read_csv(file.path('data', 'df_2015_to_2023.csv'))
```

```{r}
dim(df)
```

```{r}
str(df)
```
### What are the attributes to consider for this task?
Number of ride
rideable_type
ride_length
member_casual
month
day
year
day_of_week

#### Transform month from integers to name
```{r}
df <- 
  df %>%
  mutate(month = month.abb[as.integer(month)])
print("Done.")
```

```{r}
head(df)
```


#### days of the week and months must be ordered
```{r}
df$day_of_week <- ordered(df$day_of_week, 
                          levels=c("Sunday", "Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday"))

df$month <- ordered(df$month, 
                          levels=c("Jan", "Feb", "Mar", "Apr", "May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"))
print("Done.")
```

```{r}
unique(df$month)
```


# Descriptive analysis on ride_length (all figures in seconds)
```{r}
mean(df$ride_length) #straight average (total ride length / rides)
median(df$ride_length) #midpoint number in the ascending array of ride lengths
max(df$ride_length) #longest ride
min(df$ride_length) #shortest ride
```
Note: 'ride_length' expresses the duration of a ride in seconds. This is a 
fictional data and at least one ride has a duration of 1 second which is too 
short duration in a real life scenario. 

Let's remove all ride with a 'ride_length' less than 5 minutes and convert it 
to minutes

```{r}
df <- filter(df, ride_length >= 5*60) %>% 
  mutate(ride_length = round(ride_length / 60)) 
print("Done.")
```

```{r}
general_description_cols <- c('ride_length')
summary(df[general_description_cols])
```

Comment: Our dataset's descriptive statistics for 'ride_length' revealed a few interesting findings. The most brief trip lasted 5 minutes, while the longest ride lasted an incredible 238,940 minutes, which is almost 166 days! The average length of all rides was discovered to be 23.55 minutes. The median ride duration of 14 minutes, on the other hand, is a better representation of a typical ride length since it is closer to the majority of the values than the mean. The first quartile of ride lengths was 9 minutes, suggesting that 25% of the rides were completed in that amount of time. The third quartile stood at 23 minutes, which means that 75% of the trips were that long or less.

In summary, these statistics indicate that our dataset has a wide variety of ride lengths, with some being quite short and others being exceedingly long, with most rides lasting between 9 and 23 minutes. These information might help uncover trends and patterns in ride length, which could help drive decision-making in areas like route design and pricing strategies.

#### Categorize ride length
```{r}
ride_len_level <- c('5-10min', '10-30min', '30min-1h', '1-2h', '2-5h', '5h-1d', '1-2d', '2d-1w', '1w-1m', '1-3m', '3m+')

df <- mutate(df, 
             ride_length_cat = ifelse(ride_length <= 10, ride_len_level[1], # '5-10min', 
                                      ifelse(ride_length <= 30, ride_len_level[2], # '10-30min', 
                                             ifelse(ride_length <= 60, ride_len_level[3], # '30min-1h',
                                                    ifelse(ride_length <= 2*60, ride_len_level[4], # '1-2h', 
                                                           ifelse(ride_length <= 5*60, ride_len_level[5], # '2-5h', 
                                                                  ifelse(ride_length <= 24*60, ride_len_level[6], # '5h-1d', 
                                                                         ifelse(ride_length <= 2*24*60, ride_len_level[7], # '1-2d',
                                                                                ifelse(ride_length <= 7*24*60, ride_len_level[8], # '2d-1w',
                                                                                       ifelse(ride_length <= 4*7*24*60, ride_len_level[9], # '1w-1m', 
                                                                                              ifelse(ride_length <= 3*4*7*24*60, ride_len_level[10], ride_len_level[11] # '1-3m', '3m+'
                                                                                                     )
                                                                                              )
                                                                                       )
                                                                                )
                                                                         )
                                                                  )
                                                           )
                                                    )
                                             )
                                      )
)
length(ride_len_level)
df$ride_length_cat <- ordered(df$ride_length_cat,
                              levels=ride_len_level)
print("Done.")
```


```{r}
head(df)
```

```{r}
df %>% 
  group_by(ride_length_cat) %>% 
  summarise(number_of_rides = n())
```

Checking for missing values in 'ride_length_cat'
```{r}
filter(df, is.na(ride_length_cat))[c('ride_length', 'ride_length_cat')]
```

# Basics stats of ride_length: Compare members and casual users
```{r}
df_to_export <-
  df %>% 
  group_by(member_casual) %>% 
  summarise(avg_ride_length = mean(ride_length),
            median_ride_length = median(ride_length),
            third_quantile = quantile(ride_length, 0.75),
            min_ride_length = min(ride_length),
            max_ride_length = max(ride_length)
            )
df_to_export
# export
df_to_export_name = "basics_stats_of_ride_length__members_vs_casual_customers.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```
Comment: The descriptive statistics for ride lengths in our dataset are presented in the table above, broken down by membership type: casual and member. The average ride time for casual riders was 40.03 minutes, which is more than double the average ride length for members, which was 15.35 minutes. However, it's worth noting that the median ride time for casual riders was just 21 minutes, while it was 11 minutes for members. This implies that, while the dataset contains some very lengthy casual rides, the vast majority of trips are far shorter. 
The longest ride length for casual bikers was 238,940 minutes, which is more than 165 days! The longest ride length for members was 225,960 minutes, which is also a very long time. The minimum riding time for both groups was 5 minutes, indicating that some rides may have been cut short for various reasons. Overall, these statistics indicate that our dataset has a wide variety of ride lengths, with some being quite short and others being exceedingly long. These information might help uncover trends and patterns in ride length, which could help drive decision-making in areas like route design and pricing strategies.

### Visualize: Compare casual vs member' ride_length in Boxplots

```{r}
# Calculate quartiles and interquartile range
q1 <- quantile(df$ride_length, 0.25)
q3 <- quantile(df$ride_length, 0.75)
iqr <- q3 - q1

# Calculate upper and lower bounds for outliers
upper_bound <- q3 + 1.5*iqr
lower_bound <- q1 - 1.5*iqr

# Filter out outliers before ploting
df %>% filter(ride_length >= lower_bound & ride_length <= upper_bound) %>% 
  ggplot(aes(x = member_casual, y = ride_length, fill = member_casual)) + 
  geom_boxplot() + 
  xlab("") + ylab("Ride Duration (in minutes)") + 
  labs(fill = "Customers", caption = "") + 
  labs(fill = "Customers", 
       title = "Ride Duration by Customer Type (Casual vs. Member)",
       subtitle = "Jan 2015 to Mar 2023 (outliers were removed based on quantiles)",
       caption = "",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)


# Save the plot as png image
file_name = file.path('outputs', 'img', 'box_plots__ride_duration_by_customer_type.png')
# ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```

Comment: After removing the outliers it appears that 'member' subscription type of customers tend to use the bikes for shorter trips compared to the 'casual' customers. Let's assess the strength of this hypothesis through a statistical test.

## T-Test for comparing the average duraction trip of the to types of customes (casual and member)
The assumptions of the two-sample t-test are:

    Normality: The data should be approximately normally distributed within each group.
    Independence: The observations within each group should be independent.
    Homogeneity of variance: The variance of the data should be equal in both groups.
    Random sampling: The samples should be randomly selected from their respective populations.
    
    
Function to save all tests results in one data frame
```{r}
add_to_tests_table <- function(){
  if(!(test_name %in% tests_table$Test)){
  new_test <- data.frame(Test = test_name, H0 = NA, Alpha = NA, P_value = NA, Reject_H0 = NA)
  tests_table <- rbind(tests_table, new_test)
  print(paste0("Added: ", test_name))
  }else{
    print(paste0("Updated: ", test_name))
  }
tests_table <- tests_table %>% 
  mutate(
    H0 = ifelse(
      Test == test_name, test_H0, H0),
    Alpha = ifelse(
      Test == test_name, test_alpha, Alpha),
    P_value = ifelse(
      Test == test_name, 
      ifelse(
        test_result$p.value < smallest_p_value, paste0("p-value < ", smallest_p_value), test_result$p.value), 
      P_value),
    Reject_H0 = ifelse(
      Test == test_name, ifelse(
        test_result$p.value > test_alpha, "No", 
        paste0("Yes (", ifelse(test_result$p.value < test_alpha, "99.99", round(100*(1-test_result$p.value), 2)), "%)")),
      Reject_H0)
    )
return(tests_table)
}
```
    
#### Test for homogeneity of variance
```{r}
test_name <- "Levene - Homogeneity of variance"
test_H0 <- "variance in casual group is equal (statistically) to variance in member group"
smallest_p_value <- 10^-5
test_alpha <- 0.05
tests_table <- data.frame(Test = character(), H0 = character(), Alpha = numeric(), P_value = character(), Reject_H0 = character(), stringsAsFactors = FALSE)
# For this test we choose alpha = 0.05
# H0: The variance of the two groups ('casual' and 'member') in terms of trips duration are similar 

# Calculate quartiles and interquartile range
q1 <- quantile(df$ride_length, 0.25)
q3 <- quantile(df$ride_length, 0.75)
iqr <- q3 - q1

# Calculate upper and lower bounds for outliers
upper_bound <- q3 + 1.5*iqr
lower_bound <- q1 - 1.5*iqr

# Filter out outliers before testing
test_result <- levene.test(y = filter(df, ride_length >= lower_bound & ride_length <= upper_bound)$ride_length, 
            group = filter(df, ride_length >= lower_bound & ride_length <= upper_bound)$member_casual, 
            location = "median")  # Perform Levene's test
test_result

tests_table <- add_to_tests_table()
```
Result: p-value < 2.2e-16 < alpha = 0.05
Comment: We reject the null hypothesis (H0) of Homogeneity of variance of the duration of rides between the 'casual' and 'member' customers.


```{r}
tests_table
```


#### Test for normal distribution
```{r}
# For this test we choose alpha = 0.05
# H0: The data are normally distributed 

test_H0 <- "Data are normally distributed"
smallest_p_value <- 10^-5
test_alpha <- 0.05

# ----- casual
# Calculate quartiles and interquartile range
q1_casual <- quantile(filter(df, member_casual == 'casual')$ride_length, 0.25)
q3_casual <- quantile(filter(df, member_casual == 'casual')$ride_length, 0.75)
iqr_casual <- q3_casual - q1_casual

# Calculate upper and lower bounds for outliers
upper_bound_casual <- q3_casual + 1.5*iqr_casual
lower_bound_casual <- q1_casual - 1.5*iqr_casual

#----- member
# Calculate quartiles and interquartile range
q1_member <- quantile(filter(df, member_casual == 'casual')$ride_length, 0.25)
q3_member <- quantile(filter(df, member_casual == 'casual')$ride_length, 0.75)
iqr_member <- q3_member - q1_member

# Calculate upper and lower bounds for outliers
upper_bound_member <- q3_member + 1.5*iqr_member
lower_bound_member <- q1_member - 1.5*iqr_member

# Note: The maximum sample size for a shipiro test here is 5000
# Normality test for 'casual' group
test_name <- "Shapiro - normality of distribution - casual customers"
test_result <- shapiro.test(sample(filter(df, member_casual == "casual", ride_length >= lower_bound_casual & ride_length <= upper_bound_casual)$ride_length, size = 5000))
test_result

tests_table <- add_to_tests_table()

# Normality test for 'member' group
test_name <- "Shapiro - normality of distribution - member customers"
test_result <- shapiro.test(sample(filter(df, member_casual == "member", ride_length >= lower_bound_member & ride_length <= upper_bound_member)$ride_length, size=5000))
test_result

tests_table <- add_to_tests_table()
```
Result: p-value < 2.2e-16 < alpha = 0.05 for both 'casual' and 'member'
Comment: For both 'casual' and 'member', the values of rides duration are not normally distributed
Many assumptions of a T-Test are violated. If we still decide to proceed with the The T-test, these violations should be mentioned.

Running the T-Test anyway
```{r}
# For this test we choose alpha = 0.05
# H0: averages trips duration for 'casual' and 'member' customers are not statistically different

test_name <- "T-Test - Equality of means"
test_H0 <- "averages trips duration for casual and member customers are not statistically different"
smallest_p_value <- 10^-5
test_alpha <- 0.05

test_result <- t.test(filter(df, member_casual == "casual", ride_length >= lower_bound_casual & ride_length <= upper_bound_casual)$ride_length,
                      filter(df, member_casual == "member", ride_length >= lower_bound_member & ride_length <= upper_bound_member)$ride_length)
test_result
tests_table <- add_to_tests_table()
View(tests_table)


```
Result: p-value < 2.2e-16 < alpha = 0.05
Comment: We reject the null hypothesis and conclude that the difference in the average duration of the trips between 'casual' and 'member' customers is  statistically significant. However, it should be noted that the assumptions for the T-Test was violated.

#### Switch to a non parametric test compare the distribution of the 2 types of customers (No assumptions on the distribution)
```{r}
# Wilcoxon rank-sum test: Also known as the Mann-Whitney U test, it compares the medians of two independent groups

# For this test we choose alpha = 0.05
# H0: median value of  trips duration for 'casual' and 'member' customers are not statistically different

test_name <- "Wilcoxon rank-sum test - Equality of medians"
test_H0 <- "median value of  trips duration for 'casual' and 'member' customers are not statistically different"
smallest_p_value <- 10^-5
test_alpha <- 0.05

# perform the Wilcoxon rank-sum test
test_result <- wilcox.test(
  filter(df, member_casual == "casual", ride_length >= lower_bound_casual & ride_length <= upper_bound_casual)$ride_length,
  filter(df, member_casual == "member", ride_length >= lower_bound_member & ride_length <= upper_bound_member)$ride_length)

test_result
tests_table <- add_to_tests_table()
```
Result: p-value < 2.2e-16 < alpha = 0.05
Comment: We reject the null hypothesis and conclude that the difference in the duration of the trips between 'casual' and 'member' customers is  statistically significant.

#### Save tests results
```{r}
write.csv(tests_table, file.path('data', 'df_test_results.csv'), row.names = FALSE)
tests_table
```


# Ridership data by type (members vs casual users) and week day

```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, day_of_week)

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_week_days.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```

### Visualize for number_of_rides (week day)
```{r}
df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, day_of_week) %>% 
  ggplot(aes(x = day_of_week, y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge")+ 
  xlab("") + ylab("Number of Rides") + 
  labs(fill = "Customers", 
       title = "Number of Rides per Customer by Weekday",
       subtitle = "Jan 2015 to Mar 2023",
       caption = "",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__number_of_rides_per_customer_by_weekday.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
```{r}
df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, day_of_week) %>% 
  pivot_wider(id_cols = day_of_week, names_from = member_casual, values_from = number_of_rides) %>% 
  mutate(nbr_of_trips_member_relative_casual = (member-casual) / casual)
```
Comment: Casual and member customers tend to use bikes at the same rate during weekends (Saturday and Sunday). However, during working days, member customers use the bikes 1 to 2 times more frequently than casual customer.

### Visualize for average_duration (week day)
```{r}
df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, day_of_week) %>% 
  ggplot(aes(x = day_of_week, y = average_duration, fill = member_casual)) +
  geom_col(position = "dodge")+ 
  xlab("") + ylab("Average Rides Duration (minutes)") + 
  labs(fill = "Customers", 
       title = "Average Ride Duration per Customer by Weekday",
       subtitle = "Jan 2015 to Mar 2023",
       caption = "",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__average_ride_duration_per_customer_by_weekday.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
Comment: From 2015 to March 2023, casual customers have been using the bikes for longer than member customers

```{r}
df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, day_of_week) %>% 
  pivot_wider(id_cols = day_of_week, names_from = member_casual, values_from = average_duration) %>% 
  mutate(average_duration_casual_relative_member = (casual - member) / member)
```
Comment: The average time spent for daily trips by casual customers is more than the double of the average time spent by member customers.


```{r}
p1 <- df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(number_of_rides = n()
            ) %>% 
  arrange(member_casual, day_of_week) %>% 
  ggplot(aes(x = day_of_week, y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge") +
  xlab("") + ylab("Number of Rides") + 
  labs(fill = "", 
       title = "Daily Number of Rides",
       subtitle = "",
       caption = "",
  ) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size),
        legend.position = "none") + 
  scale_fill_manual(values = casual_member_colors)

# create the second plot
p2 <- df %>%
  group_by(member_casual, day_of_week) %>%
  summarise(average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, day_of_week) %>%
  ggplot(aes(x = day_of_week, y = average_duration, fill = member_casual)) +
  geom_col(position = "dodge") + 
  xlab("") + ylab("Average Rides Duration (minutes)")  + 
  labs(fill = "Customers", 
       title = "Daily Average Ride Duration",
       subtitle = "",
       caption = "",
  ) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)


# combine the two plots and share the legend
combined_plot <- grid.arrange(p1 + guides(color = guide_legend(title = "Customers")), 
             p2 + guides(color = guide_legend(title = "Customers")), 
             ncol = 2, widths = c(0.8, 1))

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__average_number_of_rides_and_duration_per_customer_by_day.png')
## ggsave save the last image produced
ggsave(file_name,
       combined_plot,
       width=img_width,
       height=img_height)
```

# Ridership data by type (members vs casual users) and months
```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, month) %>%
  mutate(month = month.abb[as.integer(month)]) %>% 
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, month)

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_months.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```
### Visualize for number_of_rides (month)

```{r}
df %>%
  group_by(member_casual, month) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, month) %>% 
  ggplot(aes(x = month, y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge")+ 
  xlab("") + ylab("Number of Rides") + 
  labs(fill = "Customers", 
       title = "Monthly Number of Rides per Customer Type",
       subtitle = "Jan 2015 to Mar 2023",
       caption = "Annual subscribers ('member') have been taking more bike trips per month compared to casual customers since 2015.",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__number_of_ride_per_customer_by_month.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
Comment: The number of bike rides for each type of customer appears to be normally distributed over the months. However, there is a clear trend that annual subscribers ('member') have been taking more bike trips per month compared to casual customers since 2015.

### Visualize for average_duration (month)
```{r}
df %>%
  group_by(member_casual, month) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, month) %>% 
  ggplot(aes(x = month, y = average_duration, fill = member_casual)) +
  geom_col(position = "dodge") + 
  xlab("Months") + ylab("Average Rides Duration (minutes)") + 
  labs(fill = "Customers", 
       title = "Monthly Average Ride Duration per Customer Type",
       subtitle = "Jan 2015 to Mar 2023",
       caption = "Since 2015, casual customers have consistently been taking longer bike trips compared to annual subscribers.",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__average_ride_duration_per_customer_by_month.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
Comment: Based on the data, it appears that there is a significant difference in the average trip duration between casual customers and annual subscribers ('member') on a monthly basis. Despite a slight decrease in the average duration over time, casual customers consistently take longer bike trips compared to annual subscribers.

```{r}
df %>%
  group_by(member_casual, month) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, month) %>% 
  pivot_wider(id_cols = month, names_from = member_casual, values_from = average_duration) %>% 
  mutate(average_duration_casual_relative_member = (casual - member) / member)
```
Comment: The average time spent for monthly trips by casual customers is more than the double of the average time spent by member customers.

```{r}
p1 <- df %>%
  group_by(member_casual, month) %>%
  summarise(number_of_rides = n()
            ) %>% 
  arrange(member_casual, month) %>% 
  ggplot(aes(x = month, y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge") +
  xlab("") + ylab("Number of Rides") + 
  labs(fill = "", 
       title = "Monthly Number of Rides",
       subtitle = "",
       caption = "",
  ) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size),
        legend.position = "none") + 
  scale_fill_manual(values = casual_member_colors)

# create the second plot
p2 <- df %>%
  group_by(member_casual, month) %>%
  summarise(average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, month) %>%
  ggplot(aes(x = month, y = average_duration, fill = member_casual)) +
  geom_col(position = "dodge") + 
  xlab("") + ylab("Average Rides Duration (minutes)")  + 
  labs(fill = "Customers", 
       title = "Monthly Average Ride Duration",
       subtitle = "",
       caption = "",
  ) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)


# combine the two plots and share the legend
combined_plot <- grid.arrange(p1 + guides(color = guide_legend(title = "Customers")), 
             p2 + guides(color = guide_legend(title = "Customers")), 
             ncol = 2, widths = c(0.8, 1))

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__average_number_of_rides_and_duration_per_customer_by_month.png')
## ggsave save the last image produced
ggsave(file_name,
       combined_plot,
       width=img_width,
       height=img_height)
```


# Ridership data by type (members vs casual users) and years
```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, year)

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_years.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```

### Visualize for number_of_rides (year)
```{r}
df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, year) %>% 
  ggplot(aes(x = year, y = number_of_rides, color = member_casual)) +
  geom_line() +
  xlab("Years") + ylab("Number of Rides") + 
  labs(fill = "Customers", 
       title = "Yearly Number of Rides per Customer Type",
       subtitle = "2015 to Mar 2023",
       caption = "Overall decline number of rides. Every year, annual subscribers ('member') consistently take more bike trips compared to casual customers.",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_color_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__number_of_ride_per_customer_by_year.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)

```
Comment: Overall, the number of bike rides each year is decreasing. However, it is worth noting that consumers with yearly subscriptions ('members') regularly take more bike journeys than casual customers over the course of the study.


```{r}
df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n()
            ) %>% 
  arrange(member_casual, year) %>% 
  pivot_wider(id_cols = c('year'), 
              names_from = "member_casual", 
              values_from = "number_of_rides"
              ) %>% 
  group_by(year) %>% 
  mutate(percent_diff_number_of_rides_casual_member = 100 * (casual - member)/member)
```

### Visualize for average_duration (year)
```{r}
df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, year) %>% 
  ggplot(aes(x = year, y = average_duration, color = member_casual)) +
  geom_line() + 
  xlab("") + ylab("Average Rides Duration (minutes)")  + 
  labs(color = "Customers", 
       title = "Yearly Average Ride Duration per Customer Type",
       subtitle = "2015 to Mar 2023",
       caption = "From 2015 to March 2023, casual customers trip duration took 53% to 73% longer than for customers with annual subscription.",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_color_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__average_ride_duration_per_customer_by_year.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
Comment: From 2015 to March 2023, the average trip duration for 'member' customers does not show significant variation compared to 'casual' customers. However, 'casual' customers consistently use the bikes for much longer trips than 'member' customers, with trip duration ranging from 53% to 73% longer.

From 2015 to March 2023, the duration of bike trips taken by casual customers was consistently 53% to 73% longer than those taken by customers with an annual subscription. This finding suggests that casual customers may use the bikes for leisure or recreational purposes, while members may use them for more utilitarian purposes such as commuting. It also raises questions about the pricing structure and value proposition for casual customers, who may be paying more per trip compared to members but may not be utilizing the service as frequently. Further analysis of customer behavior and preferences could provide insights into potential strategies for increasing casual customer engagement and loyalty.

```{r}
df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, year) %>% 
  pivot_wider(id_cols = c('year'), 
              names_from = "member_casual", 
              values_from = "average_duration"
              ) %>% 
  group_by(year) %>% 
  mutate(percent_diff_avg_duration_member_casual = 100 * (member - casual)/casual)
```
Comment: Casual customers consistently use the bikes for much longer trips than member customers, with trip duration ranging from 53% to 73% longer.

###### Combine yearly number of rides and duration in one figure
```{r}
p1 <- df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
  ) %>% 
  arrange(member_casual, year) %>%
  ggplot(aes(x = year, y = number_of_rides, color = member_casual)) +
  geom_line() +
  xlab("") + ylab("Number of Rides") + 
  labs(color = "", 
       title = "Yearly Number of Rides",
       subtitle = "",
       caption = "",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size),
        legend.position = "none") + 
  scale_color_manual(values = casual_member_colors)

# create the second plot
p2 <- df %>%
  group_by(member_casual, year) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
  ) %>% 
  arrange(member_casual, year) %>%
  ggplot(aes(x = year, y = average_duration, color = member_casual)) +
  geom_line() + 
  xlab("") + ylab("Average Rides Duration (minutes)")  + 
  labs(color = "Customers", 
       title = "Yearly Average Ride Duration",
       subtitle = "",
       caption = "",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_color_manual(values = casual_member_colors)


# combine the two plots and share the legend
combined_plot <- grid.arrange(p1 + guides(color = guide_legend(title = "Customers")), 
             p2 + guides(color = guide_legend(title = "Customers")), 
             ncol = 2, widths = c(0.8, 1))


# Save the plot as png image
file_name = file.path('outputs', 'img', 'line_plots__average_number_of_rides_and_duration_per_customer_by_year.png')
## ggsave save the last image produced
ggsave(file_name,
       combined_plot,
       width=img_width,
       height=img_height)
```


# Ridership data by type (members vs casual users) and ride_length_cat
```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, ride_length_cat) %>%
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, ride_length_cat)

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_ride_duration.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```

### Visualize for number_of_rides (ride_length_cat)
```{r}
df %>%
  group_by(member_casual, ride_length_cat) %>%
  summarise(number_of_rides = n()) %>% 
  arrange(member_casual, ride_length_cat) %>% 
  ggplot(aes(x = ride_length_cat, y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge")+
  xlab("Rides Duration") + ylab("Number of Rides") + 
  labs(color = "Customers", 
       title = "Number of Rides VS Ride Duration per Customer Type",
       subtitle = "Duration category",
       caption = "Caption",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)
```

# Ridership data by type (members vs casual users) and top 5 start_station
```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, start_station_name) %>%
  summarise(number_of_rides = n()) %>%
  arrange(member_casual, desc(number_of_rides)) %>%
  group_by(member_casual) %>%
  top_n(5)

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_top_5_start_station_name.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```

### Visualize for number_of_rides
```{r}
# function to break labels of x-axis into a new line at each '&' character in start_station_name
addline_format <- function(x,...){
    gsub('&','& \n',x)
}
df %>%
  group_by(member_casual, start_station_name) %>%
  summarise(number_of_rides = n()) %>%
  arrange(member_casual, desc(number_of_rides)) %>%
  group_by(member_casual) %>%
  top_n(5) %>% 
  mutate(percent = round(100 * (number_of_rides / nrow(df)), 2)) %>% 
  mutate(rank = rank(-percent)) %>% 
  ggplot(aes(x = fct_reorder(start_station_name, rank), y = percent, fill = member_casual)) +
  geom_col(position = "dodge") + 
  xlab("Start Station") + ylab("Number of Rides") +
  labs(fill = "Customers", 
       title = "Top 5 Start Stations  per Customer Type",
       subtitle = "",
       caption = "",
  ) + 
  theme(plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size),
        axis.text.x = element_text(angle = 45, hjust = 1)) + 
  scale_fill_manual(values = casual_member_colors) + 
  scale_x_discrete(breaks=unique(df$start_station_name), 
    labels=addline_format(unique(df$start_station_name)))


# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_chart__number_of_rides_per_customer_by_top_5_start_station.png')
# ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
Comment: There is a clear difference between casual and member customers in terms of starting station. The Streeter Dr & Grand Ave station accounts for 1.55% (457,718) of rides initiated by casual customers, which is more than 2 times the number of started rides by member customers (124,443 trips). In the other hand, 0.94% (278,769) of rides initiated by member customers are from the Clinton St & Washington Blvd station. However their number of rides  less differ from the one of casual customers as it is just 0.92 times higher than the number of rides of casual customers.

```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, start_station_name) %>%
  summarise(number_of_rides = n()) %>%
  arrange(member_casual, desc(number_of_rides)) %>%
  group_by(member_casual) %>%
  top_n(1) %>% 
  

df_to_export
```
Use the two 
```{r}
df %>%
  group_by(member_casual, start_station_name) %>%
  summarise(number_of_rides = n()) %>%
  arrange(member_casual, desc(number_of_rides)) %>%
  group_by(member_casual, start_station_name) %>%
  top_n(1) %>% 
  filter(start_station_name %in% c('Streeter Dr & Grand Ave', 'Clinton St & Washington Blvd')) %>% 
  pivot_wider(id_cols = start_station_name, names_from = member_casual, values_from = number_of_rides) %>% 
  mutate(number_of_rides_casual_relative_member = (casual - member) / member,
         number_of_rides_member_relative_casual = (member - casual) / casual)
```
Comment: There is a clear difference between casual and member customers in terms of starting station.

# Ridership data by type (members vs casual users) and top 5 end_station
There are missing values for end_station_name, we filter them out. (In real life we would have investigate them in order to fix the issue)
```{r}
df_to_export <- 
  df %>%
  group_by(member_casual, end_station_name) %>%
  summarise(number_of_rides = n()) %>%
  arrange(member_casual, desc(number_of_rides)) %>%
  filter(!is.na(end_station_name)) %>% 
  group_by(member_casual) %>%
  top_n(5)

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_top_5_end_station_name.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```


### Visualize for number_of_rides
```{r}
library(stringr)
library(ggtext)
df %>%
  group_by(member_casual, end_station_name) %>%
  summarise(number_of_rides = n()) %>%
  filter(!is.na(end_station_name)) %>% 
  top_n(5) %>% 
  mutate(rank = rank(-number_of_rides)) %>% 
  ggplot(aes(x = fct_reorder(end_station_name, rank), y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge")+
  xlab("End Station") + ylab("Number of Rides") +
  labs(fill = "Customers", 
       title = "Top 5 End Stations  per Customer Type",
       subtitle = "",
       caption = "",
  ) + 
  theme(plot.title = ggtext::element_markdown(hjust = 0, size = title_size, margin = margin(b = 10)),
        plot.subtitle = ggtext::element_markdown(hjust = 0, size = subtitle_size, margin = margin(b = 10)),
        plot.caption = ggtext::element_markdown(hjust = 0, size = caption_size, margin = margin(t = 10)),
        axis.text.x = ggtext::element_markdown(angle = 45, hjust = 1, vjust = 1, margin = margin(t = 5, r = 5), 
                                                wrap = unit(20, "line"))) + 
 scale_fill_manual(values = casual_member_colors)

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_chart__number_of_rides_per_customer_by_top_5_end_station.png')
## ggsave save the last image produced
ggsave(file_name,
       width=img_width,
       height=img_height)
```
Comment: 

# Ridership data by type (members vs casual users) and bikes type (number_of_rides)
```{r}
df %>% 
  filter(nchar(rideable_type) > 7) %>%
  group_by(year) %>% 
  summarise(total_rides = n())
```
Note: Bikes are only available from 2020

```{r}
df_to_export <- 
  df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(number_of_rides = n()) %>%
  arrange(member_casual, desc(number_of_rides))

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_top_5_end_station_name.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```

### Visualize for number_of_rides
```{r}
df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(number_of_rides = n()) %>%
  mutate(rideable_type = str_to_title(gsub("_", " ", rideable_type))) %>% 
  arrange(member_casual, desc(number_of_rides)) %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = member_casual)) + 
  geom_col(position = "dodge") + 
  xlab("Bikes Type") + ylab("Number of Rides") +
  labs(fill = "Customers") + 
  scale_fill_manual(values = casual_member_colors)
```
Comment: The most frequently used bikes among all customers are classic bikes, accounting for approximately 44.59% of all trips. Since 2020, customers with annual subscriptions have been using classic bikes more frequently, making up 60.78% of all trips. The use of docked bikes is quite similar for both customer types, with casual riders accounting for 50.46% of trips made with these bikes.

One finding is that there is a difference in the preferred bike type between casual riders and customers with annual subscription. Casual riders tend to use docked bikes more frequently than electric bikes, while customers with annual subscription tend to use electric bikes more frequently than docked bikes even if both tend to use classic bikes much more often than the others type of bikes.

More analysis is needed in order to determine if is really a matter of preference of availability.


Percentages of rides per bike type
```{r}
df %>% 
  filter(nchar(rideable_type) > 7) %>% 
  group_by(rideable_type) %>%
  summarise(number_of_rides = n()) %>% 
  mutate(percentages = round(100 * number_of_rides / sum(number_of_rides), digits = 2)) %>% 
  arrange(desc(percentages))
```

Percentage of rides 
```{r}
df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(rideable_type) %>%
  summarise(total_rides = n()) %>%
  left_join(
    df %>%
      filter(nchar(rideable_type) > 7) %>% 
      group_by(member_casual, rideable_type) %>%
      summarise(number_of_rides = n()) %>%
      arrange(member_casual, desc(number_of_rides))
  ) %>% 
  mutate(percentages = round(100 * number_of_rides / total_rides, 2))
  
```


```{r}
df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(year, rideable_type) %>%
  summarise(total_rides = n()) %>%
  left_join(df %>%
              filter(nchar(rideable_type) > 7) %>% 
              group_by(year, member_casual, rideable_type) %>%
              summarise(number_of_rides = n())) %>%
  mutate(percentage_member_casual = number_of_rides/total_rides * 100) %>%
  arrange(year, rideable_type) %>% 
  mutate(rideable_type = str_to_title(gsub("_", " ", rideable_type))) %>% 
  ggplot(aes(x = rideable_type, y = percentage_member_casual, fill = member_casual)) +
  geom_col(position = "dodge") + 
  facet_wrap(~year) + 
  xlab("Bikes Type") + ylab("Number of Rides") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) + 
  labs(fill = "Customers") + 
  scale_fill_manual(values = casual_member_colors)
```
Comment: 


# Ridership data by type (members vs casual users) and bikes type (rides_length)
```{r}
df_to_export <- 
  df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(avg_rides_duration = mean(ride_length)) %>%
  arrange(member_casual, desc(avg_rides_duration))

df_to_export
# export
df_to_export_name = "ridership_data_by_subscription_type_and_top_5_end_station_name.csv"
# write.csv(df_to_export, file.path('outputs', 'data', df_to_export_name) , row.names = FALSE)
print("Data exported.")
```

### Visualize for number_of_rides
```{r}
df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(avg_rides_duration = mean(ride_length)) %>%
  arrange(member_casual, desc(avg_rides_duration)) %>% 
  mutate(rideable_type = str_to_title(gsub("_", " ", rideable_type))) %>% 
  ggplot(aes(x = rideable_type, y = avg_rides_duration, fill = member_casual)) +
  geom_col(position = "dodge")+
  xlab("Bikes Type") + ylab("Average Rides Duration (minutes)") +
  theme(axis.text.x = element_text(angle = 0, hjust = 0.5)) + 
  labs(fill = "Customers") + 
  scale_fill_manual(values = casual_member_colors)
```
In terms of trip duration, no matter which type of bike is considered, casual customers tend to use them much longer during each ride than customers with annual subscriptions. Indeed, casual riders use docked bikes at least two times longer than member customers (67 versus 18 minutes) , while classic and electric bikes have average trip duration of 31 and 20 minutes, respectively.

Electric bikes are used for shorter trips by both casual and member customers, which could be attributed to the battery life, even though most electric bikes can still be used as classic bikes with low battery power. Further analysis could be done to investigate the reason behind this difference in duration among bike types.

```{r}
df %>%
  group_by(member_casual, month) %>%
  summarise(number_of_rides = n(),
            average_duration = mean(ride_length)
            ) %>% 
  arrange(member_casual, month) %>% 
  pivot_wider(id_cols = month, names_from = member_casual, values_from = average_duration) %>% 
  mutate(average_duration_casual_relative_member = (casual - member) / member)
```
Comment: The average time spent for monthly trips by casual customers is more than the double of the average time spent by member customers.

```{r}
p1 <- df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(number_of_rides = n()) %>%
  mutate(rideable_type = str_to_title(gsub("_", " ", rideable_type))) %>% 
  arrange(member_casual, desc(number_of_rides)) %>% 
  ggplot(aes(x = rideable_type, y = number_of_rides, fill = member_casual)) +
  geom_col(position = "dodge") +
  xlab("") + ylab("Number of Rides") + 
  labs(fill = "", 
       title = "Number of Rides by Bike Type",
       subtitle = "",
       caption = "",
  ) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size),
        legend.position = "none") + 
  scale_fill_manual(values = casual_member_colors)

# create the second plot
p2 <- df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(avg_rides_duration = mean(ride_length)) %>%
  arrange(member_casual, desc(avg_rides_duration)) %>% 
  mutate(rideable_type = str_to_title(gsub("_", " ", rideable_type))) %>% 
  ggplot(aes(x = rideable_type, y = avg_rides_duration, fill = member_casual)) +
  geom_col(position = "dodge") + 
  xlab("") + ylab("Average Rides Duration (minutes)")  + 
  labs(fill = "Customers", 
       title = "Average Ride Duration by Bike Type",
       subtitle = "",
       caption = "",
  ) + 
  theme(axis.text.x = element_text(angle = 45, hjust = 1),
        plot.title = element_text(hjust = 0, size = title_size),
        plot.subtitle = element_text(hjust = 0, size = subtitle_size),
        plot.caption = element_text(hjust = 0, size = caption_size)) + 
  scale_fill_manual(values = casual_member_colors)


# combine the two plots and share the legend
combined_plot <- grid.arrange(p1 + guides(color = guide_legend(title = "Customers")), 
             p2 + guides(color = guide_legend(title = "Customers")), 
             ncol = 2, widths = c(0.8, 1))

# Save the plot as png image
file_name = file.path('outputs', 'img', 'bar_plots__number_of_rides_and_duration_per_customer_by_bike_type.png')
## ggsave save the last image produced
ggsave(file_name,
       combined_plot,
       width=img_width,
       height=img_height)
```


Diff
```{r}
df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(member_casual, rideable_type) %>%
  summarise(avg_rides_duration = mean(ride_length)) %>%
  arrange(member_casual, desc(avg_rides_duration)) %>% 
  pivot_wider(id_cols = rideable_type, names_from = member_casual, values_from = avg_rides_duration) %>% 
  mutate(relative_avg_duration_casual_member = casual / member,
         diff_avg_duration_casual_member = casual - member,
         percent_diff_avg_duration_casual_member = round(100 * (casual - member) / member, 2)
         )
```


```{r}
df %>%
  filter(nchar(rideable_type) > 7) %>% 
  group_by(rideable_type) %>%
  summarise(total_rides_duration = sum(ride_length)) %>%
  left_join(
    df %>%
      filter(nchar(rideable_type) > 7) %>% 
      group_by(member_casual, rideable_type) %>%
      summarise(rides_duration = sum(ride_length)) %>%
      arrange(member_casual, desc(rides_duration))
  ) %>% 
  mutate(percentages = round(100 * rides_duration / total_rides_duration, 2))
  
```