Skip to content

Commit

Permalink
Repair help files
Browse files Browse the repository at this point in the history
  • Loading branch information
boutinb committed Aug 27, 2024
1 parent 92e7db0 commit f8484ee
Show file tree
Hide file tree
Showing 2 changed files with 42 additions and 36 deletions.
41 changes: 21 additions & 20 deletions inst/help/RegressionLogistic.md
Original file line number Diff line number Diff line change
@@ -1,19 +1,20 @@
Logistic Regression
===
==========================

Logistic regression allows the user to model a linear relationship between one or more explanatory variable(s) (predictors) and a categorical dependent (response) variable.

### Assumptions
---
- The dependent variables are categorical.
- The dependent variable is linearly related to all predictors and the effects of the predictors are additive.
- The assumption of homoscedasticity is met. Homoscedasticity entails that the error variance of each predictor is constant across all values of that predictor.
- The residuals are uncorrelated with each other.
- The residuals are normally distributed with a mean zero.
- The covariate and the experiment effect are independent.

### Input
---

#### Assignment box
- Dependent Variable: The variable of interest. This is also called the outcome variable. In case of multiple dependent variables, specify the order in which the predictors are entered into the model (i.e., hierarchical regression analysis). A block of one or more predictor(s) represents one step in the hierarchy.
- Enter: All predictors are entered into the model simultaneously (forced entry).
Expand All @@ -22,19 +23,19 @@ Logistic regression allows the user to model a linear relationship between one o
- Stepwise: Predictors are entered sequentially based on the criterion specified in "Stepping method criteria"; after each step, the least useful predictor is removed.
- Covariates: In this box the variable that is the covariate can be selected. Covariates are continuous variables that have an influence on the dependent variable but are not part of the experimental manipulation.
- Factors: The variables that are manipulated/define the different groups. These are also called the independent variables.

### Model
- Components and model terms:
- Components: All the independent variables and covariates that can be included in the model.
- Model terms: The independent variables and covariates included in the model. By default, all the main effects and interaction effects of the specified independent variables, and the covariates are included in the model.
- Add to null model: The independent variables included in the model can be selected to add to the null model.
- Include intercepts: Ticking this box will add a coefficient estimate of the intercept as well. This corresponds to the first (=reference) level for the independent variable.


### Statistics
- Descriptives:
- Factor descriptives: The levels of the dependent variable(s) and the number of observations per level.

- Regression Coefficients:
- Estimates: Coefficient estimates, standard errors, z-values, and their corresponding p-values.
- From `...` bootstraps: By selecting this option, bootstrapped estimation is applied. By default, the number of replications is set to 1000. This can be changed into the desired number.
Expand All @@ -46,7 +47,7 @@ Logistic regression allows the user to model a linear relationship between one o
- Vovk-Sellke Maximum *p*-Ratio: The bound 1/(-e *p* log(*p*)) is derived from the shape of the *p*-value distribution. Under the null hypothesis (H<sub>0</sub>) it is uniform(0,1), and under the alternative (H<sub>1</sub>) it is decreasing in *p*, e.g., a beta(&#945;, 1) distribution, where 0 < &#945; < 1. The Vovk-Sellke MPR is obtained by choosing the shape &#945; of the distribution under H<sub>1</sub> such that the obtained *p*-value is *maximally diagnostic*. The value is then the ratio of the densities at point *p* under H<sub>0</sub> and H<sub>1</sub>.
For example, if the two-sided *p*-value equals .05, the Vovk-Sellke MPR equals 2.46, indicating that this *p*-value is at most 2.46 times more likely to occur under H<sub>1</sub> than under H<sub>0</sub>.
- Multicollinearity Diagnostics: Collinearity statistics (Tolerance and VIF).

- Residuals:
- Casewise diagnostics: Casewise and summarized diagnostics for the residuals.
- Standard residual > 3: Outliers outside x standard deviations: Shows diagnostics for cases where the absolute value of the standardized residual is larger than x; default is x=3.
Expand All @@ -56,7 +57,7 @@ For example, if the two-sided *p*-value equals .05, the Vovk-Sellke MPR equals 2
- Performance Diagnostics:
- Confusion matrix: The confusion matrix indicates how well the model predicts the outcomes. The table is showing actual versus predicted outcomes and can be used to determine the accuracy of the model.
- Proportions: The table is showing the proportions of actual versus predicted outcomes

- Performance metrics:
- AUC: Area Under the Curve.
- Sensitivity / Recall: Sensitivity describes the proportion of true positive.
Expand All @@ -65,21 +66,21 @@ For example, if the two-sided *p*-value equals .05, the Vovk-Sellke MPR equals 2
- F-measure: This is based on the amount of systematic variance divided by the amount of unsystematic variance (i.e., mean squares for the model / the residual mean squares)
- Brier score: Another measure of the accuracy of predictions.
- H-measure: Another measure of the accuracy of predictions. The default implementation in the package hmeasure on CRAN.

### Plots
- Interferential plots:
- Display conditional estimates plots: The plots are conditional in the sense that they display the probability of the categorical dependent (response) variable for all levels of the predictor variables given the reference level of all other factors.
- Show data points.

- Residual plots: If the assumptions of the linear regression model are tenable, then these residuals should scatter randomly about a horizontal line. Any systematic pattern or clustering of the residuals suggests a model violation(s).
- Predicted - residuals plot: Scatterplot of the values of the residuals against the predicted values.
- Predictor - residual plot: Scatterplot for every independent variable and covariate of the residuals and the levels of the variable of interest.
- Squared Pearson residuals: With the Squared Pearson residuals plot one can check for overdispersion of the model. Overdispersion indicates that the actual data show greater variability than the model has predicted.

- Residual type:
- Deviance: The standardized deviance residuals.
- Pearson: The standardized Pearson residuals.

### Output
---

Expand All @@ -97,7 +98,7 @@ Model summary:
- Cox & Snell: calculated as one minus the ratio of the likelihood of the null model to the likelihood of the specified model, with the ratio raised to the power of 2/n (sample size). Higher values indicate that the specified model fits the data relatively better than the null model. However, this index is bounded at one minus the likelihood of the null model raised to the power of 2/n, and under ideal circumstances can be only as high as 0.75.
- Nagelkerke: provides a correction to the Cox & Snell R2 so that it is bounded at 1. Specifically, it is calculated as the Cox & Snell R2 divided by one minus the likelihood of the null model raised to the power of 2/n. Values closer to one indicate that the specified model outperforms the null model.
- Tjur: calculated as the absolute value of the difference between the mean average predicted value for all cases with zero and the mean average predicted value for all cases with one. Values close to one indicate clear separation between the predicted values for cases with zeros and cases with ones. Unlike the other pseudo R2 indices, Tjur's R2 is not relative to the null model.

Coefficients:
- Estimate: regression coefficients.
- (Robust) Standard Error: Standard error of the regression coefficients.
Expand All @@ -112,7 +113,7 @@ Coefficients:
- 95% Confidence Interval (odds ratio scale)
- [lower]%: Lower bound of the user-defined x% confidence intervals for the regression coefficients.
- [upper]%: Upper bound of the user-defined x% confidence intervals for the regression coefficients.

Bootstrap Coefficients:
- Estimate: bootstrapped regression coefficients.
- Bias: Estimation of the bias.
Expand Down Expand Up @@ -140,17 +141,17 @@ Multicollinearity diagnostics:
Factor Descriptives:
- The first column displays all levels of the factor.
- N: The amount of observations per level of the factor.

#### Performance Diagnostics
Confusion Matrix:
- The confusion matrix indicates how well the model predicts the outcomes. In the diagonal the cases that the model correctly identified are shown. The off-diagonal displays cases where the model predicted an incorrect outcome.

Performance metrics:
- All selected performance metrics and their values are displayed in this table.

#### Estimates Plots
The conditional estimates plots display the probability of the dependent variable for all levels of the covariate given the reference of all other factors. If a (continues) covariate is added the grey shade around the line represents the 95% confidence intervals.

#### Diagnostic Plots
Predicted - residuals plot.

Expand Down
37 changes: 21 additions & 16 deletions inst/help/RegressionLogistic_nl.md
Original file line number Diff line number Diff line change
@@ -1,19 +1,20 @@
Logistische Regressie
===

Met logistische regressie kan men een lineaire relatie tussen een of meer verklarende variabele(n) (predictoren) en een categorische afhankelijke (respons) variabele.

### Assumpties
---
- De afhankelijke variabele is categorisch.
- Lineariteit en additiviteit: De responsvariabele is lineair gerelateerd aan alle predictoren en de effecten van de predictoren zijn additief.
- Onafhankelijkheid van de residuen: De residuen zijn niet gecorreleerd met elkaar.
- Homoskedasticiteit: De fout variantie van elke predictor is constant over alle waarden van de predictor.
- Normaliteit van residuen: De residuen zijn normaal verdeeld met een gemiddelde van 0.
- De covariaat en het experimentele effect zijn onafhankelijk.

### Invoer
---

#### Invoerveld:
- Afhankelijke variabele: De variabele waarin u geïnteresseerd bent. Dit wordt ook wel de uitkomstvariabele genoemd. Als er meerdere afhankelijke variabelen zijn specificeert u de volgorde waarin de predictoren in het model worden gevoegd. i.e., hiërarchische regressie analyse). Een blok van een of meer predictor(en) representeert een stap in de hiërarchie.
- Toevoegen: Alle predictoren worden tegelijk toegevoegd aan het model (forced entry).
Expand All @@ -23,20 +24,24 @@ Met logistische regressie kan men een lineaire relatie tussen een of meer verkla
- Covariaten: Predictor variabele(n).
- Factoren: De variabelen die worden gemanipuleerd/die de verschillende groepen definiëren. Deze worden ook wel de onafhankelijke variabelen genoemd.


### Model
---

- Componenten en model termen:
- Componenten: Alle onafhankelijke variabelen die in het model worden meegenomen.
- Model termen: De onafhankelijke variabelen en covariaten in het model. De standaardoptie is om de hoofdeffecten en interactie-effecten van de geselecteerde onafhankelijke variabelen mee te nemen in het model, net zoals de covariaten.
- Voeg toe aan nul model: De onafhankelijke variabelen in het model kunnen ook aan het nulmodel worden toegevoegd.
- Neem intercept mee:
- Neem het intercept mee in het model.


### Statistieken
---

- Beschrijvende statistieken:
- Factor: De niveaus van de afhankelijke variabele(n) en het aantal observaties per niveau.

- Regressiecoëfficiënten:
- Schattingen: Ongestandaardiseerde en gestandaardiseerde schattingen van de coëfficiënten, standaardafwijkingen, t-waarden en de corresponderende p-waarden.
- Van `...` bootstraps: Als u deze optie selecteert wordt ge-bootstrapte schatting toegepast. De standaardoptie voor het aantal replicaties is 1000. Dit kan naar behoeven worden aangepast.
Expand All @@ -53,11 +58,11 @@ Met logistische regressie kan men een lineaire relatie tussen een of meer verkla
- Gestandaardiseerd residu > 3: Uitschieters buiten x standaardafwijkingen: Geef diagnostieken weer voor waarnemingen waar de absolute waarde voor het gestandaardiseerde residu groter is dan x; de standaardoptie is x=3.
- Cook's afstand > 1: Geef diagnostieken weer voor waarnemingen waar de waarde van Cook's afstand groter is dan x; de standaardoptie is x=1.
- Alle waarnemingen: Geef diagnostieken voor alle waarnemingen weer.

- Prestatie statistieken:
- De confusion matrix geeft aan hoe goed het model de uitkomsten voorspelt. In de diagonaal staan de waarnemingen die het model correct identificeerde. Daarbuiten de waarnemingen waar het model een verkeerde uitkomst voorspelde.
- Proporties: De tabel geeft de proporties voor de echte versus de voorspelde uitkomsten.

- Prestatiestatistieken:
- AUC: Gebied onder de kromme.
- Sensitiviteit: Sensitiviteit beschrijft de proportie ware positieven ("true positives").
Expand All @@ -66,7 +71,7 @@ Met logistische regressie kan men een lineaire relatie tussen een of meer verkla
- F-maat: Dit is gebaseerd op de hoeveelheid systematische variantie gedeeld door de hoeveelheid onsystematische variantie (i.e., de mean squares van het model / de mean squares van de residuen).
- Brier score: Nog een maat voor de precisie van de predicties.
- H-maat: Een andere maat voor de precisie van predicties. De standaard implementatie in de package hmeasure op CRAN.

### Grafieken
- Inferentiële grafieken:
- Geef grafieken van de conditionele schattingen: De grafieken zijn conditioneel in de zin dat u de kans op de categorische variabele geeft voor alle niveaus van de predictor variabele gegeven het referentieniveau van alle andere factoren.
Expand Down Expand Up @@ -99,7 +104,7 @@ Samenvatting model:
- Cox & Snell: berekend als 1 min de ratio van de log-likelihoods van het gespecificeerde model en het nul-model, waarbij de ratio verheven wordt tot de macht 2/n (steekproefgrootte). Hogere waarden geven aan dat het gespecificeerde model relatief beter op de data past dan het nul-model. De Cox & Snell index heeft echter als limiet 1 min de likelihood van het nul-model, verheven tot de macht 2/n, en kan zelfs onder ideale omstandigheden niet hoger zijn dan 0.75.
- Nagelkerke: dit is een correctie op de methode van Cox & Snell, zodat het als limiet 1 heeft. Deze index wordt berekend als de Cox & Snell R2, gedeeld door 1 min de likelihood van het nul-model verheven tot de macht 2/n. Waarden in de buurt van 1 geven aan dat het gespecificeerde model beter op de data past dan het nul-model.
- Tjur: berekend als de absolute waarde van het verschil tussen de gemiddelde voorspelde waarde voor alle gevallen waar de afhankelijke variabele gelijk is aan 0, en de gemiddelde voorspelde waarde voor alle gevallen waar de afhankelijke variabele gelijk is aan 1. In tegenstelling tot de andere pseudo R2 indices, is Tjur's R2 niet relatief aan het nul-model.

Coëfficiënten
- Schatting: Regressiecoëfficiënten.
- (Robuuste) standaardfout: Standaardfout van de regressiecoëfficiënten.
Expand All @@ -114,7 +119,7 @@ Coëfficiënten
- % BI: Het betrouwbaarheidsinterval (odds-ratio schaal). Standaard is 95%.
- Onder: De ondergrens van het betrouwbaarheidsinterval.
- Boven: De bovengrens van het betrouwbaarheidsinterval.

Bootstrap Coëfficiënten.
- Schatting: ge-bootstrapte regressiecoëfficiënten.
- Bias: Schatting van de bias.
Expand Down Expand Up @@ -142,17 +147,17 @@ Factor beschrijvingende statistieken:
- De eerste kolom geeft alle niveaus van de factor.
- N: Het aantal observaties per niveau van de factor.


#### Prestatie statistieken
Confusion Matrix:
- De confusion matrix geeft aan hoe goed het model de uitkomsten voorspelt. In de diagonaal staan de waarnemingen die het model correct identificeerde. Daarbuiten de waarnemingen waar het model een verkeerde uitkomst voorspelde.

Prestatie Matrix:
- Alle geselecteerde prestatiestatistieken en hun waarden staan in deze tabel.

#### Geschatte grafieken
De conditionele schattings grafieken geven de kans weer op de afhankelijke variabele voor alle niveaus van de covariaat gegeven de referentie over alle andere factoren. Als een continue covariaat wordt toegevoegd wordt er een grijze waas rond de lijn aangebracht die een 95% betrouwbaarheid interval aangeeft.

#### Residu grafieken
Voorspeld - residu grafiek.

Expand Down

0 comments on commit f8484ee

Please sign in to comment.