Kursinhalt Biometrie

Einstieg für die Regularisierung mit LASSO, Group LASSO und Sparse-Group LASSO

Dieser Kurs richtet sich besonders an Interessenten aus den Bereichen der Naturwissenschaften, Ingenieurswissenschaften und Mathematik. Regularisierungs-/Penalisierungsverfahren zum Lösen linearer Regressionsmodelle sind u.a. dann sinnvoll, wenn die Anzahl der zu schätzenden Parameter (p) die Anzahl der Beobachtungen (n) übersteigt („p >> n“). Mit heutigen Verfahren zur hochdimensionalen Datenerhebung ist das schnell der Fall. Als Beispiele für Regularisierungsverfahren werden Ridge Regression, Elastic Net, und LASSO miteinander verglichen, wobei dem LASSO-Verfahren (und daraus abgeleiteten Varianten) ganz besondere Aufmerksamkeit gewidmet wird. Der Kurs zielt darauf ab, ein grundlegendes Verständnis für die LASSO-Varianten aufzubauen, um dann bei konkreten Anwendungen zu entscheiden, ob ein derartiger Ansatz sinnvoll zur Lösung eingesetzt werden kann. Auftauchende Begriffe werden weitmöglichst mit Grafiken und Beispielen erläutert, um einen leichten und natürlichen Einstieg in die Thematik zu ermöglichen.

Der Kursinhalt umfasst:

Statistik (lineare Regressionsmodelle)
Optimierungsverfahren
Gradient Descent, Proximal Gradient Descent
Soft-Tresholding
Regularisierung
Detailliert: LASSO, Group LASSO, Sparse-Group LASSO (R-Pakete: seagull, SGL)
IPF-LASSO, Ridge Regression, Elastic Net (R-Pakete: ipflasso, glmnet)

Empfehlenswerte Vorkenntnisse:

Grundlegende Kenntnisse im Umgang mit der Statistiksoftware R.
Grundlagen in Begrifflichkeiten der linearen Algebra (Matrix, Vektor) und Analysis (Gradient).