Historische Quellen automatisiert erschließen: Einführung in die digitale Textanalyse mit Topic Modeling
Termin | 21. Februar 2025 |
Vortragende | Melanie Althage (Humboldt-Universität zu Berlin) |
Ort | Online (Zoom) |
Webseite | https://4memory.de/task-areas/task-area-4-data-literacy/veranstaltungsreihe-from-books-to-bytes/ |
Textanalysemethoden wie Topic Modeling ermöglichen es, umfangreiche Quellenkorpora inhaltlich anhand von Sprachgebrauchsmustern, den sog. Topics, explorativ zu erschließen. Topics stellen dabei Cluster von Wörtern dar, die häufig gemeinsam in den Texten eines Korpus vorkommen. Diese Wortgruppen lassen sich bspw. als semantische Wortfelder, Themen oder Diskurse interpretieren und im Kontext historischer Fragestellungen weiterverarbeiten. Nach einer Einführung in die methodischen Grundlagen führt die Session am Beispiel der in den digitalen Geisteswissenschaften etablierten Latent Dirichlet Allocation (LDA) praxisorientiert durch den Topic-Modeling-Workflow mit Python, wobei auch die für den historischen Forschungsprozess relevanten Potenziale und Limitierungen aufgezeigt werden. Da es sich bei Topic Modeling um eine ganze Familie von Algorithmen handelt, werden abschließend überblickshaft weiterführende Ressourcen und alternative Modellierungsansätze vorgestellt. Programmierkenntnisse in Python sind für die Teilnahme nicht erforderlich; Teilnehmende sollten allerdings aufgeschlossen sein, Code zu lesen und vorbereitete Jupyter Notebooks auszuführen. Die Installation von Software wird voraussichtlich nicht notwendig sein.
Wenn das Einverständnis der Vortragenden vorliegen sollte, wird die Veranstaltung entweder auf Zenodo oder auf YouTube im Nachgang veröffentlicht.