Histo­ri­sche Quellen auto­ma­ti­siert erschließen: Einfüh­rung in die digi­tale Text­ana­lyse mit Topic Modeling


Vortragsreihe: Von Büchern zu Bytes. Die digitale Transformation in der Geschichtswissenschaft.

Termin21. Februar 2025
Vortra­gendeMelanie Althage (Humboldt-Univer­sität zu Berlin)
OrtOnline (Zoom)
Webseitehttps://4memory.de/task-areas/task-area-4-data-literacy/veranstaltungsreihe-from-books-to-bytes/

Text­ana­ly­se­me­thoden wie Topic Mode­ling ermög­li­chen es, umfang­reiche Quel­len­kor­pora inhalt­lich anhand von Sprach­ge­brauchs­mus­tern, den sog. Topics, explo­rativ zu erschließen. Topics stellen dabei Cluster von Wörtern dar, die häufig gemeinsam in den Texten eines Korpus vorkommen. Diese Wort­gruppen lassen sich bspw. als seman­ti­sche Wort­felder, Themen oder Diskurse inter­pre­tieren und im Kontext histo­ri­scher Frage­stel­lungen weiter­ver­ar­beiten. Nach einer Einfüh­rung in die metho­di­schen Grund­lagen führt die Session am Beispiel der in den digi­talen Geis­tes­wis­sen­schaften etablierten Latent Dirichlet Allo­ca­tion (LDA) praxis­ori­en­tiert durch den Topic-Mode­ling-Work­flow mit Python, wobei auch die für den histo­ri­schen Forschungs­pro­zess rele­vanten Poten­ziale und Limi­tie­rungen aufge­zeigt werden. Da es sich bei Topic Mode­ling um eine ganze Familie von Algo­rithmen handelt, werden abschlie­ßend über­blicks­haft weiter­füh­rende Ressourcen und alter­na­tive Model­lie­rungs­an­sätze vorge­stellt. Program­mier­kennt­nisse in Python sind für die Teil­nahme nicht erfor­der­lich; Teil­neh­mende sollten aller­dings aufge­schlossen sein, Code zu lesen und vorbe­rei­tete Jupyter Note­books auszu­führen. Die Instal­la­tion von Soft­ware wird voraus­sicht­lich nicht notwendig sein.

Wenn das Einver­ständnis der Vortra­genden vorliegen sollte, wird die Veran­stal­tung entweder auf Zenodo oder auf YouTube im Nach­gang veröffentlicht.

Top