1. Was ist das Daidalos-Projekt?
Das DFG-Projekt Daidalos (HU Berlin, 2023-2026) baut eine Forschungsinfrastruktur für Methoden der computergestützten Sprachverarbeitung (engl.: Natural Language Processing, NLP) auf. Die Zielgruppe bilden dabei literaturwissenschaftlich Forschende der Klassischen Philologie sowie angrenzender Disziplinen. Die Forschungsinfrastruktur besteht zum einen aus der interaktiven Internetplattform, auf der Interessierte u.a. NLP-Methoden auf Textkorpora anwenden können. Zum anderen versteht sich das Daidalos-Projekt als Kontaktpunkt für interessierte Forschende. In dieser Funktion lädt das Projekt regelmäßig zu Workshops ein, berät Forschende im Rahmen von Forschungstandems und stellt Materialen zur Weiterbildung zur Verfügung.
2. Warum Natural Language Processing (NLP)?
Methoden der automatischen Sprachverarbeitung (NLP) bieten das Potential, Arbeitsschritte in der literaturwissenschaftlichen Forschung sowohl zeitsparender als auch mit einem Perspektivwechsel durchzuführen. Die so entstehenden Daten ermöglichen mitunter neue Zugänge zu altbekannten Texten, aber auch eine Vernetzung der Daten oder eine über die Aufbereitung als Text hinausgehende Darstellung der Ergebnisse, z.B. in Diagrammen.
3. Welche NLP-Methoden werden hier angeboten?
Part-of-Speech (PoS-) Tagging: Diese Methode ordnet jedem Wort in einem Text eine grammatikalische Kategorie zu, wie z. B. Substantiv, Verb oder Adjektiv. Mögliches Anwendungsgebiet: Linguistische Analyse von Texten.
Named Entity Recognition (NER): NER identifiziert und klassifiziert Entitäten in Texten, wie z. B. Namen von Personen und Orten. Mögliches Anwendungsgebiet: Auffinden aller relevanten Textstellen, in denen bestimmte Personen oder Orte vorkommen.
Sentimentanalyse: Diese Methode bewertet das emotionale Sentiment eines Textes, indem Wörter, Sätze oder größere Textpassagen als positiv, negativ oder neutral gelabelt werden. Mögliches Anwendungsgebiet: Darstellung der emotionalen Ausrichtung von antiken Texten.
Word Embeddings: Word Embeddings sind computerlesbare Darstellungen von Wörtern als Vektoren in einem hochdimensionalen Raum, die semantische Beziehungen zwischen Wörtern erfassen. Mögliches Anwendungsgebiet: Analyse semantischer Ähnlichkeiten zwischen Wörtern in verschiedenen Texten.
Topic Modelling: Diese Methode identifiziert Themen in großen Textmengen, indem sie Texte auf Basis von Wortmustern und Häufigkeit gruppiert. Mögliches Anwendungsgebiet: Textanalyse zu einem bestimmten Motiv.
4. Welche Weiterbildungsangebote gibt es hier?
Unsere Lernmodule bieten Ihnen die Möglichkeit, Ihre Kenntnisse in digitalen Methoden der Sprachverarbeitung gezielt auszubauen. Jedes Modul umfasst eine Einführung in die theoretischen Grundlagen, einen praxisorientierten Übungsteil und einen Test zum Modulabschluss:
- M0: Chancen und Grenzen digitaler Methoden – Entdecken Sie die Potenziale großer Textkorpora und explorativer Analysen. Reflektieren Sie Methoden und überprüfen Sie Ihre eigenen Interpretationen.
- M1: Einführung in Jupyter Notebooks – Erlernen Sie die Grundlagen von Jupyter Notebooks, einer Open-Source-Webanwendung, die es Ihnen ermöglicht, interaktive Dokumente mit Code, Text und Visualisierungen zu erstellen und auszuführen.
- M2: Data Preprocessing – Lernen Sie, wie Sie Texte für die Analyse vorbereiten.
- M3: Part-of-Speech Tagging (PoS) – Verstehen Sie, wie sprachliche Kategorien (z. B. Nomen, Verben) in Texten automatisch erkannt werden.
- M4: Named Entity Recognition (NER) – Identifizieren Sie wichtige Entitäten wie Personen und Orte in Texten.
- M5: Word Embeddings – Lernen Sie, wie Maschinen die Bedeutung von Wörtern verstehen und wie dies Ihr Textverständnis unterstützen kann.
- M6: Sentimentanalyse – Analysieren Sie die Stimmung von Texten.
- M7: Topic Modelling – Entdecken Sie Themen und Motive in großen Textkorpora.
Neben den Lernmodulen bieten wir umfassende Ressourcen, die Ihnen helfen, Ihre Kenntnisse weiter zu vertiefen:
Unser Weiterbildungsbereich ist darauf ausgelegt, Ihnen sowohl theoretische als auch praktische Kompetenzen zu vermitteln, um digitale Sprachverarbeitung effektiv in Ihrer Forschung nutzen zu können.