Zurück zur Übersicht

Über das Projekt

Dieses Projekt entstand aus praktischer Erfahrung mit der Entwicklung eines Systems zur Beobachtung deutschsprachiger Nachrichtenquellen in einem Analysezentrum (2020–2021), wo ich als Backend-Entwickler tätig war. Damals bestand meine Aufgabe darin, den Prozess der Erhebung, Verarbeitung und Analyse von Nachrichten für Marketingkampagnen von Agrar-Exporteuren aus der GUS zu automatisieren.

Ich entwickelte individuelle Parser für führende Nachrichtenportale (mittels requests, aiohttp, BeautifulSoup, lxml), organisierte die Datenspeicherung in MongoDB und PostgreSQL und integrierte ein spaCy-Modell zur Extraktion von Entitäten, Schlüsselbegriffen und Stimmungen. Zudem wurde ein E-Mail-Warnsystem eingerichtet, das die Stabilität der Parser überwachte. Diese Lösung ermöglichte eine vollständig automatisierte Medienbeobachtung und verbesserte die Qualität der Marketinganalysen erheblich.

Später, während meiner Arbeit im Team von DryShaft Data Lab zur Bundestagswahl 2025, war ich erneut mit ähnlichen Aufgaben betraut — insbesondere mit dem Sammeln und Auswerten von deutschsprachigen Presseartikeln und Expertenquellen. Der Quellcode und die Ergebnisse dieses Projekts unterliegen dem geistigen Eigentum des Unternehmens, doch die eingesetzten Methoden und Architekturen habe ich in diesem offenen Projekt adaptiert und weiterentwickelt.

Ziel des Projekts Wortfeld war es, einen einfachen, aber funktionierenden Prototyp für die Analyse deutschsprachiger Nachrichtenartikel am Beispiel von Tagesschau zu erstellen. Das Projekt dient als technisches Demonstrationsbeispiel für mein Portfolio als Python-Backend-Entwickler mit Schwerpunkt auf Textverarbeitung, FastAPI und MongoDB.

Was im MVP umgesetzt wurde

Korpus: Aus über 11.000 Artikeln auf Tagesschau.de wurden 96 Artikel manuell ausgewählt — etwa 8 bis 10 pro Monat. Diese Auswahl deckt rund 10 % des Gesamtbestands ab und gewährleistet Übersichtlichkeit und Vielfalt, ohne das System zu überladen.

Datenstrukturierung: Alle Texte wurden bereinigt, normalisiert und in MongoDB gespeichert. Verwendete Felder sind: title, date, atlas, topics, text, entities, noun_chunks, lemmas, tfidf_keywords, google_entities.

NLP-Analyse (basierend auf spaCy): Tokenisierung, Lemmatisierung, Extraktion benannter Entitäten und Nominalgruppen, POS-Filterung, Entfernung von Stoppwörtern und Duplikaten.

TF-IDF: Schlüsselbegriffe wurden aus einer TF-IDF-Matrix extrahiert und als farbige Schlagwörter visualisiert (Themen, Geografie, neue Begriffe).

Google Natural Language API: Entitäten mit Typ (PERSON, LOCATION, ORGANIZATION), Salienz und ggf. Wikipedia-Link. Die Kategorien funktionieren auf Deutsch kaum, daher war die Nutzung dort ineffektiv. Die Entitäten hingegen waren nützlich für Analyse und Visualisierung.

Benutzeroberfläche

Startseite: Übersicht mit Titel, Datum, Quelle und Schlagwörtern
Artikelseite: Volltext mit Analyseblöcken für Tags und Google NLP
Infoblock „Über dieses Projekt“ am Ende jeder Artikelseite

Fazit

Wortfeld ist ein einfacher Prototyp, in dem ich den vollständigen Pipeline-Zyklus umgesetzt habe — von der Datenerhebung und Analyse bis zur Darstellung in einem Webinterface. Das Projekt zeigt, wie man einen Nachrichtenanalyse-Workflow für deutschsprachige Texte mit Bibliotheken wie spaCy, scikit-learn, FastAPI, Jinja2, MongoDB und externen Services wie Google NLP aufbauen kann.

Trotz vereinfachtem Design und teils manuell kuratierter Artikelauswahl veranschaulicht das Projekt meine Herangehensweise an Datenstrukturierung, Analysepriorisierung und Textverarbeitung unter realen Bedingungen.