itjobsgermany / itjobsaustria – KI-gestützter Import- & Qualitäts-Workflow

itjobsgermany / itjobsaustria ist eine spezialisierte Jobplattform. Der Kern ist ein mehrstufiger Workflow, der externe Jobanzeigen automatisiert importiert, normalisiert, dedupliziert und mit KI strukturierte, vergleichbare Datensätze erzeugt – inklusive Qualitätssicherung und Nachvollziehbarkeit.

Kurzüberblick:

  • Ausgangslage: viele Quellen, uneinheitliche Anzeigen, hoher manueller Aufwand

  • Ziel: konsistente Datenqualität + skalierbarer Betrieb ohne Copy/Paste-Prozesse

  • Ergebnis: robuste Pipeline mit Qualitäts-Gates, Schema-Validierung und Fehlerklassen

  • Proof Point: im Vergleich zur manuellen Erfassung rund ~95% Zeitersparnis durch Automatisierung (je nach Quelle/Fall)

Ausgangslage

  • Jede Quelle schreibt anders: Titel, Skills, Seniorität, Benefits und Gehalt sind unterschiedlich formuliert.

  • Standortdaten sind oft unpräzise („Wien Umgebung“, mehrere Standorte, remote/hybrid).

  • Dubletten entstehen leicht (gleiches Inserat über mehrere Kanäle, Updates, Reposts).

  • Wenn man „einfach nur KI drüberlaufen lässt“, bekommt man inkonsistente Felder – und am Ende keine verlässliche Datenbasis.


Zielbild

  • Vergleichbarkeit: Gleiche Felder bedeuten das Gleiche – unabhängig von Quelle.

  • Governance: Klare Regeln, wann etwas automatisch durchgeht und wann Review nötig ist.

  • Planbarkeit: Ein Betrieb, der Fehler findet, klassifiziert und sauber erneut verarbeiten kann (statt still zu scheitern).

Vorgehen (Systemdesign + Governance)

1) Prozess statt Tool-Fokus
Zuerst wurde das gewünschte Datenmodell definiert (was soll am Ende sicher vorliegen?), dann wurden die Prozessschritte darum gebaut.

2) Mehrstufige Verarbeitung statt „ein Prompt löst alles“
Die Pipeline arbeitet in Stufen, die jeweils ein überprüfbares Teil-Ergebnis liefern:

  • Ingestion/Import

  • Normalisierung (Textbereinigung, Felder angleichen)

  • Deduplizierung (Regeln + Abgleich gegen Bestand)

  • KI-Analyse (strukturierte Extraktion)

  • Plausibilisierung/Validierung

  • Publishing/Lifecycle

3) Strukturierte KI-Ausgaben (Schema) + Validierung
Die KI liefert nicht „freien Text“, sondern strukturierte Felder (z. B. Seniorität, Skills, Remote/Hybrid, Gehalt). Danach greifen Validierungen/Constraints: fehlende/inkonsistente Werte werden erkannt.

4) Qualität & Kontrolle: Fehlerklassen + needs_review
Grenzfälle werden nicht „weggeschätzt“, sondern markiert (Review-Queue). Fehler werden klassifiziert, damit man Ursachen beheben kann (Quelle, Parsing, Daten, Prompt, Regeln).


Was die Pipeline konkret leistet

  • Remote/Hybrid/Onsite: aus Formulierungen zuverlässig ableiten, inkl. „unklar“ als eigener Zustand.

  • Skills: aus Texten extrahieren und normalisieren (Synonyme, Schreibweisen), ohne „Skills zu erfinden“.

  • Gehalt/Arbeitszeit: Werte erkennen, in ein einheitliches Format bringen, Plausibilität prüfen.

  • Standort: Geocoding/Place-Matching + Plausibilitätschecks (z. B. Land/PLZ/Region).

  • Arbeitgeberdaten: Domain-/E-Mail- und Firmenzuordnung, sofern seriös ableitbar.

Ergebnis / Artefakte

  • Datenmodell + Felddefinitionen (was bedeutet jedes Feld, welche Werte sind erlaubt)

  • Qualitätsregeln (wann publishbar, wann needs_review)

  • Fehlerklassen & Logging-Konzept (damit man Betrieb beherrscht)

  • Roadmap für Erweiterungen (neue Quellen, neue Felder, bessere Normalisierung)

Technik-Details

Systemlandschaft (high level):

  • Laravel-Backend als Orchestrierung der Importlogik und Business-Regeln

  • Datenhaltung in MariaDB (Import-States, Normalisierung, Dedupe, Publishing-Status)

  • KI-Analyse über OpenAI Assistants/Threads (strukturierte Extraktion + Nachvalidierung)

  • Standort-/Entity-Anreicherung über Google Maps API (Place-/Geocoding-Matching)

  • Workflow-Schritte mit Validierung/Retry-Logik (teilweise über n8n-orchestrierte Jobs)

Beispiele für strukturierte Extraktion (Schema-orientiert):

  • Rolle/Seniorität, Remote/Hybrid, Skills, Gehaltsspannen, Arbeitszeit, Benefits, Ausbildung

  • Arbeitgeber-/Domain-Zuordnung, Kontaktpunkte (wo seriös ableitbar)

Qualitäts-Gates (typisch):

  • Schema-Validierung (Pflichtfelder/Enums), Plausibilitätschecks (z. B. Gehalt/Zeiten/Standort)

  • Dedupe-Heuristiken + Fingerprints (Quelle, Titel, Company, Location, Textähnlichkeit)

  • Fehlerklassen (Parsing/Quelle/LLM/Validation) + definierte Retry-Strategien