itjobsgermany / itjobsaustria – KI-gestützter Import- & Qualitäts-Workflow
itjobsgermany / itjobsaustria ist eine spezialisierte Jobplattform. Der Kern ist ein mehrstufiger Workflow, der externe Jobanzeigen automatisiert importiert, normalisiert, dedupliziert und mit KI strukturierte, vergleichbare Datensätze erzeugt – inklusive Qualitätssicherung und Nachvollziehbarkeit.
Kurzüberblick:
Ausgangslage: viele Quellen, uneinheitliche Anzeigen, hoher manueller Aufwand
Ziel: konsistente Datenqualität + skalierbarer Betrieb ohne Copy/Paste-Prozesse
Ergebnis: robuste Pipeline mit Qualitäts-Gates, Schema-Validierung und Fehlerklassen
Proof Point: im Vergleich zur manuellen Erfassung rund ~95% Zeitersparnis durch Automatisierung (je nach Quelle/Fall)
Ausgangslage
Jede Quelle schreibt anders: Titel, Skills, Seniorität, Benefits und Gehalt sind unterschiedlich formuliert.
Standortdaten sind oft unpräzise („Wien Umgebung“, mehrere Standorte, remote/hybrid).
Dubletten entstehen leicht (gleiches Inserat über mehrere Kanäle, Updates, Reposts).
Wenn man „einfach nur KI drüberlaufen lässt“, bekommt man inkonsistente Felder – und am Ende keine verlässliche Datenbasis.
Zielbild
Vergleichbarkeit: Gleiche Felder bedeuten das Gleiche – unabhängig von Quelle.
Governance: Klare Regeln, wann etwas automatisch durchgeht und wann Review nötig ist.
Planbarkeit: Ein Betrieb, der Fehler findet, klassifiziert und sauber erneut verarbeiten kann (statt still zu scheitern).
Vorgehen (Systemdesign + Governance)
1) Prozess statt Tool-Fokus
Zuerst wurde das gewünschte Datenmodell definiert (was soll am Ende sicher vorliegen?), dann wurden die Prozessschritte darum gebaut.
2) Mehrstufige Verarbeitung statt „ein Prompt löst alles“
Die Pipeline arbeitet in Stufen, die jeweils ein überprüfbares Teil-Ergebnis liefern:
Ingestion/Import
Normalisierung (Textbereinigung, Felder angleichen)
Deduplizierung (Regeln + Abgleich gegen Bestand)
KI-Analyse (strukturierte Extraktion)
Plausibilisierung/Validierung
Publishing/Lifecycle
3) Strukturierte KI-Ausgaben (Schema) + Validierung
Die KI liefert nicht „freien Text“, sondern strukturierte Felder (z. B. Seniorität, Skills, Remote/Hybrid, Gehalt). Danach greifen Validierungen/Constraints: fehlende/inkonsistente Werte werden erkannt.
4) Qualität & Kontrolle: Fehlerklassen + needs_review
Grenzfälle werden nicht „weggeschätzt“, sondern markiert (Review-Queue). Fehler werden klassifiziert, damit man Ursachen beheben kann (Quelle, Parsing, Daten, Prompt, Regeln).
Was die Pipeline konkret leistet
Remote/Hybrid/Onsite: aus Formulierungen zuverlässig ableiten, inkl. „unklar“ als eigener Zustand.
Skills: aus Texten extrahieren und normalisieren (Synonyme, Schreibweisen), ohne „Skills zu erfinden“.
Gehalt/Arbeitszeit: Werte erkennen, in ein einheitliches Format bringen, Plausibilität prüfen.
Standort: Geocoding/Place-Matching + Plausibilitätschecks (z. B. Land/PLZ/Region).
Arbeitgeberdaten: Domain-/E-Mail- und Firmenzuordnung, sofern seriös ableitbar.
Ergebnis / Artefakte
Datenmodell + Felddefinitionen (was bedeutet jedes Feld, welche Werte sind erlaubt)
Qualitätsregeln (wann publishbar, wann needs_review)
Fehlerklassen & Logging-Konzept (damit man Betrieb beherrscht)
Roadmap für Erweiterungen (neue Quellen, neue Felder, bessere Normalisierung)
Technik-Details
Systemlandschaft (high level):
Laravel-Backend als Orchestrierung der Importlogik und Business-Regeln
Datenhaltung in MariaDB (Import-States, Normalisierung, Dedupe, Publishing-Status)
KI-Analyse über OpenAI Assistants/Threads (strukturierte Extraktion + Nachvalidierung)
Standort-/Entity-Anreicherung über Google Maps API (Place-/Geocoding-Matching)
Workflow-Schritte mit Validierung/Retry-Logik (teilweise über n8n-orchestrierte Jobs)
Beispiele für strukturierte Extraktion (Schema-orientiert):
Rolle/Seniorität, Remote/Hybrid, Skills, Gehaltsspannen, Arbeitszeit, Benefits, Ausbildung
Arbeitgeber-/Domain-Zuordnung, Kontaktpunkte (wo seriös ableitbar)
Qualitäts-Gates (typisch):
Schema-Validierung (Pflichtfelder/Enums), Plausibilitätschecks (z. B. Gehalt/Zeiten/Standort)
Dedupe-Heuristiken + Fingerprints (Quelle, Titel, Company, Location, Textähnlichkeit)
Fehlerklassen (Parsing/Quelle/LLM/Validation) + definierte Retry-Strategien


