itjobsgermany / itjobsaustria – KI-gestützter Import- & Qualitäts-Workflow

itjobsgermany / itjobsaustria ist eine spezialisierte Jobplattform. Der Kern ist ein mehrstufiger Workflow, der externe Jobanzeigen automatisiert importiert, normalisiert, dedupliziert und mit KI strukturierte, vergleichbare Datensätze erzeugt – inklusive Qualitätssicherung und Nachvollziehbarkeit.

Kurzüberblick:

Ausgangslage: viele Quellen, uneinheitliche Anzeigen, hoher manueller Aufwand
Ziel: konsistente Datenqualität + skalierbarer Betrieb ohne Copy/Paste-Prozesse
Ergebnis: robuste Pipeline mit Qualitäts-Gates, Schema-Validierung und Fehlerklassen
Proof Point: im Vergleich zur manuellen Erfassung rund ~95% Zeitersparnis durch Automatisierung (je nach Quelle/Fall)

Ausgangslage

Jede Quelle schreibt anders: Titel, Skills, Seniorität, Benefits und Gehalt sind unterschiedlich formuliert.
Standortdaten sind oft unpräzise („Wien Umgebung“, mehrere Standorte, remote/hybrid).
Dubletten entstehen leicht (gleiches Inserat über mehrere Kanäle, Updates, Reposts).
Wenn man „einfach nur KI drüberlaufen lässt“, bekommt man inkonsistente Felder – und am Ende keine verlässliche Datenbasis.

Zielbild

Vergleichbarkeit: Gleiche Felder bedeuten das Gleiche – unabhängig von Quelle.
Governance: Klare Regeln, wann etwas automatisch durchgeht und wann Review nötig ist.
Planbarkeit: Ein Betrieb, der Fehler findet, klassifiziert und sauber erneut verarbeiten kann (statt still zu scheitern).

Vorgehen (Systemdesign + Governance)

1) Prozess statt Tool-Fokus
Zuerst wurde das gewünschte Datenmodell definiert (was soll am Ende sicher vorliegen?), dann wurden die Prozessschritte darum gebaut.

2) Mehrstufige Verarbeitung statt „ein Prompt löst alles“
Die Pipeline arbeitet in Stufen, die jeweils ein überprüfbares Teil-Ergebnis liefern:

Ingestion/Import
Normalisierung (Textbereinigung, Felder angleichen)
Deduplizierung (Regeln + Abgleich gegen Bestand)
KI-Analyse (strukturierte Extraktion)
Plausibilisierung/Validierung
Publishing/Lifecycle

3) Strukturierte KI-Ausgaben (Schema) + Validierung
Die KI liefert nicht „freien Text“, sondern strukturierte Felder (z. B. Seniorität, Skills, Remote/Hybrid, Gehalt). Danach greifen Validierungen/Constraints: fehlende/inkonsistente Werte werden erkannt.

4) Qualität & Kontrolle: Fehlerklassen + needs_review
Grenzfälle werden nicht „weggeschätzt“, sondern markiert (Review-Queue). Fehler werden klassifiziert, damit man Ursachen beheben kann (Quelle, Parsing, Daten, Prompt, Regeln).

Was die Pipeline konkret leistet

Remote/Hybrid/Onsite: aus Formulierungen zuverlässig ableiten, inkl. „unklar“ als eigener Zustand.
Skills: aus Texten extrahieren und normalisieren (Synonyme, Schreibweisen), ohne „Skills zu erfinden“.
Gehalt/Arbeitszeit: Werte erkennen, in ein einheitliches Format bringen, Plausibilität prüfen.
Standort: Geocoding/Place-Matching + Plausibilitätschecks (z. B. Land/PLZ/Region).
Arbeitgeberdaten: Domain-/E-Mail- und Firmenzuordnung, sofern seriös ableitbar.

Ergebnis / Artefakte

Datenmodell + Felddefinitionen (was bedeutet jedes Feld, welche Werte sind erlaubt)
Qualitätsregeln (wann publishbar, wann needs_review)
Fehlerklassen & Logging-Konzept (damit man Betrieb beherrscht)
Roadmap für Erweiterungen (neue Quellen, neue Felder, bessere Normalisierung)

Technik-Details

Systemlandschaft (high level):

Laravel-Backend als Orchestrierung der Importlogik und Business-Regeln
Datenhaltung in MariaDB (Import-States, Normalisierung, Dedupe, Publishing-Status)
KI-Analyse über OpenAI Assistants/Threads (strukturierte Extraktion + Nachvalidierung)
Standort-/Entity-Anreicherung über Google Maps API (Place-/Geocoding-Matching)
Workflow-Schritte mit Validierung/Retry-Logik (teilweise über n8n-orchestrierte Jobs)

Beispiele für strukturierte Extraktion (Schema-orientiert):

Rolle/Seniorität, Remote/Hybrid, Skills, Gehaltsspannen, Arbeitszeit, Benefits, Ausbildung
Arbeitgeber-/Domain-Zuordnung, Kontaktpunkte (wo seriös ableitbar)

Qualitäts-Gates (typisch):

Schema-Validierung (Pflichtfelder/Enums), Plausibilitätschecks (z. B. Gehalt/Zeiten/Standort)
Dedupe-Heuristiken + Fingerprints (Quelle, Titel, Company, Location, Textähnlichkeit)
Fehlerklassen (Parsing/Quelle/LLM/Validation) + definierte Retry-Strategien

Ihr Partner für Prozessoptimierung und strategische Unternehmensberatung

Impressum / Kontaktdaten

beratung@mariorosin.com

+43 677 / 617 13 575

Mario Rosin auf linkedin:

Offenlegung gemäß §25 Mediengesetz
Medieninhaber: Mario Rosin, Unternehmensberatung, ATU 72613718

Mario Rosin
Taborstrasse 119 / 34
1020 Wien