Files
breakpilot-compliance/zeroclaw/docs/ground-truth/06-spiegel.md
T
Benjamin Admin 5e317d2f0f
Build + Deploy / build-dsms-gateway (push) Successful in 10s
Build + Deploy / build-dsms-node (push) Successful in 15s
CI / branch-name (push) Has been skipped
CI / guardrail-integrity (push) Has been skipped
Build + Deploy / build-admin-compliance (push) Successful in 18s
Build + Deploy / build-backend-compliance (push) Successful in 12s
Build + Deploy / build-ai-sdk (push) Successful in 10s
Build + Deploy / build-developer-portal (push) Successful in 10s
Build + Deploy / build-tts (push) Successful in 10s
Build + Deploy / build-document-crawler (push) Successful in 9s
CI / go-lint (push) Has been skipped
CI / loc-budget (push) Failing after 17s
CI / secret-scan (push) Has been skipped
CI / test-python-dsms-gateway (push) Successful in 22s
CI / validate-canonical-controls (push) Successful in 13s
Build + Deploy / trigger-orca (push) Successful in 2m13s
CI / python-lint (push) Has been skipped
CI / nodejs-lint (push) Has been skipped
CI / nodejs-build (push) Successful in 2m46s
CI / dep-audit (push) Has been skipped
CI / sbom-scan (push) Has been skipped
CI / test-go (push) Failing after 41s
CI / test-python-backend (push) Successful in 37s
CI / test-python-document-crawler (push) Successful in 27s
fix: text extraction 50k char limit was root cause of all Spiegel FNs
ROOT CAUSE: main.py line 338 truncated full_text at 50,000 chars.
Spiegel DSI has 107,720 chars (13,705 words) — only 47% was extracted.
DSB, Art. 77, Betroffenenrechte were all in the truncated portion.

Fixes:
1. Raise text limit from 50k to 200k chars in API response + discovery
2. click_button(): add iframe fallback for Sourcepoint/Quantcast
3. dsi_helpers: iterate ALL page.frames for consent buttons
4. Profiler: only check impressum (not full text) for regulated professions,
   and "rechtsanwalt" must be in first 500 chars (company description)
5. GT: save full Spiegel DSI text (13,705 words) as reference

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-05-13 15:22:38 +02:00

8.0 KiB

Ground Truth: Spiegel

URL: https://www.spiegel.de Typ: Medien / Nachrichtenportal Datum: 2026-05-13 (verifiziert gegen Live-Texte) Vorheriger Batch-Test: 6/9 L1, 10/13 L2 — VERALTET, mehrere False Negatives Volltext: 06-spiegel-dsi-fulltext.txt (13.705 Woerter, 107.720 Zeichen) Root Cause aller FN: API-Limit text[:50000] schnitt bei 47% ab → DSB/Art.77/Rechte fehlten


Business Profile (erwartet)

Feld Erwarteter Wert Begruendung
business_type b2c Abo-Modell (Spiegel+)
industry media Nachrichtenportal
has_online_shop true Spiegel+ Abo-Shop
has_editorial_content true Kerngeschaeft
is_regulated_profession false Kein regulierter Beruf. "Anwalt" im Text ist Redaktionsanwalt, kein Kanzlei-Beruf
needs_odr true B2C mit Online-Abo

Bug: Profiler erkennt "anwalt" im Impressum-Text und setzt is_regulated_profession=true. FALSE POSITIVE.


Dokumente

Dokumenttyp Vorhanden URL Anmerkung
DSI Ja https://www.spiegel.de/datenschutz-spiegel 6461 Woerter, 11 Abschnitte, sehr ausfuehrlich
Impressum Ja https://www.spiegel.de/impressum 2 Gesellschaften (DER SPIEGEL GmbH + SPIEGEL-Verlag)
Cookie-Richtlinie In DSI Abschnitt 4 #funktionsfaehigkeitdesangebots Sourcepoint CMP
AGB Ja https://www.spiegel.de/agb Abo-Bedingungen
Nutzungsbedingungen Ja https://www.spiegel.de/nutzungsbedingungen Separates Dokument
Widerruf In AGB Abschnitt 10 https://www.spiegel.de/agb "Widerrufsrecht fuer Abonnements"
Social Media DSE In DSI Abschnitt 8 #einbinden-von-drittinhalten Facebook, YouTube, X, Instagram, TikTok, etc.
DSB-Kontakt In DSI dsb@spiegelgruppe.de

Erwartete Ergebnisse: DSI (Art. 13 DSGVO)

L1 Checks (ERWARTET: 9/9 PASS)

Check Erwartet Beleg Unser Ergebnis Bug?
Verantwortlicher PASS "DER SPIEGEL GmbH & Co. KG, Ericusspitze 1, 20459 Hamburg" PASS (3/3)
DSB PASS "z. Hd. der Datenschutzbeauftragten... dsb@spiegelgruppe.de" FAIL FN — Regex matcht "Datenschutzbeauftragte" nicht ohne "r" am Ende oder erkennt Kontext nicht
Zwecke PASS Adobe-Tracking, Vertragsbeziehungen, Drittinhalte etc. PASS
Rechtsgrundlage PASS Art. 6(1)(a), (b), (f) explizit PASS (3/4)
Empfaenger PASS Server-/Applikationsbetreiber, Auftragsverarbeiter PASS (2/2)
Drittlandtransfer PASS SCC erwaehnt PASS (1/1)
Speicherdauer PASS "30 Tage" Protokolldatei PASS (1/2)
Betroffenenrechte PASS Art. 15, 16, 17, 18, 21 explizit. Art. 20 fehlt. FAIL FN — Regex verlangt alle 6 Artikel, 5/6 genuegen nicht
Beschwerderecht PASS "Art. 77 DSGVO... HmbBfDI... Ludwig-Ehrhard-Str. 22" FAIL FN — Regex findet Art. 77 + HmbBfDI nicht

3 False Negatives in L1! DSB, Betroffenenrechte, Beschwerderecht sind alle vorhanden.

L2 Checks (Stichproben)

Check Erwartet Beleg Unser Ergebnis Bug?
E-Mail PASS datenschutz@spiegelgruppe.de PASS
Interessenabwaegung FAIL (TP) Interesse benannt, keine Abwaegung FAIL Korrekt
Art. 20 Portabilitaet FAIL (TP) Art. 20 fehlt im Rechte-Abschnitt Korrekter Finding
Loeschkonzept FAIL (TP) Kein formales Loeschkonzept FAIL Korrekt

Erwartete Ergebnisse: Impressum (§5 TMG)

Check Erwartet Beleg Unser Ergebnis Bug?
Firmenname PASS DER SPIEGEL GmbH & Co. KG + SPIEGEL-Verlag PASS
Anschrift PASS Ericusspitze 1, 20457 Hamburg PASS
Kontakt PASS Tel. 040 3007-0, spiegel@spiegel.de PASS
Register PASS HRA 123 261 + HRA 61 755 PASS
USt-IdNr PASS DE 212 442 423 + DE 118 922 410 FAIL FN — Regex findet "Umsatzsteuer-ID:" Format nicht
Vertretung PASS Thomas Hass (Geschaeftsfuehrung) PASS (1/1)
V.i.S.d.P. PASS "Verantwortlicher i. S. v. § 18 Abs. 2 MStV: Dirk Kurbjuweit" FAIL FN — Regex sucht "v.i.s.d.p." nicht "verantwortlicher i.s.v."
Streitbeilegung PASS ODR-Link vorhanden (in AGB) PASS
Berufsrecht SKIP Spiegel ist kein regulierter Beruf AKTIV (1/3) FP — Profiler "anwalt" Bug

Erwartete Ergebnisse: AGB

Check Erwartet Beleg
Geltungsbereich PASS Abschnitt 1
Vertragsschluss PASS Abschnitt 2
Preise/Zahlung PASS Abschnitte 4-7
Kuendigung PASS Abschnitt 8 (1 Monat Frist)
Widerrufsrecht PASS Abschnitt 10 (14 Tage, Muster-Formular)
§312k Button Zu pruefen Kuendigungsbutton Pflicht seit 01.07.2022
ODR-Link PASS http://ec.europa.eu/consumers/odr/

Erwartete Ergebnisse: Widerrufsbelehrung (AGB §10)

Check Erwartet Beleg
Belehrung PASS "Sie haben das Recht, Abonnementvertraege binnen 14 Tagen ohne Angabe von Gruenden zu widerrufen"
14-Tage-Frist PASS Explizit genannt
Form PASS Brief, E-Mail, Fax
Muster-Formular PASS "beigefuegte Muster-Widerrufsformular" erwaehnt
Folgen PASS Rueckerstattungsregeln beschrieben
Empfaenger PASS DER SPIEGEL Abonnentenservice, 20637 Hamburg; aboservice@spiegel.de
Ausnahme digitale Inhalte PASS "Fuer sofort nutzbare Zeitzugaenge... kein Widerrufsrecht"

Problem: Unser Check prueft den DSI-Volltext gegen Widerruf-Checklist statt die AGB. Der Widerruf steht in den AGB (§10), nicht in der DSI.


Erwartete Ergebnisse: Social Media (DSI Abschnitt 8)

Check Erwartet Beleg
Gemeinsam Verantwortliche PASS Erwaehnt
Meta konkret benannt FAIL (TP) Nur "Facebook" ohne "Meta Platforms Ireland Ltd."
Vereinbarung Art. 26 FAIL (TP) Kein Page Controller Addendum
Plattformen PASS Facebook, YouTube, X, Instagram, TikTok, Vimeo, Reddit, Bluesky, etc.
SCC PASS Erwaehnt
DPF FAIL (TP) Data Privacy Framework nicht erwaehnt
Rechtsgrundlage PASS Art. 6(1)(f)
Alle standardmaessig deaktiviert PASS "standardmaessig deaktiviert"

Banner-Check

Feld Erwartet
banner_detected true
provider Sourcepoint
tcf_enabled true
Vendor-Anzahl 40+ (grosses Medienunternehmen)
violations Consent-Wall blockiert Zugang → moeglicherweise unzulaessig

Cross-Check Banner vs DSI

Finding Erwartet
Vendors fehlen in DSI Wahrscheinlich — viele TCF-Vendors nicht in DSI dokumentiert
Tracking vor Consent Unwahrscheinlich (Sourcepoint blockiert gut)

Kontext-Filter

Check Filter Begruendung
ODR AKTIV B2C Online-Abo
Widerruf AKTIV B2C
V.i.S.d.P. AKTIV Medienunternehmen (Kernpflicht)
Berufsrecht SKIP Kein regulierter Beruf

Identifizierte Regex-Bugs (aus diesem GT-Abgleich)

# Check Bug Beleg auf Website Regex-Problem
1 DSB FN "z. Hd. der Datenschutzbeauftragten... dsb@spiegelgruppe.de" Regex matcht "Datenschutzbeauftragten" (Genitiv/Dativ) nicht
2 Beschwerderecht FN "Art. 77 DSGVO... HmbBfDI" Regex findet "Art. 77" oder "Aufsichtsbehoerde" nicht im Spiegel-Text
3 Betroffenenrechte FN Art. 15, 16, 17, 18, 21 — nur Art. 20 fehlt Regex verlangt ALLE 6, 5/6 ist nicht genug
4 V.i.S.d.P. FN "Verantwortlicher i. S. v. § 18 Abs. 2 MStV" Regex sucht nur "v.i.s.d.p.", nicht die MStV-Formulierung
5 USt-IdNr FN "Umsatzsteuer-ID: DE 212 442 423" Regex sucht "ust-idnr" oder "ust-id", matcht "umsatzsteuer-id:" nicht
6 Profiler "anwalt" FP Redaktionsanwalt im Impressum "anwalt" zu generisch, matcht Personennamen/Rollen