Files
breakpilot-compliance/docs-src/services/sdk-modules/industry-compliance-ingestion.md
Benjamin Admin 52a9ad2279 docs: add Industry Compliance Ingestion documentation
- Document all 10 industry compliance PDFs and their sources
- Cover ingestion script usage, phases, chunking config
- Document IFRS timeout workaround and endorsement warning
- Add license overview for all document sources

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-28 09:50:34 +01:00

3.8 KiB

Industry Compliance Ingestion

Uebersicht

Das Ingestion-Skript scripts/ingest-industry-compliance.sh laedt oeffentlich verfuegbare Industrie-Compliance-Dokumente herunter und ingestiert sie in Qdrant via die Core RAG-API (Port 8097).

Ausfuehrung: Mac Mini Speicherort: ~/rag-ingestion/ RAG-API: https://localhost:8097/api/v1/documents/upload


Dokumente (10 PDFs)

# Dokument Quelle Collection Chunks
1 EU Maschinenverordnung 2023/1230 EUR-Lex bp_compliance_ce ~882
2 EU Blue Guide 2022 EUR-Lex bp_compliance_ce ~1600
3 ENISA Advancing Software Security enisa.europa.eu bp_compliance_datenschutz ~99
4 ENISA Supply Chain Threat Landscape enisa.europa.eu bp_compliance_datenschutz ~284
5 NIST SP 800-218 (SSDF) nist.gov bp_compliance_datenschutz ~242
6 NIST Cybersecurity Framework 2.0 nist.gov bp_compliance_datenschutz ~162
7 OECD AI Principles oecd.org bp_compliance_datenschutz ~76
8 EU-IFRS Verordnung 2023/1803 (DE) EUR-Lex bp_compliance_ce ~8942
9 EU-IFRS Verordnung 2023/1803 (EN) EUR-Lex bp_compliance_ce ~9000
10 EFRAG Endorsement Status Report efrag.org bp_compliance_datenschutz ~48

Ausfuehrung

# Vollstaendig (Download + Upload + Verify)
bash ~/rag-ingestion/ingest-industry-compliance.sh

# Nur Downloads
bash ~/rag-ingestion/ingest-industry-compliance.sh --only download

# Nur CE-Collection uploaden
bash ~/rag-ingestion/ingest-industry-compliance.sh --only ce --skip-download

# Nur Datenschutz-Collection uploaden
bash ~/rag-ingestion/ingest-industry-compliance.sh --only datenschutz --skip-download

# Nur Verifizierung
bash ~/rag-ingestion/ingest-industry-compliance.sh --only verify

Phasen

Phase A: Downloads

  • Laedt alle 10 PDFs nach ~/rag-ingestion/pdfs/
  • Ueberspringe bereits vorhandene Dateien
  • User-Agent Header fuer ENISA-Kompatibilitaet

Phase B: CE-Collection (bp_compliance_ce)

  • EU-Rechtstexte (Maschinenverordnung, Blue Guide, IFRS)
  • Metadata: CELEX-Nummer, Kategorie, Sprache

Phase C: Datenschutz-Collection (bp_compliance_datenschutz)

  • Frameworks und Guidance (ENISA, NIST, OECD, EFRAG)
  • Metadata: Source-ID, Typ, Attribution

Phase D: Verifizierung

  • Collection-Counts pruefen
  • Test-Suchen durchfuehren

Chunking-Konfiguration

Parameter Wert
Strategie recursive
Chunk-Groesse 512 Token
Chunk-Overlap 50 Token
Embedding-Modell BGE-M3 (1024-dim)

IFRS-Besonderheit

Die IFRS-Verordnung (EU) 2023/1803 ist mit ~8MB sehr gross und erzeugt ~9000 Chunks. Der Upload dauert 10-15 Minuten wegen der sequenziellen Embedding-Erzeugung.

Workaround fuer Timeout:

# PDF in Container kopieren und von dort uploaden
docker cp ifrs_regulation_2023_1803_de.pdf bp-core-rag-service:/tmp/
docker exec -d bp-core-rag-service sh -c "curl -s --max-time 1800 -X POST http://localhost:8097/api/v1/documents/upload -F file=@/tmp/ifrs_regulation_2023_1803_de.pdf -F collection=bp_compliance_ce ..."

Compliance Advisor Integration

Der System-Prompt in admin-compliance/app/api/sdk/compliance-advisor/chat/route.ts referenziert alle ingestierten Dokumente. Bei IFRS-Fragen wird ein spezieller Endorsement-Hinweis angezeigt:

Dieser Hinweis basiert auf den EU-endorsed IFRS (Stand: Verordnung 2023/1803). Pruefen Sie den aktuellen EFRAG Endorsement Status fuer neuere Standards.


Lizenzen

Alle Dokumente sind unter oeffentlich nutzbaren Lizenzen:

Quelle Lizenz
EUR-Lex Amtliches Werk der EU (Public Domain)
ENISA EUPL/Reuse Notice
NIST Public Domain (US Government)
OECD Reuse Notice
EFRAG Oeffentliches Dokument