Janis Iranee

Private KI-Systeme — selbst gehostet, kontrolliert, compliant

LLMs auf internem Wissen nutzen, ohne Daten an externe APIs zu senden.

  • Sensible Daten intern halten (On-Prem / VPC / lokal)
  • Dokumente in nutzbares Wissen umwandeln (Suche + Q&A mit Quellenangaben)
  • Den richtigen Ansatz wählen: RAG, LoRA oder Fine-Tuning — mit Evaluation
Über Ihren Private-AI-Use-Case sprechen

Was ist das?

Ein lokales KI-System kann zusammenfassen, Fragen beantworten und Teams helfen, Wissen zu finden. Es läuft auf kontrollierter Infrastruktur und braucht Governance und Evaluation, um vertrauenswürdig zu sein.

Wann was nutzen

  • RAG wenn Sie aktuelles Wissen aus Dokumenten brauchen
  • LoRA/partielles Fine-Tuning wenn Sie Stil/Format/Domain-Anpassung brauchen
  • Beides wenn Sie fundierte Antworten + angepasstes Verhalten brauchen

Für wen ist das?

  • KMUs mit sensiblen Dokumenten (Finance/Legal/HR)
  • Teams, die externe LLM-APIs aus Compliance-Gründen nicht nutzen können
  • Agenturen, die KI-Features für Kunden mit Datenschutzanforderungen bauen
  • Interne Teams, die einen Wissensassistenten für Support/Sales/Ops wollen

Typische Engagements

Lokale-KI-Machbarkeit & Prototyp (2–4 Wochen)

  • Use Case, Scope, Erfolgskriterien auswählen
  • Minimaler RAG-Prototyp auf einem Beispiel-Dokumentenset
  • Evaluations-Checkliste + nächste Schritte

Produktions-Self-Hosted-RAG (4–10 Wochen)

  • Ingestion-Pipeline, Chunking, Embeddings, Indexierung
  • Berechtigungs-/Zugriffsmodell-Konzept
  • Evaluations-Harness (Regressionstests)
  • Monitoring (Latenz, Retrieval-Qualitäts-Proxies, Fehler-Logs)

Modellanpassung (LoRA / partielles Fine-Tuning) (2–8 Wochen)

  • Datensatzdesign (Instruktionen, Beispiele)
  • LoRA/QLoRA-Experimente
  • Evaluation gegen Baseline
  • Deployment-Strategie und Rollback

Beispielaufgaben

  • Interner “Dokumentenassistent” mit Quellenangaben und Zugriffskontrolle
  • Lange PDFs zusammenfassen und strukturierte Outputs produzieren
  • Interne E-Mails/FAQs basierend auf Firmendokumenten entwerfen
  • Eine Wissensbasis bauen, die privat bleibt
  • Outputs an Ihren Firmenstil anpassen (Templates, Formate)

Deliverables

  • Laufendes System (Prototyp oder Produktion) + Dokumentation
  • Evaluations-Harness + Testset-Anleitung
  • Deployment-Docs (wie starten/aktualisieren)
  • Übergabe-Workshop + Wartungsplan-Optionen
Für technische Leser
  • Ingestion-Pipeline: Parsing, Chunking-Strategien, Metadaten
  • Embeddings und Retrieval: Vector-Store-Auswahl, Indexierungsstrategie
  • RAG-Prompt-Strategie mit Quellenangaben und Nachverfolgbarkeit
  • Evaluations-Harness: Golden Set, Regressionstests, Human-Review-Loop
  • LoRA/QLoRA / partielle Fine-Tuning-Experimente
  • Quantisierung und Performance-Optimierung für lokale Hardware
  • Governance: Zugriffskontrolle, Audit-Logs, sichere Deployment-Patterns

Warum ich gut darin bin

  • Praktische Erfahrung beim Bau lokaler Workflows mit LLaMA/Mistral/BERT-Style-Modellen
  • RAG-Pipelines (Embeddings, Indexierung, Retrieval) für Offline-/interne Nutzung gebaut
  • Versteht Performance- und Deployment-Einschränkungen auf lokaler Hardware
  • Starker Fokus auf Governance, Evaluation und Wartbarkeit

Wie ich arbeite

  • Mit einem gut eingegrenzten Use Case und einem kleinen Dokumentenset starten
  • Definieren, was “gut” bedeutet (Accuracy, Quellenangaben, Safety, Latenz)
  • Schnell iterieren: Prototyp → Evaluation → Produktionshärtung
  • Ein wartbares System mit Docs und Übergabe liefern

Kontakt aufnehmen

Haben Sie ein Projekt im Sinn? Ich antworte in der Regel innerhalb von 1-2 Werktagen.