Observability für MCP-Integrationen: Logs, Tracing und Auditing

MCP-Nutzung effektiv überwachen und prüfen. Dieser Ops-Guide behandelt empfohlene Log-Felder (Tool-Name, Nutzer, Zeitstempel, Status), Alerting bei Spitzen und sicheres Prüfen von Schreibaktionen für Transparenz und Sicherheit.

Empfohlene Log-Felder

Diese Felder bei jedem MCP-Tool-Aufruf loggen:

Wesentliche Log-Felder

tool_name: Welches MCP-Tool aufgerufen wurde (z. B. list_tasks, create_task)
user: Nutzerkennung (API-Key-Name, Nutzer-ID oder Client-Kennung)
timestamp: Wann der Tool-Aufruf stattfand (ISO-8601-Format)
status: Erfolg oder Fehler (success, error, timeout)
duration_ms: Dauer des Aufrufs in Millisekunden
error_code: Fehlercode bei Fehler (401, 403, 400, 429 usw.)

Beispiel-Log-Eintrag

{ "tool_name": "list_tasks", "user": "api_key_cursor_laptop", "timestamp": "2026-01-25T10:30:00Z", "status": "success", "duration_ms": 245, "project_id": "proj_123", "filters": {"status": "open", "due_date": "this_week"} }

Dieses Format: Strukturiert, durchsuchbar, mit Kontext

Schreiboperationen loggen

Für Schreiboperationen ist zusätzliches Logging nötig:

Log-Felder für Schreiboperationen

operation_type: create, update, delete
resource_id: Aufgaben-ID, Projekt-ID usw.
before_state: Vorheriger Zustand (bei Updates)
after_state: Neuer Zustand (bei Erstellen/Updates)
user_confirmation: Ob der Nutzer die Operation freigegeben hat

Beispiel-Schreib-Log-Eintrag

{ "tool_name": "update_task", "user": "api_key_claude_desktop", "timestamp": "2026-01-25T10:35:00Z", "status": "success", "operation_type": "update", "resource_id": "task_456", "before_state": {"status": "open"}, "after_state": {"status": "in_progress"}, "user_confirmation": true, "duration_ms": 180 }

Dieses Format: Vollständige Prüfspur für Schreiboperationen

Alarme bei Spitzen

Alarme für ungewöhnliche Muster einrichten:

Empfohlene Alarme

Fehlerrate-Spitze: Alarm, wenn Fehlerrate in 5 Min. 10 % übersteigt
Tool-Aufruf-Volumen: Alarm, wenn Aufrufe 100/Min. übersteigen (mögliche Schleife)
Schreib-Spitze: Alarm, wenn Schreibvorgänge 20/Min. übersteigen (ungewöhnlich)
Rate-Limit-Treffer: Alarm bei 429 Rate-Limit-Fehlern
Auth-Fehler: Alarm bei mehreren 401/403-Fehlern (mögliches Key-Problem)

Beispiel Alarm-Konfiguration

Alarm-Regeln

# Beispiel-Alert-Regeln (Pseudocode) - Alarm wenn error_rate > 10 % in 5-Min-Fenster - Alarm wenn tool_calls > 100/Min. für denselben Nutzer - Alarm wenn write_operations > 20/Min. - Alarm bei 429 rate_limit Fehlern - Alarm wenn 401_errors > 3 in 1 Min. (mögliches Key-Problem)

Vorteile: Früherkennung von Problemen, Sicherheitsüberwachung, Performance-Tracking

Schreibaktionen sicher prüfen

Schreiboperationen regelmäßig auf Sicherheit und Korrektheit prüfen:

Checkliste zur Prüfung von Schreibaktionen

Tägliche Prüfung: Alle Schreiboperationen des Vortags durchgehen
Fokus auf Löschungen: Löschoperationen besonders beachten
Bestätigungen prüfen: Sicherstellen, dass user_confirmation bei Schreibvorgängen true war
Fehler prüfen: Fehlgeschlagene Schreiboperationen untersuchen
Nutzer-Muster: Ungewöhnliche Muster pro Nutzer prüfen

Beispiel für Prüf-Abfrage

Tägliche Schreib-Prüfung

# Query for daily review SELECT tool_name, user, operation_type, resource_id, timestamp, status, user_confirmation FROM mcp_logs WHERE operation_type IN ('create', 'update', 'delete') AND timestamp >= NOW() - INTERVAL '1 day' ORDER BY timestamp DESC

Diese Abfrage: Zeigt alle Schreiboperationen der letzten 24 Stunden

Monitoring Setup

Log-Aggregation

Empfohlene Einrichtung

Zentrales Logging: Logs von allen MCP-Clients zusammenführen
Strukturiertes Format: JSON-Logs für einfaches Parsing nutzen
Aufbewahrung: Logs mindestens 90 Tage aufbewahren (Compliance)
Suchfunktion: Volltextsuche in Log-Feldern ermöglichen
Dashboards: Dashboards für Schlüsselmetriken anlegen

Wichtige Kennzahlen

Monitoring-Kennzahlen

Tool-Aufruf-Volumen: Aufrufe pro Stunde/Tag pro Tool
Fehlerrate: Anteil fehlgeschlagener Aufrufe
Antwortzeit: Durchschnitt und p95-Latenz
Schreiboperationen: Anzahl create/update/delete pro Tag
Nutzeraktivität: Tool-Aufrufe pro Nutzer/Client
Rate-Limit-Treffer: Häufigkeit von 429-Fehlern

Audit-Trail

Vollständige Audit-Trails pflegen:

Anforderungen an die Prüfung

Unveränderliche Logs: Logs nach Erstellung nicht veränderbar
Vollständiger Kontext: Alle relevanten Felder pro Operation einbeziehen
Nutzer-Zuordnung: Immer protokollieren, welcher Nutzer/Client den Aufruf gemacht hat
Zustand vorher/nachher: Bei Updates beide Zustände protokollieren
Aufbewahrungsrichtlinie: Festlegen, wie lange Audit-Logs aufbewahrt werden

Best Practices

Best Practices für Observability

Alles protokollieren: Alle Tool-Aufrufe loggen, nicht nur Fehler
Strukturiertes Logging: JSON-Format für einfaches Parsing nutzen
Kontext einbeziehen: Relevante IDs, Filter, Parameter loggen
Alarme einrichten: Alarme für Anomalien konfigurieren
Regelmäßige Prüfungen: Schreiboperationen täglich/wöchentlich prüfen
Dashboard-Sichtbarkeit: Dashboards für Schlüsselmetriken anlegen
Aufbewahrungs-Compliance: Datenaufbewahrungsanforderungen einhalten

Ihre MCP-Integration überwachen

Logging, Alerting und Prüfprotokolle für volle Transparenz einrichten

Sicherheitsleitfaden →Sicherheits-Checkliste