feat(core): Engram, Store, Retriever, CLI - Grundsystem Second Brain

- src/engram.py: Gedaechtniseinheit mit Confidence, Correctness, Links - src/store.py: SQLite FTS5 persistenter Speicher - src/retriever.py: Hybrid Suche + Reranking - src/cli.py: Kommandozeilen-Interface Issue: #1
2026-05-25 00:53:56 +02:00
commit 5e4f21e680
7 changed files with 891 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,4 @@
+__pycache__/
+*.pyc
+.venv/
+data/
--- a/docs/ARCHITECTURE.md
+++ b/docs/ARCHITECTURE.md
@@ -0,0 +1,169 @@
+# Second Brain - Architektur
+
+## Vision
+
+Ein zweites Gehirn für OpenClaw das:
+- **Kurzzeitgedächtnis**: Aktuelle Sessions, Kontext, unverarbeitete Informationen
+- **Langzeitgedächtnis**: Gesammeltes Wissen, bewertet, verknüpft, priorisiert
+- **Bewertungssystem**: Jedes Faktum hat einen Vertrauenswert (0-1), korrektierbar
+- **Proaktivität**: Agent wacht auf, prüft, handelt ohne expliziten Befehl
+- **Selbstheilung**: Erkennt eigene Fehler, korrigiert, lernt daraus
+
+## Module
+
+### 1. Engram Store (Gedächtnis-Einheiten)
+Jede Information wird als "Engramm" gespeichert:
+```
+{
+  id: uuid
+  content: string (Markdown)
+  vector: [float...] (Embedding)
+  metadata: {
+    source: "user|agent|web|file"
+    confidence: 0.0-1.0
+    created: timestamp
+    modified: timestamp
+    access_count: int
+    last_accessed: timestamp
+    tags: [string...]
+    session_id: string|null
+    agent_id: string|null
+  },
+  correctness: {
+    confirmed: bool
+    confirmations: int
+    rejections: int
+    last_reviewed: timestamp
+    review_history: [
+      { by: "user|agent", action: "confirm|reject|modify", at: timestamp, note: string }
+    ]
+  },
+  links: [uuid...] (verbundene Engramme)
+  hierarchy: {
+    parent: uuid|null
+    children: [uuid...]
+    depth: int
+  }
+}
+```
+
+### 2. Vector Store (ChromaDB)
+- Lokale SQLite-basierte Vektor-Datenbank
+- Kein externer Service nötig
+- Embedding über sentence-transformers (all-MiniLM-L6-v2)
+- ~22MB Modell, CPU-only, 384 Dimensionen
+
+### 3. Neural Scorer
+- Kleines Feed-Forward-Netz (PyTorch)
+- Eingabe: Embedding + Metadaten (Alter, Zugriffshäufigkeit, Quelle)
+- Ausgabe: Confidence-Score (0-1)
+- Training: Reinforcement von User-Feedback (richtig/falsch)
+
+### 4. Retrieval Engine
+- Hybrid: Semantische Suche (Vektor) + Keyword (BM25-ähnlich)
+- Reranking nach Confidence, Aktualität, Relevanz
+- Contextual Compression: Nur relevante Teile zurückgeben
+
+### 5. Proactivity Engine
+- Cron-gesteuerte Hintergrundaufgaben
+- Heartbeat-gesteuerte Prüfungen
+- Trigger: Zeit, Events, Zustandsänderungen
+- Entscheidet selbst: Was ist jetzt wichtig?
+
+### 6. Error Correction
+- Erkennt fehlgeschlagene Tool-Calls
+- Speichert Fehler mit Kontext
+- Analysiert Muster: "Immer wenn X, dann scheitert Y"
+- Auto-Fix: Alternative Strategien, Fallbacks
+
+### 7. Visualisierung
+- Streamlit-Dashboard lokal
+- Graph-Ansicht: Verknüpfte Engramme
+- Timeline: Wann wurde was gelernt?
+- Stats: Vertrauen, Korrektheit, Abdeckung
+
+## Tech Stack
+
+| Komponente | Technologie | Warum |
+|------------|-------------|-------|
+| Vektor-DB | ChromaDB (lokal) | Kein externer Service, SQLite-basiert |
+| Embeddings | sentence-transformers | Klein, schnell, offline |
+| Neural Scorer | PyTorch (custom) | Trainierbar, lokal, kein API-Key |
+| Frontend | Streamlit | Schnell, Python-nativ, interaktiv |
+| Daten-Layer | Python-Klassen + SQLite | Kontrollierbar, debuggbar |
+| Prozesse | Cron (OpenClaw built-in) + Heartbeat | Kein externer Scheduler |
+
+## Datenfluss
+
+```
+User Input / Event
+        |
+        v
+[Parser] -> Engramm erstellen
+        |
+        v
+[Embedding] -> Vektor generieren
+        |
+        v
+[Vector Store] -> Speichern
+        |
+        v
+[Neural Scorer] -> Initial-Confidence
+        |
+        v
+[Link Engine] -> Mit bestehenden verknüpfen
+        |
+        v
+[Retrieval] <- Anfrage
+        |
+        v
+[Rerank] -> Beste Ergebnisse
+        |
+        v
+[Response] -> An User / Agent
+        |
+        v
+[Feedback Loop] <- Richtig/Falsch?
+        |
+        v
+[Learn] -> Scorer trainieren, Confidence anpassen
+```
+
+## Dateistruktur
+
+```
+second-brain/
+├── src/
+│   ├── __init__.py
+│   ├── engram.py          # Engramm-Modell
+│   ├── store.py           # ChromaDB-Wrapper
+│   ├── embedder.py        # Embedding-Engine
+│   ├── scorer.py          # Neural Confidence Scorer
+│   ├── retriever.py       # Hybrid Retrieval
+│   ├── linker.py          # Verknüpfungs-Engine
+│   ├── proactivity.py     # Proaktivitäts-Manager
+│   ├── error_handler.py   # Fehlererkennung & Korrektur
+│   ├── trainer.py         # RL-Training
+│   └── config.py          # Konfiguration
+├── data/
+│   ├── chromadb/          # Vector DB Files
+│   ├── engrams.jsonl      # Backup aller Engramme
+│   └── scorer_model.pt    # Trainiertes Scorer-Netz
+├── docs/
+│   ├── ARCHITECTURE.md
+│   └── API.md
+├── tests/
+│   └── test_core.py
+├── scripts/
+│   └── init_db.py
+└── app.py                 # Streamlit Dashboard
+```
+
+## Nächste Schritte
+
+1. Kern-Module implementieren (Store, Embedder, Engram)
+2. Scorer mit Dummy-Daten trainieren
+3. Retrieval-Engine mit Testdaten validieren
+4. Dashboard bauen
+5. Cron-Jobs für Proaktivität setup
+6. Issue #1 & #2 adressieren (Looping verhindern)
--- a/src/init.py
+++ b/src/init.py
@@ -0,0 +1,8 @@
+"""Second Brain - Gedächtnissystem für OpenClaw."""
+
+from .engram import Engram, Grounding, Correctness, ReviewEntry
+from .store import EngramStore
+from .retriever import Retriever
+
+__version__ = "0.1.0"
+__all__ = ["Engram", "Grounding", "Correctness", "ReviewEntry", "EngramStore", "Retriever"]
--- a/src/cli.py
+++ b/src/cli.py
@@ -0,0 +1,172 @@
+#!/usr/bin/env python3
+"""
+Second Brain CLI - direkte Nutzung ohne externe Abhängigkeiten.
+
+Usage:
+    python -m src.cli add "Das ist ein Faktum" --tag wichtig --source user
+    python -m src.cli search "Faktum"
+    python -m src.cli show <id>
+    python -m src.cli confirm <id>
+    python -m src.cli reject <id>
+    python -m src.cli list
+    python -m src.cli stats
+    python -m src.cli export backup.jsonl
+"""
+
+import sys
+import json
+import argparse
+from pathlib import Path
+
+from .store import EngramStore
+from .engram import Engram, Grounding
+from .retriever import Retriever
+
+DB_PATH = Path(__file__).parent.parent / "data" / "brain.sqlite"
+
+
+def get_store():
+    DB_PATH.parent.mkdir(parents=True, exist_ok=True)
+    return EngramStore(str(DB_PATH))
+
+
+def cmd_add(args):
+    store = get_store()
+    eg = Engram.create(
+        content=" ".join(args.content),
+        source=args.source,
+        tags=args.tag,
+        grounding=Grounding[args.grounding] if args.grounding else Grounding.ASSUMPTION,
+    )
+    store.save(eg)
+    print(f"Created: {eg.id}\n  Content: {eg.content[:100]}\n  Confidence: {eg.compute_confidence():.2f}")
+
+
+def cmd_search(args):
+    store = get_store()
+    ret = Retriever(store)
+    results = ret.retrieve(
+        " ".join(args.query),
+        limit=args.limit,
+        min_confidence=args.min_confidence,
+        tag_filter=args.tag,
+    )
+    print(f"\n=== {len(results)} Results ===")
+    for r in results:
+        eg = r["engram"]
+        conf = eg.compute_confidence()
+        marker = "✅" if conf > 0.7 else "⚠️" if conf > 0.4 else "❌"
+        print(f"\n{marker} [{str(eg.id)[:8]}] Score: {conf:.2f} ({r['match_type']})")
+        print(f"   {eg.content[:120]}{'...' if len(eg.content) > 120 else ''}")
+        print(f"   Tags: {', '.join(eg.metadata.get('tags', []))} | Source: {eg.metadata.get('source')}")
+        print(f"   Access: {eg.metadata.get('access_count', 0)} | Reviews: +{eg.correctness.confirmations}/-{eg.correctness.rejections}")
+
+
+def cmd_show(args):
+    store = get_store()
+    eg = store.get(args.id)
+    if not eg:
+        print(f"Not found: {args.id}")
+        return
+    print(json.dumps(eg.to_dict(), indent=2, ensure_ascii=False, default=str))
+
+
+def cmd_confirm(args):
+    store = get_store()
+    eg = store.get(args.id)
+    if not eg:
+        print(f"Not found: {args.id}")
+        return
+    eg.correctness.confirm(by="user", note=args.note or "Confirmed via CLI")
+    store.save(eg)
+    print(f"✅ Confirmed [{str(eg.id)[:8]}] -> Confidence: {eg.compute_confidence():.2f}")
+
+
+def cmd_reject(args):
+    store = get_store()
+    eg = store.get(args.id)
+    if not eg:
+        print(f"Not found: {args.id}")
+        return
+    eg.correctness.reject(by="user", note=args.note or "Rejected via CLI")
+    store.save(eg)
+    print(f"❌ Rejected [{str(eg.id)[:8]}] -> Confidence: {eg.compute_confidence():.2f}")
+
+
+def cmd_list(args):
+    store = get_store()
+    egs = store.get_all(limit=args.limit)
+    print(f"\n=== {len(egs)} Engrams ===")
+    for eg in egs:
+        conf = eg.compute_confidence()
+        marker = "✅" if conf > 0.7 else "⚠️" if conf > 0.4 else "❌"
+        print(f"{marker} [{str(eg.id)[:8]}] ({conf:.2f}) {eg.content[:60]}{'...' if len(eg.content) > 60 else ''}")
+
+
+def cmd_stats(args):
+    store = get_store()
+    ret = Retriever(store)
+    s = ret.stats()
+    print("\n=== Second Brain Stats ===")
+    print(f"  Total Engrams: {s['total_engrams']}")
+    print(f"  Confirmed: {s['confirmed']}")
+    print(f"  Unconfirmed: {s['unconfirmed']}")
+    print(f"  Sources:")
+    for src, count in s.get("sources", {}).items():
+        print(f"    {src}: {count}")
+    print(f"  DB Size: {s['db_size_bytes'] / 1024:.1f} KB")
+
+
+def cmd_export(args):
+    store = get_store()
+    count = store.export_jsonl(args.path)
+    print(f"Exported {count} engrams to {args.path}")
+
+
+def main():
+    parser = argparse.ArgumentParser(description="Second Brain CLI")
+    sub = parser.add_subparsers(dest="cmd")
+
+    p_add = sub.add_parser("add", help="Add a new engram")
+    p_add.add_argument("content", nargs="+")
+    p_add.add_argument("--tag", action="append", default=[])
+    p_add.add_argument("--source", default="user")
+    p_add.add_argument("--grounding", choices=[g.name for g in Grounding])
+
+    p_search = sub.add_parser("search", help="Search engrams")
+    p_search.add_argument("query", nargs="+")
+    p_search.add_argument("--limit", type=int, default=5)
+    p_search.add_argument("--min-confidence", type=float, default=0.0)
+    p_search.add_argument("--tag", default=None)
+
+    p_show = sub.add_parser("show", help="Show engram details")
+    p_show.add_argument("id")
+
+    p_confirm = sub.add_parser("confirm", help="Confirm an engram")
+    p_confirm.add_argument("id")
+    p_confirm.add_argument("--note", default="")
+
+    p_reject = sub.add_parser("reject", help="Reject an engram")
+    p_reject.add_argument("id")
+    p_reject.add_argument("--note", default="")
+
+    p_list = sub.add_parser("list", help="List recent engrams")
+    p_list.add_argument("--limit", type=int, default=20)
+
+    p_stats = sub.add_parser("stats", help="Show statistics")
+
+    p_export = sub.add_parser("export", help="Export to JSONL")
+    p_export.add_argument("path")
+
+    args = parser.parse_args()
+    if not args.cmd:
+        parser.print_help()
+        return
+
+    {"add": cmd_add, "search": cmd_search, "show": cmd_show,
+     "confirm": cmd_confirm, "reject": cmd_reject, "list": cmd_list,
+     "stats": cmd_stats, "export": cmd_export}[args.cmd](args)
+
+
+if __name__ == "__main__":
+    main()
--- a/src/engram.py
+++ b/src/engram.py
@@ -0,0 +1,230 @@
+"""
+Engram - Gedächtniseinheit für das Second Brain.
+Rein Python, kein externe Abhängigkeiten.
+"""
+
+import json
+import hashlib
+from dataclasses import dataclass, field, asdict
+from datetime import datetime, timezone
+from enum import IntEnum
+from typing import Optional, List, Dict, Any
+from uuid import uuid4, UUID
+
+
+class Grounding(IntEnum):
+    """Herkunft/Verlässlichkeit einer Information."""
+    UNKNOWN = 0
+    ASSUMPTION = 1
+    INFERRED = 2
+    SOURCED = 3
+    VERIFIED = 4
+
+
+@dataclass
+class ReviewEntry:
+    """Ein Eintrag im Korrekturverlauf."""
+    by: str      # "user" oder agent_id
+    action: str  # "confirm", "reject", "modify"
+    at: str      # ISO-8601 timestamp
+    note: str = ""
+
+    def to_dict(self) -> dict:
+        return {"by": self.by, "action": self.action, "at": self.at, "note": self.note}
+
+    @classmethod
+    def from_dict(cls, d: dict) -> "ReviewEntry":
+        return cls(d["by"], d["action"], d["at"], d.get("note", ""))
+
+
+@dataclass
+class Correctness:
+    """Verfolgt die Korrektheit eines Engramms über Zeit."""
+    confirmed: bool = False
+    confirmations: int = 0
+    rejections: int = 0
+    last_reviewed: Optional[str] = None
+    review_history: List[ReviewEntry] = field(default_factory=list)
+
+    def confirm(self, by: str, note: str = "") -> None:
+        self.confirmations += 1
+        self.confirmed = True
+        self.last_reviewed = _now()
+        self.review_history.append(ReviewEntry(by, "confirm", self.last_reviewed, note))
+
+    def reject(self, by: str, note: str = "") -> None:
+        self.rejections += 1
+        self.confirmed = False
+        self.last_reviewed = _now()
+        self.review_history.append(ReviewEntry(by, "reject", self.last_reviewed, note))
+
+    def score(self) -> float:
+        """Confidence-Score aus Korrekturhistorie."""
+        total = self.confirmations + self.rejections
+        if total == 0:
+            return 0.5  # Unbestimmt
+        return self.confirmations / total
+
+    def to_dict(self) -> dict:
+        return {
+            "confirmed": self.confirmed,
+            "confirmations": self.confirmations,
+            "rejections": self.rejections,
+            "last_reviewed": self.last_reviewed,
+            "review_history": [r.to_dict() for r in self.review_history],
+        }
+
+    @classmethod
+    def from_dict(cls, d: dict) -> "Correctness":
+        c = cls()
+        c.confirmed = d.get("confirmed", False)
+        c.confirmations = d.get("confirmations", 0)
+        c.rejections = d.get("rejections", 0)
+        c.last_reviewed = d.get("last_reviewed")
+        c.review_history = [ReviewEntry.from_dict(r) for r in d.get("review_history", [])]
+        return c
+
+
+@dataclass
+class Engram:
+    """
+    Eine Gedächtniseinheit (Engramm).
+
+    Jedes Faktum, jede Beobachtung, jeder Fehler wird als Engramm gespeichert.
+    Es trägt seinen eigenen Vertrauenswert und seinen Korrekturverlauf mit.
+    """
+    id: UUID
+    content: str
+    metadata: Dict[str, Any] = field(default_factory=dict)
+    correctness: Correctness = field(default_factory=Correctness)
+    links: List[UUID] = field(default_factory=list)
+    hierarchy: Dict[str, Any] = field(default_factory=dict)
+    embedding: Optional[List[float]] = None  # Wird bei Bedarf berechnet
+
+    @classmethod
+    def create(
+        cls,
+        content: str,
+        source: str = "agent",
+        confidence: float = 0.5,
+        tags: Optional[List[str]] = None,
+        session_id: Optional[str] = None,
+        agent_id: Optional[str] = None,
+        grounding: Grounding = Grounding.ASSUMPTION,
+        parent: Optional[UUID] = None,
+    ) -> "Engram":
+        """Factory: Erstellt ein neues Engramm mit sinnvollen Defaults."""
+        now = _now()
+        return cls(
+            id=uuid4(),
+            content=content,
+            metadata={
+                "source": source,
+                "confidence": confidence,
+                "created": now,
+                "modified": now,
+                "access_count": 0,
+                "last_accessed": now,
+                "tags": tags or [],
+                "session_id": session_id,
+                "agent_id": agent_id,
+                "grounding": grounding.value,
+                "hash": _hash(content),
+            },
+            correctness=Correctness(),
+            links=[],
+            hierarchy={"parent": str(parent) if parent else None, "children": [], "depth": 0},
+        )
+
+    def touch(self) -> None:
+        """Markiert Zugriff, aktualisiert Zähler und Zeit."""
+        self.metadata["access_count"] = self.metadata.get("access_count", 0) + 1
+        self.metadata["last_accessed"] = _now()
+
+    def add_link(self, other: "Engram") -> None:
+        """Bidirektionale Verknüpfung mit anderem Engramm."""
+        if other.id not in self.links:
+            self.links.append(other.id)
+        if self.id not in other.links:
+            other.links.append(self.id)
+
+    def set_parent(self, parent: "Engram") -> None:
+        """Setzt Eltern-Kind-Beziehung."""
+        self.hierarchy["parent"] = str(parent.id)
+        self.hierarchy["depth"] = parent.hierarchy.get("depth", 0) + 1
+        if str(self.id) not in parent.hierarchy.get("children", []):
+            parent.hierarchy.setdefault("children", []).append(str(self.id))
+
+    def compute_confidence(self) -> float:
+        """
+        Berechnet Gesamt-Confidence aus mehreren Faktoren.
+        Kein Neuronales Netz nötig - Heuristik für Phase 1.
+        """
+        base = self.metadata.get("confidence", 0.5)
+        # Korrektheit
+        correctness_score = self.correctness.score()
+        # Zugriffshäufigkeit (beliebte Engramme sind oft wichtiger)
+        access = min(self.metadata.get("access_count", 0) / 10, 1.0) * 0.1
+        # Alter (neuere Informationen sind relevanter)
+        age_days = _age_days(self.metadata.get("created", _now()))
+        recency = max(0, 1.0 - (age_days / 30)) * 0.1  # Nach 30 Tagen = 0
+        # Grounding
+        grounding_boost = (self.metadata.get("grounding", 0) / 4) * 0.2
+
+        combined = (
+            base * 0.3 +
+            correctness_score * 0.3 +
+            access +
+            recency +
+            grounding_boost
+        )
+        return min(max(combined, 0.0), 1.0)
+
+    def to_dict(self) -> dict:
+        return {
+            "id": str(self.id),
+            "content": self.content,
+            "metadata": self.metadata,
+            "correctness": self.correctness.to_dict(),
+            "links": [str(l) for l in self.links],
+            "hierarchy": self.hierarchy,
+            "embedding": self.embedding,
+        }
+
+    @classmethod
+    def from_dict(cls, d: dict) -> "Engram":
+        e = cls(
+            id=UUID(d["id"]),
+            content=d["content"],
+            metadata=d.get("metadata", {}),
+            correctness=Correctness.from_dict(d.get("correctness", {})),
+            links=[UUID(l) for l in d.get("links", [])],
+            hierarchy=d.get("hierarchy", {}),
+            embedding=d.get("embedding"),
+        )
+        return e
+
+    def to_json(self) -> str:
+        return json.dumps(self.to_dict(), ensure_ascii=False, indent=2)
+
+    @classmethod
+    def from_json(cls, s: str) -> "Engram":
+        return cls.from_dict(json.loads(s))
+
+
+# --- Helpers ---
+
+def _now() -> str:
+    return datetime.now(timezone.utc).isoformat()
+
+
+def _hash(content: str) -> str:
+    return hashlib.sha256(content.encode("utf-8")).hexdigest()[:16]
+
+
+def _age_days(iso_str: str) -> float:
+    try:
+        dt = datetime.fromisoformat(iso_str)
+        return (datetime.now(timezone.utc) - dt).total_seconds() / 86400
+    except Exception:
+        return 0.0
--- a/src/retriever.py
+++ b/src/retriever.py
@@ -0,0 +1,55 @@
+"""
+Hybrid-Retrieval Engine.
+Phase 1: FTS-Keyword + Confidence-Reranking.
+Phase 2: + Embedding + Fusion.
+"""
+
+from typing import List, Dict, Any
+from .engram import Engram
+from .store import EngramStore
+
+
+class Retriever:
+    def __init__(self, store: EngramStore):
+        self.store = store
+
+    def retrieve(
+        self,
+        query: str,
+        limit: int = 5,
+        min_confidence: float = 0.0,
+        source_filter: str = None,
+        tag_filter: str = None,
+    ) -> List[Dict[str, Any]]:
+        results = []
+        keyword_results = self.store.search_text(query, limit=limit * 3)
+        for eg in keyword_results:
+            conf = eg.compute_confidence()
+            if conf < min_confidence:
+                continue
+            if source_filter and eg.metadata.get("source") != source_filter:
+                continue
+            if tag_filter and tag_filter not in eg.metadata.get("tags", []):
+                continue
+            eg.touch()
+            self.store.save(eg)
+            results.append({"engram": eg, "score": conf, "match_type": "keyword"})
+        results.sort(key=lambda r: r["score"], reverse=True)
+        return results[:limit]
+
+    def related(self, engram_id: str, limit: int = 5) -> List[Engram]:
+        eg = self.store.get(engram_id)
+        if not eg:
+            return []
+        out = []
+        for lid in eg.links:
+            linked = self.store.get(str(lid))
+            if linked:
+                out.append(linked)
+        return sorted(out, key=lambda e: e.compute_confidence(), reverse=True)[:limit]
+
+    def recent(self, limit: int = 10) -> List[Engram]:
+        return self.store.get_all(limit=limit)
+
+    def stats(self) -> Dict[str, Any]:
+        return self.store.stats()
--- a/src/store.py
+++ b/src/store.py
@@ -0,0 +1,253 @@
+"""
+SQLite-basierter Engramm-Store.
+Keine externen Abhängigkeiten außer sqlite3 (stdlib).
+"""
+
+import json
+import sqlite3
+import os
+from pathlib import Path
+from typing import List, Optional, Dict, Any
+from uuid import UUID
+
+from .engram import Engram
+
+
+class EngramStore:
+    """
+    Persistenter Engramm-Speicher mit vollem Text-Index.
+
+    Erstelle Instanz:
+        store = EngramStore("/pfad/zur/db.sqlite")
+    """
+
+    def __init__(self, db_path: str):
+        self.db_path = Path(db_path)
+        self.db_path.parent.mkdir(parents=True, exist_ok=True)
+        self._conn = sqlite3.connect(str(self.db_path), check_same_thread=False)
+        self._conn.row_factory = sqlite3.Row
+        self._init_schema()
+
+    def _init_schema(self) -> None:
+        """Erstellt Tabellen falls nicht vorhanden."""
+        self._conn.executescript("""
+            CREATE TABLE IF NOT EXISTS engrams (
+                id TEXT PRIMARY KEY,
+                content TEXT NOT NULL,
+                metadata_json TEXT NOT NULL,
+                correctness_json TEXT NOT NULL,
+                links_json TEXT NOT NULL,
+                hierarchy_json TEXT NOT NULL,
+                embedding_json TEXT,
+                created_at TEXT NOT NULL,
+                modified_at TEXT NOT NULL
+            );
+
+            CREATE VIRTUAL TABLE IF NOT EXISTS engrams_fts USING fts5(
+                content,
+                tags,
+                source,
+                content_rowid=rowid,
+                tokenize='porter'
+            );
+
+            CREATE TABLE IF NOT EXISTS engrams_links (
+                from_id TEXT NOT NULL,
+                to_id TEXT NOT NULL,
+                PRIMARY KEY (from_id, to_id)
+            );
+        """)
+        self._conn.commit()
+
+    # ---- CRUD ----
+
+    def save(self, engram: Engram) -> Engram:
+        """Speichert oder aktualisiert ein Engramm."""
+        now = _now()
+        data = {
+            "id": str(engram.id),
+            "content": engram.content,
+            "metadata_json": json.dumps(engram.metadata, ensure_ascii=False),
+            "correctness_json": json.dumps(engram.correctness.to_dict(), ensure_ascii=False),
+            "links_json": json.dumps([str(l) for l in engram.links], ensure_ascii=False),
+            "hierarchy_json": json.dumps(engram.hierarchy, ensure_ascii=False),
+            "embedding_json": json.dumps(engram.embedding, ensure_ascii=False) if engram.embedding else None,
+            "created_at": engram.metadata.get("created", now),
+            "modified_at": now,
+        }
+        self._conn.execute("""
+            INSERT INTO engrams (id, content, metadata_json, correctness_json, links_json, hierarchy_json, embedding_json, created_at, modified_at)
+            VALUES (:id, :content, :metadata_json, :correctness_json, :links_json, :hierarchy_json, :embedding_json, :created_at, :modified_at)
+            ON CONFLICT(id) DO UPDATE SET
+                content=excluded.content,
+                metadata_json=excluded.metadata_json,
+                correctness_json=excluded.correctness_json,
+                links_json=excluded.links_json,
+                hierarchy_json=excluded.hierarchy_json,
+                embedding_json=excluded.embedding_json,
+                modified_at=excluded.modified_at
+        """, data)
+
+        # FTS-Index aktualisieren (DELETE + INSERT, kein UPSERT für virtuelle Tabellen)
+        tags = " ".join(engram.metadata.get("tags", []))
+        source = engram.metadata.get("source", "")
+        rowid = self._conn.execute("SELECT rowid FROM engrams WHERE id=?", (str(engram.id),)).fetchone()
+        if rowid:
+            self._conn.execute("DELETE FROM engrams_fts WHERE rowid=?", (rowid[0],))
+        self._conn.execute("""
+            INSERT INTO engrams_fts(rowid, content, tags, source)
+            VALUES ((SELECT rowid FROM engrams WHERE id=:id), :content, :tags, :source)
+        """, {"id": str(engram.id), "content": engram.content, "tags": tags, "source": source})
+
+        # Links speichern
+        self._conn.execute("DELETE FROM engrams_links WHERE from_id=?", (str(engram.id),))
+        for link in engram.links:
+            self._conn.execute(
+                "INSERT OR IGNORE INTO engrams_links (from_id, to_id) VALUES (?, ?)",
+                (str(engram.id), str(link))
+            )
+
+        self._conn.commit()
+        return engram
+
+    def get(self, engram_id: str) -> Optional[Engram]:
+        """Lädt ein Engramm anhand seiner ID."""
+        row = self._conn.execute(
+            "SELECT * FROM engrams WHERE id=?", (engram_id,)
+        ).fetchone()
+        if not row:
+            return None
+        return self._row_to_engram(row)
+
+    def get_all(self, limit: int = 1000, offset: int = 0) -> List[Engram]:
+        """Lädt alle Engramme (paginiert)."""
+        rows = self._conn.execute(
+            "SELECT * FROM engrams ORDER BY created_at DESC LIMIT ? OFFSET ?",
+            (limit, offset)
+        ).fetchall()
+        return [self._row_to_engram(r) for r in rows]
+
+    def delete(self, engram_id: str) -> bool:
+        """Löscht ein Engramm und alle Verknüpfungen."""
+        rowid = self._conn.execute(
+            "SELECT rowid FROM engrams WHERE id=?", (engram_id,)
+        ).fetchone()
+        if not rowid:
+            return False
+        self._conn.execute("DELETE FROM engrams_fts WHERE rowid=?", (rowid[0],))
+        self._conn.execute("DELETE FROM engrams_links WHERE from_id=? OR to_id=?", (engram_id, engram_id))
+        self._conn.execute("DELETE FROM engrams WHERE id=?", (engram_id,))
+        self._conn.commit()
+        return True
+
+    def count(self) -> int:
+        """Anzahl der gespeicherten Engramme."""
+        row = self._conn.execute("SELECT COUNT(*) FROM engrams").fetchone()
+        return row[0] if row else 0
+
+    # ---- Search ----
+
+    def search_text(self, query: str, limit: int = 10) -> List[Engram]:
+        """Full-Text-Suche über Engramm-Inhalt via SQLite FTS5 (OR-Verknüpfung)."""
+        # FTS5-Syntax: Wörter mit OR verbinden für bessere Ergebnisse
+        words = [w.strip() for w in query.replace("'", "''").split() if w.strip()]
+        safe_query = " OR ".join(words) if len(words) > 1 else (words[0] if words else "*")
+        sql = """
+            SELECT e.* FROM engrams e
+            JOIN engrams_fts fts ON e.rowid = fts.rowid
+            WHERE engrams_fts MATCH ?
+            ORDER BY rank
+            LIMIT ?
+        """
+        rows = self._conn.execute(sql, (safe_query, limit)).fetchall()
+        return [self._row_to_engram(r) for r in rows]
+
+    def search_tag(self, tag: str, limit: int = 50) -> List[Engram]:
+        """Suche nach Tag (JSON-contains)."""
+        # Einfache Substring-Suche in JSON
+        rows = self._conn.execute(
+            "SELECT * FROM engrams WHERE metadata_json LIKE ? ORDER BY created_at DESC LIMIT ?",
+            (f'%"{tag}"%', limit)
+        ).fetchall()
+        return [self._row_to_engram(r) for r in rows]
+
+    def search_source(self, source: str, limit: int = 50) -> List[Engram]:
+        """Suche nach Quelle."""
+        rows = self._conn.execute(
+            "SELECT * FROM engrams WHERE metadata_json LIKE ? ORDER BY created_at DESC LIMIT ?",
+            (f'%"source": "{source}"%', limit)
+        ).fetchall()
+        return [self._row_to_engram(r) for r in rows]
+
+    # ---- Stats ----
+
+    def stats(self) -> Dict[str, Any]:
+        """Grundlegende Statistiken über den Store."""
+        total = self.count()
+        confirmed = self._conn.execute(
+            "SELECT COUNT(*) FROM engrams WHERE correctness_json LIKE '%\"confirmed\": true%'"
+        ).fetchone()[0]
+        sources = {}
+        for row in self._conn.execute(
+            "SELECT metadata_json FROM engrams"
+        ).fetchall():
+            meta = json.loads(row["metadata_json"])
+            src = meta.get("source", "unknown")
+            sources[src] = sources.get(src, 0) + 1
+
+        return {
+            "total_engrams": total,
+            "confirmed": confirmed,
+            "unconfirmed": total - confirmed,
+            "sources": sources,
+            "db_size_bytes": self.db_path.stat().st_size if self.db_path.exists() else 0,
+        }
+
+    # ---- Backup / Export ----
+
+    def export_jsonl(self, path: str) -> int:
+        """Exportiert alle Engramme als JSONL (eine Zeile pro Engramm)."""
+        count = 0
+        with open(path, "w", encoding="utf-8") as f:
+            for row in self._conn.execute("SELECT * FROM engrams"):
+                eg = self._row_to_engram(row)
+                f.write(json.dumps(eg.to_dict(), ensure_ascii=False) + "\n")
+                count += 1
+        return count
+
+    def import_jsonl(self, path: str) -> int:
+        """Importiert Engramme aus JSONL."""
+        count = 0
+        with open(path, "r", encoding="utf-8") as f:
+            for line in f:
+                line = line.strip()
+                if not line:
+                    continue
+                eg = Engram.from_json(line)
+                self.save(eg)
+                count += 1
+        return count
+
+    # ---- Helpers ----
+
+    def _row_to_engram(self, row: sqlite3.Row) -> Engram:
+        d = {
+            "id": row["id"],
+            "content": row["content"],
+            "metadata": json.loads(row["metadata_json"]),
+            "correctness": json.loads(row["correctness_json"]),
+            "links": json.loads(row["links_json"]),
+            "hierarchy": json.loads(row["hierarchy_json"]),
+        }
+        emb = row["embedding_json"]
+        if emb:
+            d["embedding"] = json.loads(emb)
+        return Engram.from_dict(d)
+
+    def close(self) -> None:
+        self._conn.close()
+
+
+def _now() -> str:
+    from datetime import datetime, timezone
+    return datetime.now(timezone.utc).isoformat()