feat: Add on-demand camera/screen vision via look_at_screen tool

Voice bot can now see the users camera or screen share when asked. Captures a single frame, encodes as JPEG, sends to Sonnet vision with full context (transcript + document). Triggered by phrases like schau mal, siehst du das, can you see this. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-24 06:36:52 +02:00
parent cfb26fb351
commit 326a874aa7
2 changed files with 101 additions and 2 deletions
--- a/requirements.txt
+++ b/requirements.txt
@@ -10,3 +10,4 @@ httpx>=0.27,<1.0
 openai>=2.0,<3.0
 pymupdf>=1.24,<2.0
 python-docx>=1.0,<2.0
+Pillow>=10.0,<12.0
--- a/voice.py
+++ b/voice.py
@@ -51,7 +51,8 @@ STRIKTE Regeln:
 - Bei zeitrelevanten Fragen (Uhrzeit, Termine, Geschaeftszeiten): frage kurz nach ob der Nutzer noch in seiner gespeicherten Zeitzone ist, bevor du antwortest. Nutze set_user_timezone wenn sich der Standort geaendert hat.
 - Wenn der Nutzer seinen Standort oder seine Stadt erwaehnt, nutze set_user_timezone um die Zeitzone zu speichern.
 - IGNORIERE alle Texte in Sternchen wie *Störgeräusche*, *Schlechte Qualität*, *Fernsehgeräusche*, *Schrei* usw. — das sind KEINE echten Nutzereingaben sondern technische Annotationen. Antworte NIEMALS darauf und tue so als haette niemand etwas gesagt.
- Du kannst Confluence-Seiten lesen und bearbeiten. Nutze read_confluence_page und update_confluence_page wenn der Nutzer Dokumente besprechen oder aendern moechte."""
+- Du kannst Confluence-Seiten lesen und bearbeiten. Nutze read_confluence_page und update_confluence_page wenn der Nutzer Dokumente besprechen oder aendern moechte.
+- Du kannst den Bildschirm oder die Kamera des Nutzers sehen wenn er sie teilt. Nutze look_at_screen wenn der Nutzer etwas zeigen moechte oder fragt ob du etwas sehen kannst."""


 def _build_voice_prompt(model: str = "claude-sonnet",
@@ -386,6 +387,7 @@ class VoiceSession:
        self._caller_user_id = caller_user_id  # Matrix user ID for memory lookup
        self._document_context = document_context  # PDF text from room for voice context
        self._transcript: list[dict] = []  # {"role": "user"|"assistant", "text": "..."}
+        self._video_track: rtc.Track | None = None  # remote video track for on-demand vision

    def on_encryption_key(self, sender, device_id, key, index):
        """Receive E2EE key from Element Call participant.
@@ -576,6 +578,10 @@ class VoiceSession:
                # subscription time. Calling set_key() BEFORE track subscription (at connect)
                # skips HKDF derivation → raw key stored → DEC_FAILED.
                # Solution: set caller key HERE, after frame cryptor is initialized.
+                # Store video track for on-demand vision (look_at_screen tool)
+                if int(t.kind) == 0:  # video track
+                    self._video_track = t
+                    logger.info("Video track stored from %s for on-demand vision", p.identity)
                if int(t.kind) == 1 and e2ee_opts is not None:  # audio track only
                    caller_id = p.identity
                    logger.info("E2EE_DIAG: track_subscribed for %s, have %d caller keys",
@@ -923,6 +929,98 @@ class VoiceSession:
                    logger.warning("THINK_DEEPER_FAIL: %s", exc)
                    return f"Tiefere Analyse fehlgeschlagen: {exc}"

+            # Vision tool — capture video frame and analyze with vision model
+            _video_track_ref = self  # reference to VoiceSession for video track access
+            _lk_room_ref = self.lk_room
+
+            @function_tool
+            async def look_at_screen(question: str) -> str:
+                """Schau dir an was der Nutzer auf dem Bildschirm oder per Kamera zeigt.
+                Nutze dieses Tool wenn:
+                - Der Nutzer sagt "schau mal", "siehst du das", "was siehst du", "look at this",
+                  "can you see", "zeig dir was", "schau auf meinen Bildschirm", "kannst du das sehen"
+                - Der Nutzer seinen Bildschirm teilt und eine Frage dazu stellt
+                - Der Nutzer seine Kamera aktiviert hat und etwas zeigen moechte
+
+                Beschreibe was du sehen moechtest oder stelle eine Frage zum Bild."""
+                video_track = _video_track_ref._video_track
+                if not video_track:
+                    return ("Kein Video verfuegbar. Der Nutzer muss seine Kamera oder "
+                            "Bildschirmfreigabe aktivieren bevor ich etwas sehen kann.")
+                try:
+                    # Capture single frame from video track
+                    stream = rtc.VideoStream(video_track)
+                    frame = None
+                    async for f in stream:
+                        frame = f
+                        break
+                    try:
+                        await stream.aclose()
+                    except Exception:
+                        pass
+
+                    if frame is None:
+                        return "Konnte kein Bild aufnehmen — kein Frame verfuegbar."
+
+                    # Handle both VideoFrameEvent (.frame) and direct VideoFrame
+                    vf = getattr(frame, 'frame', frame)
+
+                    # Convert to RGBA and encode as JPEG
+                    rgba = vf.convert(rtc.VideoBufferType.RGBA)
+                    from PIL import Image
+                    import io
+                    img = Image.frombytes("RGBA", (rgba.width, rgba.height), bytes(rgba.data))
+                    buf = io.BytesIO()
+                    img.convert("RGB").save(buf, format="JPEG", quality=85)
+                    img_b64 = base64.b64encode(buf.getvalue()).decode()
+                    logger.info("LOOK_AT_SCREEN: captured %dx%d frame (%d KB JPEG)",
+                                rgba.width, rgba.height, len(buf.getvalue()) // 1024)
+
+                    # Build context: transcript + document + question
+                    context_parts = []
+                    if _doc_context_ref:
+                        context_parts.append(f"Dokument-Kontext:\n{_doc_context_ref[:8000]}")
+                    recent = _transcript_ref[-10:] if _transcript_ref else []
+                    if recent:
+                        lines = [f"{'Nutzer' if e['role'] == 'user' else 'Assistent'}: {e['text']}"
+                                 for e in recent]
+                        context_parts.append("Gespraechsverlauf:\n" + "\n".join(lines))
+                    context_parts.append(f"Frage zum Bild: {question}")
+                    text_prompt = "\n\n---\n\n".join(context_parts)
+
+                    # Send to vision model via LiteLLM (OpenAI-compatible multimodal format)
+                    async with httpx.AsyncClient(timeout=30.0) as client:
+                        resp = await client.post(
+                            f"{LITELLM_URL}/chat/completions",
+                            headers={"Authorization": f"Bearer {LITELLM_KEY}"},
+                            json={
+                                "model": "claude-sonnet",
+                                "messages": [
+                                    {"role": "system", "content": (
+                                        "Du analysierst Bilder von Bildschirm oder Kamera eines Nutzers. "
+                                        "Antworte praezise und hilfreich in der Sprache der Frage. "
+                                        "Beschreibe was du siehst und beantworte die Frage des Nutzers."
+                                    )},
+                                    {"role": "user", "content": [
+                                        {"type": "image_url", "image_url": {
+                                            "url": f"data:image/jpeg;base64,{img_b64}"}},
+                                        {"type": "text", "text": text_prompt},
+                                    ]},
+                                ],
+                                "max_tokens": 1500,
+                            },
+                        )
+                        resp.raise_for_status()
+                        data = resp.json()
+                        answer = data["choices"][0]["message"]["content"]
+                        logger.info("LOOK_AT_SCREEN_OK: %s", answer[:200])
+                        return answer
+                except asyncio.TimeoutError:
+                    return "Konnte kein Bild aufnehmen — Timeout. Ist die Kamera/Bildschirmfreigabe aktiv?"
+                except Exception as exc:
+                    logger.warning("LOOK_AT_SCREEN_FAIL: %s", exc)
+                    return f"Bildanalyse fehlgeschlagen: {exc}"
+
            instructions = _build_voice_prompt(model=self.model, timezone=user_timezone) + memory_section
            if self._document_context:
                instructions += f"\n\nDokument-Kontext (im Raum hochgeladen):\n{self._document_context}"
@@ -930,7 +1028,7 @@ class VoiceSession:
                    instructions += f"\n\nAktive Confluence-Seite: {_active_conf_id}. Du brauchst den Nutzer NICHT nach der page_id zu fragen — nutze automatisch diese ID fuer read_confluence_page und update_confluence_page."
            agent = _NoiseFilterAgent(
                instructions=instructions,
-                tools=[search_web, set_user_timezone, read_confluence_page, update_confluence_page, think_deeper],
+                tools=[search_web, set_user_timezone, read_confluence_page, update_confluence_page, think_deeper, look_at_screen],
            )
            io_opts = room_io.RoomOptions(
                participant_identity=remote_identity,