Reject vision matches with action phase mismatches

2026-05-02 16:49:47 +02:00
parent d9e470c877
commit 1a177d6b89
3 changed files with 177 additions and 3 deletions
@@ -159,6 +159,11 @@ Vision-Modell stammen. Bei langen semantisch passenden Source-Szenen beschreibt
 der Vision-Layer zusätzlich wenige lokale Zeitfenster und cached auch diese
 Fenster, damit eine grob ähnliche Szene nicht automatisch mit dem falschen
 Bewegungs- oder Dialogmoment gleichgesetzt wird.
+Nach dem CV-Match kann derselbe Vision-Layer den konkreten finalen Source-
+Zeitbereich nochmals gegen den Trailer-Beat prüfen. Starke Aktionsphasen wie
+Annäherung, Kuss/Stirnkontakt, Handbewegungen oder Schneiden müssen dann auch
+im Source-Fenster beschrieben sein; fehlt diese Aktionsphase, wird der Treffer
+nicht gespeichert, selbst wenn der Low-Level-CV-Score hoch ist.
 Der gewichtete Vision-Seed-Pfad ersetzt standardmäßig keinen normalen
 FFmpeg-Vollscan. Vision-Beschreibungen sind semantische Hinweise, aber keine
 Beweise; der volle CV-Scan bleibt deshalb aktiv, damit falsch bewertete