Improve vision matching for dissolve-heavy beats

2026-05-02 16:15:51 +02:00
parent 858a814db1
commit d9e470c877
4 changed files with 261 additions and 25 deletions
@@ -154,6 +154,11 @@ Modell beschrieben. Die Beschreibungen liegen in
 `.cache/vision_descriptions.json` und werden wiederverwendet. Vision erzeugt
 nur zusätzliche Suchanker; der eigentliche Match muss weiterhin durch CV,
 Content-Reranking, Timing und Duration-Coverage bestätigt werden.
+Gecachte Szenenbeschreibungen zählen nur, wenn sie vom aktuell konfigurierten
+Vision-Modell stammen. Bei langen semantisch passenden Source-Szenen beschreibt
+der Vision-Layer zusätzlich wenige lokale Zeitfenster und cached auch diese
+Fenster, damit eine grob ähnliche Szene nicht automatisch mit dem falschen
+Bewegungs- oder Dialogmoment gleichgesetzt wird.
 Der gewichtete Vision-Seed-Pfad ersetzt standardmäßig keinen normalen
 FFmpeg-Vollscan. Vision-Beschreibungen sind semantische Hinweise, aber keine
 Beweise; der volle CV-Scan bleibt deshalb aktiv, damit falsch bewertete
@@ -235,6 +240,9 @@ Bild-/Phasenvalidierung wie der normale Matcher. Nur nicht gelöste Beats fallen
 danach auf den vollständigen Scan zurück. Die Qualitätsparameter für lokale
 Vision-Szenenscans und Refine-Kandidaten bleiben dabei erhalten; der Prepass ist
 eine Reihenfolge-Optimierung, kein Qualitätsdeckel.
+Provisional Treffer aus diesem schnellen Prepass sind nicht endgültig: wenn sie
+unterhalb der Confirmed-Schwelle bleiben, läuft zusätzlich der vollständige
+CV-Scan und darf den besseren oder bestätigten Treffer übernehmen.
 OpenRouter-/Vision-Rate-Limits werden mit progressiv längeren Pausen erneut
 versucht. Billing-, Credit- oder Token-Guthaben-Fehler werden dagegen sofort als
 echter Blocker gemeldet, weil Warten dort nicht hilft.
@@ -278,6 +286,10 @@ auf-/abgeblendete Referenzframes aus Score, Inhalts-Reranking,
 Phasen-Alignment und Motion-Templates herausgenommen. Blenden sollen bestimmen,
 wie der Clip später exportiert wird, aber nicht, ob der Bildinhalt als Match
 gilt.
+Sichtbare Fade-Rampen werden nur in eine matchbare Insel hinein erweitert, wenn
+sie strukturell stark zum ersten bzw. letzten scorebaren Frame derselben
+Einstellung passen. Doppelbelichtungen aus Cross-Dissolves bleiben dadurch
+Übergangsmaterial und werden nicht als einzelner Quellclip erzwungen.
 Treffer unter `provisional_content_threshold` werden gar nicht mehr gespeichert
 oder aus alten Cache-Ergebnissen übernommen. Das verhindert, dass offensichtlich
 falsche Szenen im Report als Match-Kandidat weiterleben.
@@ -399,15 +411,15 @@ scoreable_contrast_min  = 24.0 # Kontrastarme Blenden/Titelinseln ignorieren
 [vision]
 enabled = false # Kostenkontrolle: per CLI mit --vision aktivierbar
 model = "google/gemma-4-31b-it" # Muss ein visionfähiges OpenAI-kompatibles Modell sein
-scene_candidate_top_k = 8 # Nur wenige Top-Szenen pro Beat beschreiben
-max_new_descriptions_per_run = 12 # API-Kosten pro Lauf begrenzen
-max_seed_scenes = 3 # Nur beste Vision-Szenen als Suchanker weitergeben
+scene_candidate_top_k = 48 # Breiter Vision-Kandidatenpool für schwierige Beats
+max_new_descriptions_per_run = 24 # Gecachte Beschreibungen pro Lauf; Rate-Limits bekommen Backoff
+max_seed_scenes = 8 # Mehr Vision-Szenen als Suchanker, kein manueller Override
 seed_points_per_scene = 12 # Inpoint-Samples pro Vision-Szene
 seed_score = 0.88 # Vision-Seeds bekommen mehr Priorität als normale Scene-Seeds
-max_refine_candidates = 6 # Vision-Pfad prüft mehrere Bewegungsphasen derselben Szene
+max_refine_candidates = 12 # Vision-Pfad prüft mehrere Bewegungsphasen derselben Szene
 local_scan_step_s = 0.12 # Dichte lokale Bildsuche in Vision-Szenen
 local_scan_max_points_per_scene = 180 # Laufzeitgrenze pro Source-Szene
-local_scan_top_candidates = 18 # Beste lokale Kandidaten gehen ins Refinement
+local_scan_top_candidates = 36 # Beste lokale Kandidaten gehen ins Refinement
 local_scan_tie_break_score_delta = 0.08 # Ähnliche Vision-Treffer: frühere Phase bevorzugen
 multi_shot_cut_corr_threshold = 0.20 # Interne Trailer-Umschnitte erkennen
 multi_shot_boundary_tolerance_s = 0.20 # Source-Grenze muss zum Trailer-Cut passen