Probe broader long-scene action windows

This commit is contained in:
Melbar
2026-05-02 18:25:16 +02:00
parent a5a84a9145
commit 2d9ba91a7b
2 changed files with 9 additions and 1 deletions
+4
View File
@@ -164,6 +164,10 @@ Vision-Modell stammen. Bei langen semantisch passenden Source-Szenen beschreibt
der Vision-Layer zusätzlich wenige lokale Zeitfenster und cached auch diese der Vision-Layer zusätzlich wenige lokale Zeitfenster und cached auch diese
Fenster, damit eine grob ähnliche Szene nicht automatisch mit dem falschen Fenster, damit eine grob ähnliche Szene nicht automatisch mit dem falschen
Bewegungs- oder Dialogmoment gleichgesetzt wird. Bewegungs- oder Dialogmoment gleichgesetzt wird.
Dieser lokale Fenster-Probe ist bewusst breiter als die finale Seed-Auswahl:
Eine lange Dialogszene kann in der Gesamtbeschreibung nur als Gespräch
erscheinen, aber an einer späteren Stelle trotzdem genau die gesuchte
Aktionsphase enthalten.
Nach dem CV-Match kann derselbe Vision-Layer den konkreten finalen Source- Nach dem CV-Match kann derselbe Vision-Layer den konkreten finalen Source-
Zeitbereich nochmals gegen den Trailer-Beat prüfen. Starke Aktionsphasen wie Zeitbereich nochmals gegen den Trailer-Beat prüfen. Starke Aktionsphasen wie
Annäherung, Kuss/Stirnkontakt, Handbewegungen oder Schneiden müssen dann auch Annäherung, Kuss/Stirnkontakt, Handbewegungen oder Schneiden müssen dann auch
+5 -1
View File
@@ -363,7 +363,11 @@ def _add_window_seed_descriptions(
if budget[0] <= 0: if budget[0] <= 0:
return points return points
scenes_to_probe = ranked[: max(1, cfg.vision.max_seed_scenes)] probe_limit = max(
cfg.vision.max_seed_scenes * 4,
cfg.vision.scene_candidate_top_k // 2,
)
scenes_to_probe = ranked[: max(1, min(len(ranked), probe_limit))]
windows_per_scene = max(1, min(6, cfg.vision.seed_points_per_scene // 2)) windows_per_scene = max(1, min(6, cfg.vision.seed_points_per_scene // 2))
for _, scene, _ in scenes_to_probe: for _, scene, _ in scenes_to_probe:
if budget[0] <= 0: if budget[0] <= 0: