@evawolfangel @larsweisbrod @tante
Ein LLM kann sich nie an etwas erinnern. Jeder Request steht für sich selbst, ohne Geschichte.
Um das zu verbessern sendet das Interface bei jedem Request die komplette Historie Deiner Fragen in der Session und der Antworten mit.
Das ist ein großes JSON Objekt {}, mit einem Array [] drin, in dem die Fragen { "role": "user" } und Antworten { "role": "assistant" } drin sind.
In lokalen Modellen wie bei Ollama hier hat man auch Kontrolle über den Systemprompt { "role": "system" }, und in ChatGPT wird auch noch das Memory mit eingebaut in den Requestkontext.
Da in Deinem Beispiel die originale Frage zensiert wurde (also auch für Dich im Client gelöscht), fehlt sie im Folge-Request und es ist so als hätte das Modell eine Erinnerungslücke (hat es nicht, es hat keine Erinnerung, Dein Request hat eine Lücke). Bei mir kontrolliere ich den Client (ollama) und daher ist der Request nach "Tank Man" zu sehen.