Słowniczek

Context Window (Okno kontekstowe)

Context Window (okno kontekstowe) to maksymalna ilość tekstu (tokenów), którą model językowy może przetworzyć w jednej interakcji. Determinuje, ile informacji AI „widzi” i „pamięta” podczas rozmowy. Wszystko poza oknem kontekstowym jest dla modelu dosłownie niewidoczne — jakby nie istniało.

Context window to pamięć robocza (RAM) AI — nie pamięć długoterminowa. Każda nowa sesja zaczyna się z pustym kontekstem (chyba że system używa zewnętrznej pamięci).

Co to są tokeny?

Modele AI nie przetwarzają słów — przetwarzają tokeny. Token to fragment tekstu: może to być całe słowo, część słowa lub znak interpunkcyjny. Orientacyjnie: 1 token ≈ 0.75 słowa w języku angielskim (w polskim nieco mniej, bo polskie słowa są dłuższe i często dzielone na więcej tokenów). 1 000 tokenów to około 700-750 słów angielskich lub 500-600 polskich, czyli mniej więcej 1-1.5 strony A4.

Rozmiary okien kontekstowych (2025-2026)

  • GPT-4o (OpenAI) — 128K tokenów (~96 000 słów, ~200 stron A4)
  • Claude Opus / Sonnet (Anthropic) — 200K tokenów standardowo, do 1M tokenów z rozszerzonym kontekstem. To około 700 000 słów — równowartość 3-4 pełnych książek.
  • Gemini 1.5 Pro (Google) — do 2M tokenów (rekord branży, choć jakość spada przy pełnym wykorzystaniu).
  • Dla porównania GPT-3.5 (2023) miał tylko 4K tokenów — postęp jest gigantyczny.

Dlaczego rozmiar okna kontekstowego ma znaczenie?

Context window determinuje, z jakim rodzajem zadań model sobie poradzi:

  • Małe okno (4K-8K) — krótkie pytania i odpowiedzi, proste konwersacje. Wystarczające do „napisz maila”.
  • Średnie okno (32K-128K) — analiza dokumentów (kilkadziesiąt stron), dłuższe konwersacje z historią, generowanie dłuższych tekstów.
  • Duże okno (200K-2M) — analiza całych baz kodu, książek, wielostronicowych raportów. „Wrzuć całe repozytorium i pytaj o kod” lub „przeczytaj tę 300-stronicową umowę i znajdź klauzulę o karach”.

Co się dzieje, gdy rozmowa przekracza context window?

Najstarsze wiadomości wypadają z kontekstu — AI dosłownie zapomina początek rozmowy. To nie jest kasowanie — model po prostu nie widzi tych fragmentów. Dlatego:

  • Długie konwersacje tracą spójność — model może zaprzeczać temu, co powiedział 50 wiadomości wcześniej.
  • Kluczowe instrukcje należy powtarzać — jeśli podałeś ważną instrukcję na początku, po 30 wiadomościach model może ją „zapomnieć”.
  • System prompts są lepiej zapamiętywane — bo zawsze są na początku kontekstu.

Efektywne wykorzystanie context window

  1. Nie marnuj tokenów — podawaj tylko istotne informacje. Im więcej szumu, tym gorsza jakość odpowiedzi. Nie wrzucaj 100 stron tekstu, gdy potrzebujesz odpowiedzi z 3 stron.
  2. Ważne na początku i na końcu — badania (Liu et al., 2023: „Lost in the Middle”) wykazały, że modele najlepiej przetwarzają informacje na początku i na końcu kontekstu. Środek jest najgorzej zapamiętywany.
  3. RAG zamiast „wpychania” — zamiast wrzucać całą bazę wiedzy do kontekstu, użyj RAG do pobrania tylko istotnych fragmentów. Mniej szumu = lepsza jakość.
  4. Podsumowania — przy długich konwersacjach, poproś model o podsumowanie dotychczasowych ustaleń. Podsumowanie zastępuje pełną historię.

Context window to maksymalna ilość tekstu (mierzona w tokenach), którą model AI może przetworzyć w jednej interakcji. Determinuje ile informacji model widzi i pamięta podczas rozmowy. Wszystko poza oknem jest dosłownie niewidoczne — jakby nie istniało. To pamięć robocza (RAM) AI, nie pamięć długoterminowa. Rozmiary w 2025: GPT-4o ma 128K tokenów (~200 stron A4), Claude do 1M tokenów (~4 książki naraz), Gemini do 2M. Dla porównania GPT-3.5 w 2023 miał tylko 4K tokenów. Postęp jest gigantyczny i otwiera zupełnie nowe zastosowania — od analizy pełnych baz kodu po czytanie wielostronicowych umów.

Token to fragment tekstu przetwarzany przez model — może być całym słowem, częścią słowa lub znakiem interpunkcyjnym. Orientacyjnie: 1 token to ok. 0.75 słowa angielskiego (w polskim mniej, bo polskie słowa generują więcej tokenów). 1000 tokenów to ~700 słów angielskich lub ~500 polskich, czyli ~1 strona A4. Więc model z 128K kontekstem (GPT-4o) widzi ~200 stron A4 naraz. Claude z 1M kontekstem widzi ~700 000 słów — równowartość 3-4 pełnych książek. To pozwala na zadania niemożliwe wcześniej: analiza całej bazy kodu, czytanie wielostronicowych raportów, długie konwersacje z pełną historią.

Najstarsze wiadomości wypadają z kontekstu — AI dosłownie zapomina początek rozmowy. To nie kasowanie, model po prostu nie widzi tych fragmentów. Efekty: długie konwersacje tracą spójność (model może zaprzeczać temu co powiedział wcześniej), kluczowe instrukcje z początku rozmowy są zapominane, odpowiedzi stają się mniej precyzyjne. Rozwiązania: powtarzaj ważne instrukcje, proś o podsumowanie dotychczasowych ustaleń (zajmuje mniej tokenów niż pełna historia), używaj system promptu (zawsze na początku kontekstu, lepiej zapamiętywany), lub zacznij nową sesję z kluczowymi ustaleniami zamiast ciągnąć nieskończoną rozmowę.

Cztery zasady: (1) Nie marnuj tokenów — podawaj tylko istotne informacje, nie wrzucaj 100 stron gdy potrzebujesz odpowiedzi z 3. (2) Ważne informacje na początku i końcu kontekstu — badanie Lost in the Middle (Liu 2023) wykazało, że modele najgorzej przetwarzają środek. (3) Używaj RAG zamiast wpychania całej bazy wiedzy do kontekstu — pobieraj tylko istotne fragmenty, mniej szumu = lepsza jakość. (4) Przy długich konwersacjach proś o podsumowania — zastępują pełną historię przy ułamku tokenów. Kluczowe: jakość kontekstu ważniejsza od ilości. 1000 dobrze dobranych tokenów da lepszą odpowiedź niż 100 000 irrelewantnych.

Powiązane artykuły