Prompt Engineering to za mało: Jak zbudować bazę wiedzy, żeby AI naprawdę rozumiała Twój biznes
Spędziłeś godzinę na pisaniu promptu. Dodałeś kontekst, przykłady, instrukcje krok po kroku. ChatGPT odpowiedział idealnie. Następnego dnia zadałeś to...
Słowniczek
Context Window (okno kontekstowe) to maksymalna ilość tekstu (tokenów), którą model językowy może przetworzyć w jednej interakcji. Determinuje, ile informacji AI „widzi” i „pamięta” podczas rozmowy. Wszystko poza oknem kontekstowym jest dla modelu dosłownie niewidoczne — jakby nie istniało.
Context window to pamięć robocza (RAM) AI — nie pamięć długoterminowa. Każda nowa sesja zaczyna się z pustym kontekstem (chyba że system używa zewnętrznej pamięci).
Modele AI nie przetwarzają słów — przetwarzają tokeny. Token to fragment tekstu: może to być całe słowo, część słowa lub znak interpunkcyjny. Orientacyjnie: 1 token ≈ 0.75 słowa w języku angielskim (w polskim nieco mniej, bo polskie słowa są dłuższe i często dzielone na więcej tokenów). 1 000 tokenów to około 700-750 słów angielskich lub 500-600 polskich, czyli mniej więcej 1-1.5 strony A4.
Context window determinuje, z jakim rodzajem zadań model sobie poradzi:
Najstarsze wiadomości wypadają z kontekstu — AI dosłownie zapomina początek rozmowy. To nie jest kasowanie — model po prostu nie widzi tych fragmentów. Dlatego:
Context window to maksymalna ilość tekstu (mierzona w tokenach), którą model AI może przetworzyć w jednej interakcji. Determinuje ile informacji model widzi i pamięta podczas rozmowy. Wszystko poza oknem jest dosłownie niewidoczne — jakby nie istniało. To pamięć robocza (RAM) AI, nie pamięć długoterminowa. Rozmiary w 2025: GPT-4o ma 128K tokenów (~200 stron A4), Claude do 1M tokenów (~4 książki naraz), Gemini do 2M. Dla porównania GPT-3.5 w 2023 miał tylko 4K tokenów. Postęp jest gigantyczny i otwiera zupełnie nowe zastosowania — od analizy pełnych baz kodu po czytanie wielostronicowych umów.
Token to fragment tekstu przetwarzany przez model — może być całym słowem, częścią słowa lub znakiem interpunkcyjnym. Orientacyjnie: 1 token to ok. 0.75 słowa angielskiego (w polskim mniej, bo polskie słowa generują więcej tokenów). 1000 tokenów to ~700 słów angielskich lub ~500 polskich, czyli ~1 strona A4. Więc model z 128K kontekstem (GPT-4o) widzi ~200 stron A4 naraz. Claude z 1M kontekstem widzi ~700 000 słów — równowartość 3-4 pełnych książek. To pozwala na zadania niemożliwe wcześniej: analiza całej bazy kodu, czytanie wielostronicowych raportów, długie konwersacje z pełną historią.
Najstarsze wiadomości wypadają z kontekstu — AI dosłownie zapomina początek rozmowy. To nie kasowanie, model po prostu nie widzi tych fragmentów. Efekty: długie konwersacje tracą spójność (model może zaprzeczać temu co powiedział wcześniej), kluczowe instrukcje z początku rozmowy są zapominane, odpowiedzi stają się mniej precyzyjne. Rozwiązania: powtarzaj ważne instrukcje, proś o podsumowanie dotychczasowych ustaleń (zajmuje mniej tokenów niż pełna historia), używaj system promptu (zawsze na początku kontekstu, lepiej zapamiętywany), lub zacznij nową sesję z kluczowymi ustaleniami zamiast ciągnąć nieskończoną rozmowę.
Cztery zasady: (1) Nie marnuj tokenów — podawaj tylko istotne informacje, nie wrzucaj 100 stron gdy potrzebujesz odpowiedzi z 3. (2) Ważne informacje na początku i końcu kontekstu — badanie Lost in the Middle (Liu 2023) wykazało, że modele najgorzej przetwarzają środek. (3) Używaj RAG zamiast wpychania całej bazy wiedzy do kontekstu — pobieraj tylko istotne fragmenty, mniej szumu = lepsza jakość. (4) Przy długich konwersacjach proś o podsumowania — zastępują pełną historię przy ułamku tokenów. Kluczowe: jakość kontekstu ważniejsza od ilości. 1000 dobrze dobranych tokenów da lepszą odpowiedź niż 100 000 irrelewantnych.
Spędziłeś godzinę na pisaniu promptu. Dodałeś kontekst, przykłady, instrukcje krok po kroku. ChatGPT odpowiedział idealnie. Następnego dnia zadałeś to...