Relacja z konferencji Międzynarodowej Komisji ds. Testów

Przedstawicielki projektu UNICEF „Szkoła dostępna dla wszystkich”, dr Beata Papuda-Dolińska oraz dr Katarzyna Wiejak wzięły udział w międzynarodowej konferencji ITC (International Test Commission), której temat przewodni brzmiał „Working together to improve cross-cultural assessment and research”. Konferencja odbyła się w Granadzie (Hiszpania) w dniach 02–05.07.

Od prawie 50 lat Międzynarodowa Komisja ds. Testów (ITC) promuje skuteczne, rzetelne i sprawiedliwe praktyki testowania i diagnozy na całym świecie. Głównym tematem konferencji były kwestie równości i włączenia społecznego przy podejmowaniu decyzji lub dokonywaniu porównań na podstawie wyników testów zarówno w kontekście pomiaru osiągnięć edukacyjnych, jak i indywidualnych diagnoz. Konferencja ITC była okazją do poznania wyników najnowszych badań i spotkania z najlepszymi ekspertami w tej dziedzinie, w tym z twórcami testów edukacyjnych czy psychologicznych oraz przedstawicielami wydawnictw, jak np. Pearson czy Hogrefe.

Rozpoznanie najnowszych trendów w zakresie projektowania testów rzetelnych, sprawiedliwych i neutralnych kulturowo, tj. wolnych od błędów wynikających z różnic kulturowych (tzw. culture bias) było szczególnie istotne w kontekście celu projektu UNICEF-ASA, jakim jest wsparcie edukacyjne uczniów z doświadczeniem migracyjnym.

Podczas wystąpień plenarnych i warsztatowych przedstawiono główne wyzwania wynikające z przekładu i adaptacji językowej testów – zarówno testów psychologicznych jak i testów osiągnięć szkolnych (w tym egzaminów). Jednym z nich jest błąd tłumaczenia (Translation Error – TE) definiowany jako brak równoważności między oryginalnymi a przetłumaczonymi wersjami zadań w różnych wymiarach (projekt, język i treść). Znaczenie kulturowo dostosowanych testów polega na poprawie trafności i wiarygodności ocen oraz zmniejszeniu ryzyka uprzedzeń kulturowych. Tworzenie adaptacji, które są trafne (valid), sprawiedliwe (fair) i rzetelne (reliable) w różnych kontekstach kulturowych wymaga zaawansowanych tłumaczeń zespołowych oraz prac redukujących różnice związane z językiem (lub kulturą). Obecnie w procesie tym wykorzystuje się duże modele językowe (LLM) sztucznej inteligencji (AI); rozwiązania z tego zakresu również były prezentowane podczas konferencji. Co istotne, sztuczna inteligencja odgrywa coraz większą rolę w dziedzinie diagnozy psychologicznej, wprowadzając nowe możliwości i usprawnienia w procesie diagnozowania i oceny: przetwarzanie dużych zbiorów danych, wykrywanie wzorców, systemy eksperckie wspomagające diagnostykę.

W dyskusjach na pierwszy plan wysuwały się zagadnienia związane z błędem pomiaru, który towarzyszy każdej adaptacji testu. Oprócz rozwiązań, które zmniejszają jego wpływ, istotne jest, by uznać jego występowanie i odpowiadać na pytanie nie: „czy?” błąd pomiaru występuje, tylko: „jaki?/jaka?” jest jego rozmiar/wartość. Paneliści wskazywali również, że rozwiązaniem bardziej efektywnym niż adaptacja może być projektowanie testu od początku z uwzględnieniem cech i właściwości badanej grupy oraz złożoności mierzonego konstruktu. Wciąż nierozwiązywalne zdaje się pytanie „Jak zagwarantować, że ostateczne efekty ocen/diagnoz odzwierciedlają równoważne poziomy osiągnięć – niezależnie od języka, w którym przeprowadzono egzaminy/badania?”. Podejmowane są jednakże działania w kierunku wyjaśnienia tego problemu, takie jak np. weryfikacja, czy pytania egzaminacyjne w kursach przedmiotowych „zanikają w tłumaczeniu”, tzn. czy poziom trudności zmienia się po przetłumaczeniu na inne języki, albo sprawdzenie, czy limity słów w pracach wpływają na wyniki uczniów w językach, które są bardziej „obfite w słowa” niż inne itp.

Podczas tych rozważań nie padł jednak termin „uniwersalnego projektowania testów”, choć prelegenci odwoływali się bezpośrednio do takich źródeł jak ICT/ACP (2022), Guidelines for Technology-Based Assessment AERA Standards (2014) czy EFPA EuroTest Standards (2023).

W przypadku diagnoz, ocen i testów warunkujących losy edukacyjne uczniów, określających poziom wiedzy i kompetencji, ale również ogólnego funkcjonowania poznawczo-społeczno-emocjonalnego obserwowalny jest zwrot w kierunku diagnozy funkcjonalnej, dynamicznej, całościowej (360 stopni) zastępującej metody ilościowe, w których uzyskanie równoważności konstruktu między wersjami językowymi jest zwykle obarczone błędem. Poza tym takie testy dają się adaptować tylko w ograniczonym zakresie, zazwyczaj pod względem formy (język, dostęp fizyczny), ale pozostawiają dużo mniejsze możliwości modyfikacji na poziomie konceptualnym, np. zmienność konstruktu docelowego ze względu na obciążenie poznawcze danego zadania (cognitive load) czy tendencyjność kulturowa wynikająca z innego sposobu ekspresji pewnych funkcji rozwojowych (np. poprzez ruch). Ponadto własności psychometryczne testów standaryzowanych na grupach nie muszą odnosić się trafnie do poziomu funkcjonowania w perspektywie intrasubiektywnej. Dane interindywidualne nie dają się zastępować danymi intraindywidualnymi. Prelegenci zwracali uwagę, że – pomimo powyższych zastrzeżeń – decyzje edukacyjne o dużym znaczeniu nadal są podejmowane na podstawie wyników IQ, co może prowadzić do potencjalnie szkodliwych skutków dla jednostki.

Koncepcja diagnozy dynamicznej została zaprezentowana jako alternatywa dla statycznych testów inteligencji. Diagnoza dynamiczna oparta na teorii historyczno-kulturowej polega na ocenie nie tego, czego dziecko się uczy, ale tego, jak się uczy oraz na identyfikacji zakresu wsparcia, które może znacząco poprawić wykonanie jeszcze podczas diagnozy w formie „mediowania” efektu przez prowadzącego.

Wśród poszukiwanych rozwiązań w zakresie oceny poziomu rozwoju, wiedzy, kompetencji uczniów z doświadczeniem migracyjnym metody oparte na diagnozie dynamicznej, funkcjonalnej, uniwersalnie zaprojektowanej wydają się zgodne z aktualnymi trendami prezentowanymi na konferencji ITC.

Działania podejmowane w projekcie „Szkoła dostępna dla wszystkich”, mające na celu m.in. przygotowanie nauczycieli specjalistów do prowadzenia szkolnej oceny funkcjonalnej oraz pogłębionej diagnozy funkcjonalnej w obszarze społeczno-emocjonalnym i poznawczym, wpisują się w aktualne trendy w tym zakresie. Uczestnicy projektu otrzymali dostęp do różnorodnych narzędzi diagnostycznych, m.in. do uniwersalnie zaprojektowanego zestawu testów do oceny zdolności poznawczych KAPP, zestawu narzędzi do diagnozy funkcjonowania społeczno-emocjonalnego oraz procedury Szkolnej Oceny Funkcjonalnej. Wszystkie narzędzia są przygotowane w wersjach językowych umożliwiających ocenę uczniów przybyłych z Ukrainy, co jest zgodne z opisanymi wyżej współczesnymi trendami w zakresie diagnostyki edukacyjnej i psychologicznej.

Relacja z konferencji Międzynarodowej Komisji ds. Testów

Instytut

Przydatne Informacje

ADRES