Projekt realizowany przez Instytut Badań Edukacyjnych w ramach programu Fundusze Europejskie dla Rozwoju Społecznego (FERS).

Wprowadzenie

Pakiet repest w Stata to narzędzie stworzone przez OECD do ułatwienia analizy danych z międzynarodowych badań umiejętności, takich jak PISA (Programme for International Student Assessment), TIMSS (Trends in International Mathematics and Science Study) oraz PIRLS (Progress in International Reading Literacy Study).

Badania te charakteryzują się złożonymi technikami skalowania wyników i schematami doboru próby, które obejmują wartości prawdopodobne (Plausible Values - PVs) do reprezentowania wyników uczniów oraz wagi replikacyjne (Replicate Weights) do poprawnego szacowania błędów standardowych. repest automatyzuje obsługę specyfiki tych danych, umożliwiając uzyskanie dokładnych i wiarygodnych wyników.

Ten przewodnik pokazuje proces instalacji pakietu repest, pozyskiwania i przygotowywania danych, zrozumienia ich struktury oraz przeprowadzania podstawowych i bardziej zaawansowanych analiz.

Krok 1: Instalacja pakietu repest

Aby rozpocząć pracę, upewnij się, że masz zainstalowaną Statę (zalecana jest wersja 11.0 lub nowsza). Następnie, aby zainstalować pakiet repest, wpisz w oknie komend Stata:

ssc install repest, replace

Komenda ssc install służy do instalowania pakietów udostępnianych przez użytkowników za pośrednictwem archiwum SSC. Opcja replace zapewnia zainstalowanie najnowszej dostępnej wersji pakietu, nawet jeśli wcześniejsza już istnieje.

Krok 2: Pozyskiwanie i przygotowanie danych

2.1 Źródła danych

  • PISA: Dane są dostępne na stronie internetowej OECD, należy je pobrać i zapisać w folderze.

  • TIMSS i PIRLS: Dane można pobrać z TIMSS & PIRLS International Study Center (IEA).

2.2 Ładowanie danych do Stata

Dane są często dostarczane w formatach SPSS (.sav) lub innych. Aby ich użyć w Stata należy je wcześniej przekonwertować na format dta Aby załadować dane, użyj jednej z poniższych komend:

Dla plików SPSS (.sav):

usespss "ścieżka/do/pliku_kraju.sav", clear

Dla plików tekstowych (.txt):

import delimited "ścieżka/do/pliku_kraju.txt", clear

Dla plików Stata (.dta):

use "ścieżka/do/pliku_kraju.dta", clear

Opcja clear usuwa wszystkie poprzednie dane z pamięci Stata przed załadowaniem nowego zbioru.

2.3 Łączenie danych

2.3.1 Łączenie danych z wielu krajów (append)

Po załadowaniu danych pierwszego kraju, dodaj kolejne pliki:

append using "ścieżka/do/pliku_kolejnego_kraju.dta"

Komenda append dokleja obserwacje z kolejnego pliku do aktualnie załadowanego zbioru danych.

2.3.2 Dołączanie dodatkowych informacji (merge)

Dla połączenia danych uczniów z danymi np. ze szkół:

merge 1:1 idschool using "ścieżka/do/danych_szkolnych.dta"

Po merge Stata tworzy zmienną _merge informującą o dopasowaniu rekordów.

Krok 3: Struktura danych dla repest

Wartości prawdopodobne (PVs)

  • pv@mathpv1math, …, pv10math
  • BSMMAT@BSMMAT01, …, BSMMAT05
  • BSRRD@ → zmienne PIRLS

Sprawdź zmienne poleceniem:

describe pv*math

Wagi

  • Końcowe: w_fstuwt
  • Replikacyjne: w_fstr1 do w_fstr80

Zmienne kontekstowe

Typowe przykłady: gender, escs, schoolid itd.

Krok 4: Składnia komendy repest

repest NazwaBadania [if warunek] [in zakres], estimate(komenda) [opcje]

Krok 5: Opcja estimate()

5.a Wbudowane komendy

Średnia:

repest PISA, estimate(means pv@math)

Częstość:

repest PIAAC, estimate(freq litlev@)

Statystyki podsumowujące:

repest PIAAC, estimate(summarize pvlit@, stats(p5 p25 median p75 p95))

Korelacje:

repest PIAAC, estimate(corr pvlit@ pvnum@ pvps@)

5.b Komendy Stata

Regresja liniowa:

repest PISA, estimate(stata: reg pv@math escs gender)

Logistyczna:

repest PIAAC, estimate(stata: logit high_skill pvnum@ age)

Wielopoziomowa:

repest PIAAC, estimate(stata: xtmelogit univ i.edufath female age || cntryid3:)

Krok 6: Kluczowe opcje repest

Podział według kraju:

repest PISA, estimate(means pv@math) by(cnt)

Ograniczenie do krajów:

repest PIRLS, estimate(freq gender_r) by(country, levels(USA FRA DEU))

Średnie grupowe:

repest PISA, estimate(means pv@math) by(cnt, average(OECD EU))

Porównania między grupami:

repest PIAAC, estimate(freq c_d05) over(gender)

Z wyświetleniem i zapisem:

repest PISA, estimate(means pv@math) by(cnt) outfile(srednie_mat_pisa, replace) display

Dodanie statystyk do wyników regresji:

repest PISA, estimate(stata: reg pv@scie escs) by(cnt) results(add(r2 N))

Zapis obiektu regresji:

repest PISA, estimate(stata: reg pv@math escs) by(cnt) store(reg_math_kraje)
esttab reg_math_kraje using wyniki_regresji.rtf, replace

Przyspieszenie obliczeń:

repest PISA, estimate(stata: reg pv@math escs) by(cnt) fast

Krok 7: Analiza połączonych danych

Z by(kraj) → analiza per kraj. Bez by() → analiza zbiorcza (np. średnia ogólna).

Krok 8: Przykłady

repest PISA, estimate(means pv@math) by(cnt) display
repest TIMSS, estimate(means BSMMAT@) by(idcntry) display
repest PIRLS, estimate(means BSRRD@) by(idcntry) display
repest PISA, estimate(means pv@read) by(cnt) over(gender) display
repest PISA, estimate(stata: reg pv@math escs) by(cnt) outfile(reg_math_escs_pisa, replace) store(reg_pisa_escs)

Krok 9: Wspierane badania

help repest

Lista obsługiwanych badań: ALL, IALS, ICCS, ICILS, IELS, PIAAC, PIRLS, PISA, PISAOOS, SSES, SSES2023, TALIS, TALIS3S, TIMSS

Krok 10: Dobre praktyki

  • Używaj describe, np. describe pv*math w_fstuwt w_fstr* cnt escs
  • Dokumentuj skrypty jako .do lub .qmd
  • Stosuj fast i set more off przy dużych zbiorach
  • Porównuj wyniki z dokumentacją i raportami

Krok 11: Alternatywy i ograniczenia

Alternatywy:

  • pv w Stata: ssc install pv - jest to alternatywna komenda, bardziej przydatna do niektórych zastosowań.

  • wyykorzystanie komend stata do wielokrotnych imputacji oraz komendy svyset do definiowania schematu badania:

Dane z wartościami prawdopodobnymi (PVs) można analizować za pomocą mi impute w Stata, zapisując każdy zestaw PVs jako osobny zbiór imputacyjny i stosując standardowe narzędzia do analizy danych imputowanych. Podejście to, w połączeniu z svyset dla wag replikacyjnych, daje większą elastyczność, ale wymaga dodatkowego przekształcania danych (stworzenie dla każdej wartości prawdopodobnej osobnego zbioru danych).

Ograniczenia:

  • Podstawową zaletą repest jest automatyzowanie tworzenia zestawień, jak pokazano powyżej repest umożliwia wykorzystanie bardziej zaawansowanych komend, ale nie wszystkich.
  • Możliwość różnic między cyklami i formatami danych

Podsumowanie

repest automatyzuje analizy danych edukacyjnych zawierających PVs i wagi replikacyjne.

Ważne jest sprawdzenie dokumentacji badania, struktury danych i nazwy badania podawanej w komendzie repest.

Warto też sprawdzić, czy uzyskane wyniki z tymi, które są publikowane w oficjalnych raportach międzynarodowych lub krajowych