Wprowadzenie
Pakiet repest
w Stata to narzędzie stworzone przez OECD do ułatwienia analizy danych z międzynarodowych badań umiejętności, takich jak PISA (Programme for International Student Assessment), TIMSS (Trends in International Mathematics and Science Study) oraz PIRLS (Progress in International Reading Literacy Study).
Badania te charakteryzują się złożonymi technikami skalowania wyników i schematami doboru próby, które obejmują wartości prawdopodobne (Plausible Values - PVs) do reprezentowania wyników uczniów oraz wagi replikacyjne (Replicate Weights) do poprawnego szacowania błędów standardowych. repest
automatyzuje obsługę specyfiki tych danych, umożliwiając uzyskanie dokładnych i wiarygodnych wyników.
Ten przewodnik pokazuje proces instalacji pakietu repest
, pozyskiwania i przygotowywania danych, zrozumienia ich struktury oraz przeprowadzania podstawowych i bardziej zaawansowanych analiz.
Krok 1: Instalacja pakietu repest
Aby rozpocząć pracę, upewnij się, że masz zainstalowaną Statę (zalecana jest wersja 11.0 lub nowsza). Następnie, aby zainstalować pakiet repest
, wpisz w oknie komend Stata:
ssc install repest, replace
Komenda ssc install
służy do instalowania pakietów udostępnianych przez użytkowników za pośrednictwem archiwum SSC. Opcja replace
zapewnia zainstalowanie najnowszej dostępnej wersji pakietu, nawet jeśli wcześniejsza już istnieje.
Krok 2: Pozyskiwanie i przygotowanie danych
2.1 Źródła danych
-
PISA: Dane są dostępne na stronie internetowej OECD, należy je pobrać i zapisać w folderze.
-
TIMSS i PIRLS: Dane można pobrać z TIMSS & PIRLS International Study Center (IEA).
2.2 Ładowanie danych do Stata
Dane są często dostarczane w formatach SPSS (.sav) lub innych. Aby ich użyć w Stata należy je wcześniej przekonwertować na format dta Aby załadować dane, użyj jednej z poniższych komend:
Dla plików SPSS (.sav):
"ścieżka/do/pliku_kraju.sav", clear usespss
Dla plików tekstowych (.txt):
"ścieżka/do/pliku_kraju.txt", clear import delimited
Dla plików Stata (.dta):
use "ścieżka/do/pliku_kraju.dta", clear
Opcja clear
usuwa wszystkie poprzednie dane z pamięci Stata przed załadowaniem nowego zbioru.
2.3 Łączenie danych
2.3.1 Łączenie danych z wielu krajów (append)
Po załadowaniu danych pierwszego kraju, dodaj kolejne pliki:
append using "ścieżka/do/pliku_kolejnego_kraju.dta"
Komenda append
dokleja obserwacje z kolejnego pliku do aktualnie załadowanego zbioru danych.
2.3.2 Dołączanie dodatkowych informacji (merge)
Dla połączenia danych uczniów z danymi np. ze szkół:
merge 1:1 idschool using "ścieżka/do/danych_szkolnych.dta"
Po merge Stata tworzy zmienną _merge
informującą o dopasowaniu rekordów.
Krok 3: Struktura danych dla repest
Wartości prawdopodobne (PVs)
pv@math
→pv1math
, …,pv10math
BSMMAT@
→BSMMAT01
, …,BSMMAT05
BSRRD@
→ zmienne PIRLS
Sprawdź zmienne poleceniem:
describe pv*math
Wagi
- Końcowe:
w_fstuwt
- Replikacyjne:
w_fstr1
dow_fstr80
Zmienne kontekstowe
Typowe przykłady: gender
, escs
, schoolid
itd.
Krok 4: Składnia komendy repest
if warunek] [in zakres], estimate(komenda) [opcje] repest NazwaBadania [
Krok 5: Opcja estimate()
5.a Wbudowane komendy
Średnia:
means pv@math) repest PISA, estimate(
Częstość:
repest PIAAC, estimate(freq litlev@)
Statystyki podsumowujące:
summarize pvlit@, stats(p5 p25 median p75 p95)) repest PIAAC, estimate(
Korelacje:
corr pvlit@ pvnum@ pvps@) repest PIAAC, estimate(
5.b Komendy Stata
Regresja liniowa:
reg pv@math escs gender) repest PISA, estimate(stata:
Logistyczna:
logit high_skill pvnum@ age) repest PIAAC, estimate(stata:
Wielopoziomowa:
repest PIAAC, estimate(stata: xtmelogit univ i.edufath female age || cntryid3:)
Krok 6: Kluczowe opcje repest
Podział według kraju:
means pv@math) by(cnt) repest PISA, estimate(
Ograniczenie do krajów:
by(country, levels(USA FRA DEU)) repest PIRLS, estimate(freq gender_r)
Średnie grupowe:
means pv@math) by(cnt, average(OECD EU)) repest PISA, estimate(
Porównania między grupami:
over(gender) repest PIAAC, estimate(freq c_d05)
Z wyświetleniem i zapisem:
means pv@math) by(cnt) outfile(srednie_mat_pisa, replace) display repest PISA, estimate(
Dodanie statystyk do wyników regresji:
reg pv@scie escs) by(cnt) results(add(r2 N)) repest PISA, estimate(stata:
Zapis obiektu regresji:
reg pv@math escs) by(cnt) store(reg_math_kraje)
repest PISA, estimate(stata: using wyniki_regresji.rtf, replace esttab reg_math_kraje
Przyspieszenie obliczeń:
reg pv@math escs) by(cnt) fast repest PISA, estimate(stata:
Krok 7: Analiza połączonych danych
Z by(kraj)
→ analiza per kraj. Bez by()
→ analiza zbiorcza (np. średnia ogólna).
Krok 8: Przykłady
means pv@math) by(cnt) display repest PISA, estimate(
means BSMMAT@) by(idcntry) display repest TIMSS, estimate(
means BSRRD@) by(idcntry) display repest PIRLS, estimate(
means pv@read) by(cnt) over(gender) display repest PISA, estimate(
reg pv@math escs) by(cnt) outfile(reg_math_escs_pisa, replace) store(reg_pisa_escs) repest PISA, estimate(stata:
Krok 9: Wspierane badania
help repest
Lista obsługiwanych badań: ALL, IALS, ICCS, ICILS, IELS, PIAAC, PIRLS, PISA, PISAOOS, SSES, SSES2023, TALIS, TALIS3S, TIMSS
Krok 10: Dobre praktyki
- Używaj
describe
, np.describe pv*math w_fstuwt w_fstr* cnt escs
- Dokumentuj skrypty jako
.do
lub.qmd
- Stosuj
fast
iset more off
przy dużych zbiorach - Porównuj wyniki z dokumentacją i raportami
Krok 11: Alternatywy i ograniczenia
Alternatywy:
-
pv
w Stata:ssc install pv
- jest to alternatywna komenda, bardziej przydatna do niektórych zastosowań. -
wyykorzystanie komend stata do wielokrotnych imputacji oraz komendy
svyset
do definiowania schematu badania:
Dane z wartościami prawdopodobnymi (PVs) można analizować za pomocą mi impute
w Stata, zapisując każdy zestaw PVs jako osobny zbiór imputacyjny i stosując standardowe narzędzia do analizy danych imputowanych. Podejście to, w połączeniu z svyset
dla wag replikacyjnych, daje większą elastyczność, ale wymaga dodatkowego przekształcania danych (stworzenie dla każdej wartości prawdopodobnej osobnego zbioru danych).
Ograniczenia:
- Podstawową zaletą repest jest automatyzowanie tworzenia zestawień, jak pokazano powyżej repest umożliwia wykorzystanie bardziej zaawansowanych komend, ale nie wszystkich.
- Możliwość różnic między cyklami i formatami danych
Podsumowanie
repest
automatyzuje analizy danych edukacyjnych zawierających PVs i wagi replikacyjne.
Ważne jest sprawdzenie dokumentacji badania, struktury danych i nazwy badania podawanej w komendzie repest
.
Warto też sprawdzić, czy uzyskane wyniki z tymi, które są publikowane w oficjalnych raportach międzynarodowych lub krajowych