Metoda różnicy w różnicach

Wykres przedstawia zmiany współczynnika aktywności zawodowej w dwóch grupach kobiet: bezdzietnych, i samotnych matek. Drugą grupę obejmowało podniesienie kwoty wolnej od podatku w 1994 r. Ich aktywność zawodowa wzrosła po tym momencie o kilka procent, wykazując różnicowo odmienny trend od drugiej grupy.
Zmiany współczynnika aktywności zawodowej kobiet objętych i nieobjętych podniesieniem kwoty wolnej od podatku w 1994 r. w USA; jest to przykład danych odpowiednich do analizy techniką różnic w różnicach

Metoda różnicy w różnicach (ang. difference in differences, DID) – używana w ekonometrii i innych naukach społecznych, quasi-eksperymentalna technika oszacowania wpływu badanej zmiennej niezależnej na dane obserwacyjne z eksperymentu naturalnego. Zmiany zachodzące w takich obserwacjach analizowane są z reguły przy pomocy regresji liniowej jako interakcja w sposób pozwalający wyodrębnić interesujący badaczy efekt.

W metodzie tej obserwuje się podobne wyjściowo populacje, które z zewnętrznych – w idealnym przypadku, całkowicie losowych – przyczyn poddane zostały różnemu oddziaływaniu interesującej badaczy zmiennej. Przykładowo, sytuacje takie powstają w następstwie ograniczonej geograficznie zmiany prawa, zdarzenia przyrodniczego, lub losowych przydziałów do uzyskania świadczenia społecznego. Tworzy to naturalny odpowiednik grupy kontrolnej i grupy eksperymentalnej. Ich zaobserwowane własności są następnie porównywane – z zasady z użyciem regresji, w której kontroluje się niezależne zmiany wewnątrz grup w czasie (efekty zmiennych zakłócających), i pomiędzy grupami (wyjściowe różnice) – aby wyizolować przedmiot badania: te z pozostałych zmian, które są związane zarówno z przynależnością do danej grupy, jak i ze stanem zmiennej niezależnej (innymi słowy, efekt interakcji grupa × czas).

O ile rzeczywiście udało się skontrolować zmienne zakłócające, technika ta pozwala rzetelnie mierzyć efekty oddziaływań niedostępnych właściwym eksperymentom ze względów finansowych lub etycznych. Eksperymenty naturalne badane metodą DID mogą obejmować o wiele większe próby i cechować się wyższą trafnością od badań laboratoryjnych, porównań przekrojowych pomiędzy grupami w jednym momencie, lub porównań podłużnych jednej grupy. Metoda różnicy w różnicach zawodzi jednak, jeśli zmienne zakłócające nie zostały prawidłowo rozpoznane. Zawodne mogą być również oparte o tę technikę wnioski o związkach przyczynowo-skutkowych: przykładowo, przyczynowość może być odwrotna[1].

Definicja formalna

Wykres przedstawia poziom abstrakcyjnej zmiennej mierzonej w dwóch punktach czasowych w dwóch grupach. Wzrost zmiennej w jednej grupie jest szybszy, co jest bezpośrednim wskaźnikiem różnicowego trendu..
Różne stopnie zmiany w różnych grupach (wizualnie, trendy które przestają być równoległe po zmianie w badanym czynniku) charakterystyczne dla interakcji statystycznych i stanowiące podstawę techniki DID

W regresji z użyciem dwóch zmiennych technice różnic w różnicach odpowiada model:

w którym to poziom zmiennej zależnej dla osoby warunkowo względem i Wymiary i mogą opisywać na przykład kraj zamieszkania i rok. Towarzyszące im współczynniki i oszacowują więc różnice związane tylko z upływem czasu, lub innym miejscem zamieszkania. Współczynnik oszacowuje „różnice w różnicach” – wielkość efektu związaną jednocześnie z położeniem i upływem czasu. Jeśli to potrzebne, stosuje się przy nim zmienną zerojedynkową (dummy) do oznaczenia grup, w których nastąpiła zmiana w zmiennej niezależnej.

Jest to specyficzna dla tego kontekstu eksperymentalnego interpretacja typowej interakcji statystycznej: oprócz tego, że porównywane populacje zmieniały się w czasie, część zmian zachodziła w różnych grupach w istotny sposób inaczej.

Jeśli przyjmiemy dla prostoty przykładu, że zmienne i przyjmują jedynie dwie wartości, i wówczas różnice średnich efektów w tych grupach spełniają następującą zależność:

Wraz z uwzględnianiem dodatkowych parametrów kontrolujących zmienne zakłócające uzyskiwane oszacowanie powinno stawać się odporniejsze na błędy. Wyjątkiem od tego są zmienne, które nie są egzogenne (tzw. collider variables) – regresja opiera się na założeniu o ścisłej egzogeniczności modelu.

Wszystkie założenia zastosowanej metody statystycznej, z zasady regresji metodą najmniejszych kwadratów, obowiązują w przypadku techniki różnicy w różnicach. Dodatkowo, metoda DID przyjmuje założenie równoległości trendów. Przy braku zmiany badanego czynnika, różnica pomiędzy porównywanymi grupami powinna być stała. Piętą achillesową techniki są warunki, w których oprócz zmiany badanego czynnika zaszły inne, zakłócające zmiany[1][2].

Przykład: badanie Carda i Kruegera (1994)

Jedną z najczęściej cytowanych publikacji stosujących metodę różnicy w różnicach jest badanie Carda i Kruegera z 1994 r. o efektach zmiany płacy minimalnej w stanie New Jersey[3]. Autorzy porównali poziom zatrudnienia w branży fast food w tym stanie, oraz sąsiadującej i podobnej Pensylwanii, w okresie podniesienia płacy minimalnej z $4,25 do $5,05 w 1992 r. Zestawienie samych zmian zatrudnienia w New Jersey przed i po reformie prawa byłoby narażone na błędy ze względu na trudność rzetelnego skontrolowania takich czynników, jak lokalne warunki makroekonomiczne czy pogodowe. Wykorzystanie obserwacji z Pensylwanii jako naturalnej grupy kontrolnej pozwala przeciwdziałać temu problemowi. Badacze uwzględnili dodatkowo w kilku alternatywnych modelach szereg zmiennych kontrolnych, aby zweryfikować odporność wyników. Rezultaty porównania zasugerowały, że – przeciwnie do oczekiwań nasuwanych przez najprostsze, klasyczne teorie – podniesienie płacy minimalnej nie spowodowało w tym przypadku wzrostu bezrobocia. Badanie to zapoczątkowało trwającą nadal polemikę na temat interpretacji i replikowalności jego wyników[4][5][6].

Przypisy

  1. a b Joshua D. Angrist, Jörn-Steffen Pischke, Mostly harmless econometrics: an empiricist’s companion, Princeton: Princeton University Press, 2009, ISBN 978-0-691-12034-8, OCLC 231586808.
  2. Felix Elwert, Christopher Winship, Endogenous Selection Bias: The Problem of Conditioning on a Collider Variable, „Annual Review of Sociology”, 40 (1), 2014, s. 31–53, DOI10.1146/annurev-soc-071913-043455 [dostęp 2018-04-28].
  3. David Card, Alan B. Krueger, Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania, „The American Economic Review”, 84 (4), 1994, s. 772–793, JSTOR2118030 [dostęp 2018-04-28].
  4. David Neumark, William Wascher, Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania: Comment, „American Economic Review”, 90 (5), 2000, s. 1362–1396, DOI10.1257/aer.90.5.1362, ISSN 0002-8282 [dostęp 2018-04-28] (ang.).
  5. David Card, Alan B. Krueger, Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania: Reply, „The American Economic Review”, 90 (5), 2000, s. 1397–1420, JSTOR2677856 [dostęp 2018-04-28].
  6. Olli Ropponen, Reconciling the evidence of Card and Krueger (1994) and Neumark and Wascher (2000), „Journal of Applied Econometrics”, 26 (6), 2011, s. 1051–1057, DOI10.1002/jae.1258, ISSN 0883-7252 [dostęp 2018-04-28] (ang.).

Media użyte na tej stronie

EITC vs LFPR USA.png
Autor: Jaszczuroczłek, Licencja: CC BY-SA 4.0
Wykres wskaźnika aktywności zawodowej (LFPR) w grupie Amerykanek objętych i nieobjętych podniesieniem kwoty wolnej od podatku (EITC) w okresie tej zmiany. Zreprodukowane w R na podstawie: https://thetarzan.wordpress.com/2011/05/24/surviving-graduate-econometrics-with-r-difference-in-difference-estimation-2-of-8/, alternatywna analiza: www.nber.org/papers/w21340