En RIMA står för Autoregressive Integrated Moving Average-modeller. Univariate (single vector) ARIMA är en prognosteknik som projekterar framtida värden för en serie baserad helt på egen tröghet. Dess huvudsakliga tillämpning är inom området för prognoser på kort sikt som kräver minst 40 historiska datapunkter. Det fungerar bäst när dina data uppvisar ett stabilt eller konsekvent mönster över tiden med ett minimum av outliers. Ibland kallas Box-Jenkins (efter de ursprungliga författarna), är ARIMA vanligtvis överlägsen exponentiell utjämningsteknik när data är rimligt långa och korrelationen mellan tidigare observationer är stabil. Om data är korta eller mycket flyktiga, kan en viss utjämningsmetod fungera bättre. Om du inte har minst 38 datapunkter, bör du överväga någon annan metod än ARIMA. Det första steget i att tillämpa ARIMA-metodiken är att kontrollera stationäriteten. Stationäritet innebär att serien förblir på en ganska konstant nivå över tiden. Om det finns en trend, som i de flesta ekonomiska eller affärsapplikationer, är dina data INTE stationära. Uppgifterna bör också visa en konstant varians i sina fluktuationer över tiden. Detta syns lätt med en serie som är väldigt säsongsbetonad och växer i snabbare takt. I så fall blir uppgångarna och nedgångarna i säsongsalden mer dramatiska över tiden. Utan att dessa stationaritetsförhållanden är uppfyllda kan många av beräkningarna associerade med processen inte beräknas. Om en grafisk del av data indikerar icke-stationaritet, bör du skilja på serien. Differentiering är ett utmärkt sätt att omvandla en icke-stationär serie till en stationär. Detta görs genom att subtrahera observationen under den aktuella perioden från föregående. Om denna omvandling görs bara en gång till en serie, säger du att uppgifterna först har skiljats. Denna process eliminerar i huvudsak trenden om din serie växer med en ganska konstant takt. Om den växer i ökande takt kan du tillämpa samma procedur och skillnad data igen. Dina uppgifter skulle då bli annorlunda. Autokorrelationer är numeriska värden som indikerar hur en dataserie är relaterad till sig själv över tiden. Närmare bestämt mäter det hur starkt datavärdena vid ett visst antal perioder från varandra är korrelerade med varandra över tiden. Antalet perioder ibland kallas vanligtvis lagret. Till exempel mäter en autokorrelation vid lag 1 hur värdena 1 period från varandra korreleras med varandra i serien. En autokorrelation vid lag 2 mäter hur data två perioder från varandra korreleras genom hela serien. Autokorrelationer kan sträcka sig från 1 till -1. Ett värde nära 1 indikerar en hög positiv korrelation medan ett värde nära -1 innebär en hög negativ korrelation. Dessa åtgärder utvärderas oftast genom grafiska tomter som kallas korrelagram. Ett korrelagram plottar autokorrelationsvärdena för en given serie i olika lags. Detta kallas autokorrelationsfunktionen och är mycket viktigt i ARIMA-metoden. ARIMA-metoden försöker beskriva rörelserna i en stationär tidsserie som en funktion av vad som kallas autoregressiva och rörliga genomsnittsparametrar. Dessa kallas AR parametrar (autoregessiva) och MA parametrar (glidande medelvärden). En AR-modell med endast 1 parameter kan skrivas som. X (t) A (1) X (t-1) E (t) där X (t) tidsserier som undersöks A (1) den autoregressiva parametern av ordning 1 X (t-1) (T) modellens felperiod Detta betyder helt enkelt att vilket givet värde X (t) som kan förklaras med någon funktion av dess tidigare värde, X (t-1), plus något oförklarligt slumpmässigt fel, E (t). Om det uppskattade värdet av A (1) var .30, skulle nuvärdet av serien vara relaterat till 30 av dess värde 1 period sedan. Naturligtvis kan serien vara relaterad till mer än bara ett tidigare värde. Exempelvis X (t) A (1) X (t-1) A (2) X (t-2) E (t) Detta indikerar att serievärdet är en kombination av de två omedelbart föregående värdena, X (t-1) och X (t-2), plus något slumpmässigt fel E (t). Vår modell är nu en autoregressiv modell av ordning 2. Flytta genomsnittliga modeller: En andra typ av Box-Jenkins-modell kallas en rörlig genomsnittsmodell. Även om dessa modeller ser mycket ut som AR-modellen är konceptet bakom dem ganska annorlunda. Flytta genomsnittsparametrar relaterar vad som händer i period t endast till de slumpmässiga fel som inträffade under tidigare tidsperioder, dvs E (t-1), E (t-2) osv. Snarare än till X (t-1), X T-2), (Xt-3) som i de autoregressiva tillvägagångssätten. En glidande medelmodell med en MA-term kan skrivas enligt följande. X (t) - B (1) E (t-1) E (t) Termen B (1) kallas en MA i ordning 1. Negativt tecken framför parametern används endast för konventionen och skrivs vanligen ut automatiskt efter de flesta datorprogram. Ovanstående modell säger helt enkelt att ett givet värde av X (t) är direkt relaterat till det slumpmässiga felet i föregående period, E (t-1) och till den aktuella felperioden E (t). Som i fråga om autregressiva modeller kan de rörliga genomsnittsmodellerna utvidgas till högre orderstrukturer som täcker olika kombinationer och glidande medellängder. ARIMA-metoden möjliggör också att modeller ska byggas som innehåller både autoregressiva och rörliga genomsnittsparametrar tillsammans. Dessa modeller kallas ofta blandade modeller. Även om detta ger ett mer komplicerat prognosverktyg kan strukturen verkligen simulera serien bättre och ge en mer exakt prognos. Rena modeller innebär att strukturen bara består av AR eller MA parametrar - inte båda. Modellerna som utvecklas genom detta tillvägagångssätt kallas vanligen ARIMA-modeller eftersom de använder en kombination av autoregressiv (AR), integration (I) - hänvisar till omvänd process för differentiering för att producera prognosen och rörliga genomsnittliga (MA) - operationer. En ARIMA-modell anges vanligtvis som ARIMA (p, d, q). Detta representerar ordningen för de autogegressiva komponenterna (p), antalet differentieringsoperatörer (d) och den högsta ordningen för den glidande medelfristen. Till exempel betyder ARIMA (2,1,1) att du har en andra ordning med automatisk reglering med en första ordning som rör en genomsnittlig komponent vars serie har avvikits en gång för att inducera stationäritet. Plocka rätt specifikation: Det största problemet i klassiska Box-Jenkins försöker bestämma vilken ARIMA-specifikation som ska användas - i. e. Hur många parametrar för AR och MA som ska ingå. Det är så mycket av Box-Jenkings 1976 som ägnades åt identifieringsprocessen. Det berodde på grafisk och numerisk utvärdering av provautokorrelationen och partiella autokorrelationsfunktioner. Tja, för dina grundläggande modeller är uppgiften inte för svår. Var och en har autokorrelationsfunktioner som ser på ett visst sätt. Men när du går upp i komplexitet är mönstren inte så lätt detekterade. För att göra saker svårare representerar dina data bara ett urval av den underliggande processen. Det betyder att provtagningsfel (outliers, mätfel etc.) kan snedvrida den teoretiska identifieringsprocessen. Därför är traditionell ARIMA-modellering en konst snarare än en vetenskap. Journal of Mathematics and Statistics Volym 7, Utgåva 1 Problembeskrivning: De flesta SARIMA-modellerna för säsongsmässiga autoregressiva integrerade rörelseregler (SARIMA) som används för prognoser för säsongsbetonade tidsserier är multiplicativa SARIMA-modeller. Dessa modeller antar att det finns en signifikant parameter som ett resultat av multiplikation mellan icke-säsongs - och säsongsparametrar utan testning genom ett visst statistiskt test. Dessutom har mest populära statistiska program som MINITAB och SPSS bara möjlighet att passa en multiplikativ modell. Syftet med denna forskning är att föreslå ett nytt förfarande för att identifiera den mest lämpliga ordningen i SARIMA-modellen, om det gäller delmängd, multiplikativ eller additiv ordning. I synnerhet undersökte studien om en multiplikativ parameter fanns i SARIMA-modellen. Tillvägagångssätt: Teoretisk avledning om autokorrelation (ACF) och partiell autokorrelation (PACF) - funktioner från delmängd, multiplikativ och additiv SARIMA-modell diskuterades först och sedan användes R-programmet för att skapa grafiken för dessa teoretiska ACF och PACF. Därefter användes två månatliga dataset som fallstudier, det vill säga de internationella uppgifterna om passagerarinformation och serier om antalet turistrekommendationer till Bali, Indonesien. Modellidentifieringssteget för att bestämma ARIMA-modellens ordning gjordes med hjälp av MINITAB-programmet och modelluppskattningssteget användes SAS-program för att testa om modellen bestod av delmängd, multiplikativ eller additiv ordning. Resultat: Den teoretiska ACF och PACF visade att subset, multiplikativ och additiv SARIMA-modeller har olika mönster, särskilt vid lagret som ett resultat av multiplikation mellan icke-säsongsbetonade och säsongsmässiga lags. Modellering av flygdata gav en SARIMA-modell som den bästa modellen, medan en additiv SARIMA-modell är den bästa modellen för att förutse antalet turistanlända till Bali. Slutsats: Båda fallstudierna visade att en multiplikativ SARIMA-modell inte var den bästa modellen för prognoser för dessa data. Jämförelsevalueringen visade att subset - och additiv-SARIMA-modellerna gav mer exakta prognosvärden vid out-sample dataset än multiplikativ SARIMA-modell för respektive dataset för flygbolag och turister. Denna studie är värdefullt bidrag till Box-Jenkins-förfarandet, särskilt vid modellidentifiering och uppskattning i SARIMA-modellen. Ytterligare arbete som involverar flera säsongsbetonade ARIMA-modeller, såsom korttidsbelastning av data i vissa länder, kan ge ytterligare insikter beträffande delmängden, multiplikations - eller additivbeställningarna. kopiera 2011 Suhartono. Detta är en öppen åtkomstartikel som distribueras enligt villkoren för Creative Commons Attribution License. Som tillåter obegränsad användning, distribution och reproduktion i vilket medium som helst, under förutsättning att den ursprungliga författaren och källan krediteras. Generella säsongsmässiga autoregressiva integrerade rörliga genomsnittsmodeller för räkning av data med ansökan till malariatidsserie med låga fallenummer Affiliations International Water Management Institute, Colombo, Sri Lanka, Institutionen för epidemiologi och folkhälsa, Schweiziska Tropiska och folkhälsoinstitutet, Basel, Schweiz, Universitetet i Basel, Basel, Schweiz Anslutning International Water Management Institute Sub regionala kontor för Sydasien, Patancheru, Andhra Pradesh, Indien Anslutningar Epidemiologiska institutionen Och folkhälsa, Schweiziska Tropiska och Folkhälsoinstitutet, Basel, Schweiz, Universitetet i Basel, Basel, Schweiz Allmänna säsongsmässiga autoregressiva integrerade rörliga genomsnittsmodeller för räkningsdata med ansökan till Malarias tidsserie med låga falltal Olivier JT Brit, Priyanie H. Amerasinghe , Penelope Vounatsou In Produktion Med den förnyade drivningen mot malaria eliminering finns det behov av förbättrade övervakningsverktyg. Medan tidsreeksanalys är ett viktigt verktyg för övervakning, förutsägelse och mätning av interventioner, är approximationer av vanliga Gaussiska metoder benägen för felaktigheter när falltal är låga. Därför krävs statistiska metoder som är lämpliga för räkningsdata, speciellt under konsolidering och före elimineringsfaser. Generalized autoregressive moving average (GARMA) - modellerna utvidgades till generella säsongs-autoregressiva integrerade glidande medel (GSARIMA) - modeller för parsimonisk observationsstyrd modellering av icke-gaussiska, icke-stationära andor säsongsbundna tidsserier av räkningsdata. Modellerna applicerades på månadsvisa malariagrupps tidsserier i ett distrikt i Sri Lanka, där malaria har minskat dramatiskt de senaste åren. Malariaserien visade långsiktiga förändringar i den genomsnittliga, instabila variansen och säsongligheten. Efter montering av negativa binomiala bayesiska modeller valdes både en GSARIMA och en GARIMA deterministisk säsongsmodell utifrån olika kriterier. Posteriora prediktiva fördelningar visade att negativa binomialmodeller gav bättre förutsägelser än gaussiska modeller, speciellt när antalet var låga. G (S) ARIMA-modellerna kunde fånga autokorrelationen i serien. Slutsatser G (S) ARIMA-modellerna kan vara speciellt användbara i arbetet mot malariaavlägsnande, eftersom episodräkningsserierna ofta är säsongsmässiga och icke-stationära, särskilt när kontrollen ökar. Även om byggnad och montering av GSARIMA-modeller är mödosam, kan de ge mer realistiska prediktsfördelningar än Gaussian-metoder och kan vara mer lämpliga när antalet är låga. Citat: Brit OJT, Amerasinghe PH, Vounatsou P (2013) Allmänna säsongsmässiga autoregressiva integrerade rörliga genomsnittsmodeller för räkningsdata med ansökan till malariagruppen med låga fallnummer. PLoS ONE 8 (6): e65761. doi: 10.1371journal. pone.0065761 Redaktör: Clive Shiff, Johns Hopkins University, Förenta staterna Mottagna: 25 januari 2013 Accepterad: 29 april 2013 Publicerad: 13 juni 2013 Copyright: 2013 Brit et al. Detta är en artikel med öppen åtkomst som distribueras enligt villkoren för Creative Commons Attribution-licens, som tillåter obegränsad användning, distribution och reproduktion i vilket medium som helst, förutsatt att den ursprungliga författaren och källan krediteras. Finansiering: Denna studie finansierades genom National Joint Foundation of the National Oceanic and Atmospheric Administration (NOAA), National Science Foundation (NSF), Environmental Protection Agency (EPA) och Electric Power Research Institute (EPRI) Gemensamt program för klimatvariabler och mänsklig hälsa. Fundrarna hade ingen roll i studiedesign, datainsamling och analys, beslut att publicera eller förbereda manuskriptet. Konkurrerande intressen: Författarna har förklarat att inga konkurrerande intressen existerar. Inledning Det finns ett ökat intresse för att använda malariaprognosmodeller för att hjälpa kliniska och folkhälso-tjänster strategiskt att genomföra förebyggande och kontrollåtgärder 1 5. Anti-malariakampanjdirektoratet vid hälsovårdsministeriet i Sri Lanka har testat ett prognossystem för malaria som använder multiplicativ säsongens autoregressiva Integrerade glidande medelvärden (SARIMA) - modeller, som antar att logaritmiskt transformerade månatliga malariagnaktsdata är ungefär Gauss-distribuerade. Ett sådant tillvägagångssätt används i stor utsträckning vid prediktiv modellering av infektionssjukdomar. 4. 6. 7. Malaria i Sri Lanka är säsongsbunden och instabil och varierar i intensitet både rumligt och temporärt. 8. Malaria var ett stort folkhälsoproblem i landet 9 tills förekomsten Började minska i år 2000. 10. Sri Lanka gick in i före elimineringsfasen 2007 och gick fram till elimineringsfasen 2011 11. Box-Cox-klassomvandling av malariagräkningar (som en logaritmisk transformation) kan ge ungefär Gauss-distribuerade data, men approximationen är mindre nära observationer med lågt förväntat medelvärde 12. Dessutom kan lågräknad data inkludera nollor, vilket gör Box - Cox-transformation oanvändbar. För att övervinna detta problem kan en liten konstant läggas till data. Gaussisk modellering med transformerad data kan resultera i felaktiga prediktionsfördelningar. Detta är problematiskt, särskilt när de senaste månatliga falltalen är låga, vilket tenderar att vara fallet i länder i den avancerade fasen av eliminering 3. Modeller som antar en negativ binomialfördelning för malariatalsdata kan vara lämpligare 13 15. Men , negativa binomialmodeller som innehåller en SARIMA-struktur är ännu inte tillgängliga. Benjamin och kollegor 16 tillhandahåller en ram för generella linjära autoregressiva glidande medel (GARMA) - modeller och bland annat diskuterar modeller för Poisson och negativ binomialt distribuerad data. GARMA-modeller är observationsdrivna modeller som möjliggör fördröjd beroende i observationer. Alternativt tillåter parameterdrivna modeller (beroende) beroende på latenta variabler 17 20. GARMA-modellerna är enklare att uppskatta och förutsägelsen är enkel, medan parametrerdrivna modeller är enklare att tolka 21. 22. Jung och kollegor 23 finner att båda typerna av modellerna utförs på samma sätt. GARMA-modellerna relaterar prediktorer och ARMA-komponenter till en transformation av den genomsnittliga parametern för datafördelningen (), via en länkfunktion. En loglänkfunktion säkerställer att det är begränsat till domänen av positiva reella tal. Lagrade observationer som används som kovariater bör därför också logaritmiskt transformeras, vilket inte är möjligt för observationer med ett värde av noll. För att kringgå detta problem diskuterar Zeger och Qaqish 24 att lägga en liten konstant till data, antingen till all data eller bara till nollor. Grunwald och kollegor 25 anser en villkorlig linjär autoregressiv (CLAR) modell med en identitetslänkfunktion. För att säkerställa en positiv. Restriktioner kan sättas på parametrarna. En variant av GARMA-modellen, en generaliserad linjär autoregressiv glidande genomsnittlig (GLARMA) - modell, presenteras av Davis och kollegor 22. Heinen 26 föreslår en klass av autoregressiva villkorliga Poisson (ACP) modeller med metoder som möjliggör över och under dispersion i marginalfördelningen av data. En annan klass av Poisson-modeller med automatisk korrelerad felstruktur använder binomialt thinning och kallas heltalvärderade autoregressiva (INAR) - modeller 27. INAR-modeller kan teoretiskt utökas till glidande medelvärden (INMA) och INARMA-modeller 28. 29. men det här är inte enkelt implementeras 30. Ett alternativt parametrerat modelleringsförfarande förutsätter en autogegressiv process vid tidsspecifika slumpmässiga effekter som införs i medelstrukturen, med användning av en logaritmisk länkfunktion 31. En sådan modell kallas ibland en stokastisk autoregressiv medel (SAM) modell 23 och har ofta applicerats i Bayesian temporal och spatio-temporal modellering 15. 21. 32 36. Av de ovan beskrivna modellerna verkar GARMA-ramen vara den mest flexibla för modellering av räkningsdata med en autogegressiv andor-rörlig medelstruktur. Benjamin och kollegor 16 tillämpar en stationär GARMA-modell i en tidsserie av poliofall med en säsongsutveckling med en sinekosinfunktion med en blandning av en årlig och en halvårsperiod. Men om säsongskomponenten antas vara stokastisk, är GARMA-modellen som presenteras av Benjamin och kollegor 16 inte lämplig. Också många tidsserier av räkningsdata, inklusive malariafall, är inte stationära. Här utvidgades GARMA till en klass av generaliserad multiplicativ säsongsautoregressiv integrerad glidande medel (GSARIMA) - modeller, analog med SARIMA-modeller för Gaussian distribuerad data. Klassen av GSARIMA-modeller inkluderar generella autoregressiva integrerade glidande medel (GARIMA) - modeller. Modellpassning utfördes med full Bayesian inferens. Effekten av felaktiga fördelningsförutsättningar på de bakre prediktiva fördelningarna visades genom att använda simulerade och verkliga malariagrupptal från Sri Lanka. Programvarukod tillhandahålls som stödinformation. Modellformulering Låt vara en tidsserie av räkningsdata av längd n som uppstår genom en negativ binomialfördelning med och. Den begränsande formen av den negativa binomialfördelningen, det vill säga. är Poisson distributionen. Modellen kan skrivas: var är en länkfunktion,. och. är en backshift operatör med (notera det). är en vektor av koefficienter för vilka en interceptmultiplikator (vanligtvis taget som) och tidsberoende kovariater ingår. I GARMA-ramverket kan räknat data modelleras via en logaritmisk eller en identitetslänkfunktion, vilken som passar mest för serien. För att undvika problemet med att ta logaritmen av observationer med värdet noll under logaritmen, föreslår Zeger och Qaqish 24 en transformation av t. ex. hädanefter kallad ZQ1. Zeger och Qaqish 24 föreslår också en alternativ metod, hädanefter kallad ZQ2, som översätts till modellvarianten: Under en identitetslänk kan restriktioner vara nödvändiga för att säkerställa en positiv. beroende på data och modellparametrar. Ovannämnda modeller kan utvidgas till analoger genom att inkludera säsongsvariationer (S) och differentieringskomponenter (I) enligt följande: Var är längden på perioden (för månadsdata med en årlig cykel). . . . och är som ovan. Exempel på negativ binomial och modeller med loglänkfunktion och ZQ1-omvandling ges i tillägg S1. Inverkan av länkfunktionsval och datatransformationsval på fördelningen av data bedöms också i Bilaga S1. Benjamin och kollegor 16 ansluter maximal sannolikhetsbedömning genom iterativa viktade minsta kvadrater och basinferens på asymptotiska resultat. I detta dokument formulerades modellen i en bayesisk ram. Vid Bayesian inferens måste tidigare fördelningar tilldelas alla modellparametrar. En svagt stationär modell antogs och därför begränsades auto-korrelationen och rörliga genomsnittsparametrar med en algoritm som tillhandahålls av Jones 37. För detta ändamål har de autoregressiva och rörliga genomsnittsparametrarna sannolikt reparerats och tidigare fördelningar antogs på den nya parametrisering. Till exempel reparerades de icke säsongsmässiga autoregressiva parametrarna i termer av. . var och. Följande tidigare fördelningar antogs:. där betecknar heltalets del av. Ytterligare priekter valdes var och. För de första observationerna bestämdes resterna på prediktorskalan (t ex i fallet med en logaritmisk länkfunktion) till noll. En begränsning kan sättas på medelvärdet själv, det vill säga när identitetslänken används. GSARIMA-modellerna uppskattades med hjälp av det fria Bayesian-program, JAGS 38. Som använder sig av Markov-kedjan Monte Carlo (MCMC) simuleringsmetoder. Exempel på kod skrivet för att använda JAGS inom R-programvaran, för negativa binomiala GSARIMA-modeller med logaritmisk länkfunktion och ZQ1-transformation, tillhandahålls som stödinformation, se Ytterligare fil S1. Förmågan hos dessa modeller att uppskatta simulerade dataserier med GSARIMA-strukturen beskrivs kort i bilaga S1. Effekten av (fel) som anger länkfunktionen och datatransformationen vid uppskattning av GARMA-modellparametrar utvärderas och beskrivs också i tillägg S1. Ansökan om Malarias tidsserieanalys I det här avsnittet finns ett exempel på en GSARIMA-modell som tillämpas på månadsvisa malariagruppräkning för perioden 19722005 i distriktet Gampaha i Sri Lanka (Figur 1A), med nedfall som kovariat (Figur 1B). Kod för analysen tillhandahålls som stödinformation i ytterligare fil S2. Rekord av malariapositiva blodfilmer rapporterades månatligen av statliga hälsofaciliteter och aggregerades av Sri Lankas anti malariakampanj (AMC). Regnfallet var den genomsnittliga höjden av nederbördskolonnen för månadsdistriktet, som härrörde från månadsöverskridande nederbördsytor. Dessa regnytor genererades genom rumslig interpolering av fällningsregister som samlats in av 342 stationer över ön. Uppgifterna beskrivs tidigare i tidigare arbete 8. Tidsserierna på 408 månader innehöll tre månader med noll malariafall: oktober 1982 och mars och augusti 2005. Regnfallet förbättrade malariaprognoserna med Gaussian SARIMA-modeller, som var anpassade till logaritmiskt transformerade malariagods tre till fyra månader framåt 2. Figur 1. Månadsvis malariakassan räknar och nedgång i Gampaha-distriktet över tiden. Panelen A visar månadsvisa malariakassett och panelen B visar månadsfall. Preliminär frekventistisk gaussisk SARIMA-modellidentifikation Eftersom Bayesian-modellen passar med MCMC-algoritmer är beräkningsdjup, preliminär modellidentifikation för att välja SARIMA-parametrarna, s. d. q. P. D. och Q. utfördes med hjälp av standardverktyg (frekventistiska) som utvecklats för tidsserier med gaussiska marginalfel, snarare än genom att montera många möjliga MCMC-modeller. En visuell analys av malariatidsserien (Figur 1) påvisade närvaron av en långsiktig (inter årlig) förändring i medelvärdet, en instabil varians (som tycks öka med medelvärdet) och multiplicationssäsongligheten (storleken på säsongseffekten är proportionell mot medelvärdet). För den preliminära Gaussiananalysen transformerades sålunda data med användning av en utrustad Box-Cox-transformation 39. För att stabilisera variansen, för att göra säsongsverkningsadditivet och för att göra dataen ungefär normalt fördelade 40. Trenden i rutan - Cox-transformerade serier behandlades som en stokastisk trend, som var (första ordning) skillnad stationär. Det förstärkta Dickey Fuller-testet 41 med en fördröjningsordning av 15 användes för att detektera närvaro av en enhetsrot för att bedöma huruvida serien skulle integreras (differentierad). Gaussiska SARIMA-modeller och ARIMA-modeller med en andra ordningens harmoniska säsongskomponent, både med d 1 på grund av närvaro av enhetsrot, var utrustade med (frekvensist) R-programvarupaketstatistik och modellerna utvärderades baserat på Akaikes informationskriterium (AIC ). Den kovariära matrisen för säsongseffekten med användning av andra ordningens övertoner (dvs användande av två sinus - och cosinuspar) ges av. En (tidsoberoende) avskiljning inkluderades inte eftersom avlyssningen faller ut ur ekvationen efter första ordningens differentiering. GSARIMA-modellval Bayesiska negativa binomialversioner av fyra SARIMA-modeller och två ARIMA-modeller, med andra ordningens övertoner som identifierades i den preliminära analysen, implementerades i JAGS på otransformerade data, med hjälp av en logaritmisk länkfunktion och ZQ1-transformation. Eftersom det endast fanns tre observationer med nolltal, skulle resultaten inte vara känsliga för valet av transformationskonstanten för ZQ1 och detta sattes till c 1. Också övervägdes versioner med identitetslänk. Modeller utvärderades utifrån två kriterier. Den första var avvikelsens informationskriterium (DIC), som beräknades som medelvärdet av avvikelsens bakre fördelning med förbehåll för de första observationerna (med lika med de maximala modellerna jämförda), förstärkt med antalet effektiva uppskattade parametrar som straff för att förhindra övermontering. Modeller med lägre DIC anses ha en bättre passform. Ett andra kriterium definierades som det genomsnittliga absoluta relativa felet för monterade värden (MARE): MARE. var är det utrustade antalet malariafall vid diskret tidsintervall t. och f och l är de första respektive sista diskreta tidsintervallen för den aktuella tidsperioden. MARE beräknades för både hela serien (förutom de första observationerna), när modellerna fanns på hela tidsserien (f 1, ln 408) och för andra halvan av tidsserierna (f 205, l 408) , när modellerna var monterade endast i den första halvan av tidsserierna. Eftersom de (bakre) prediktiva fördelningarna uppskattade vid varje monterad datapunkt skedde, togs medianen av den bakre fördelningen för. MARE motsvarar det genomsnittliga absoluta procentsatsfelet (MAPE), vilket är tillämpligt på serier för vilka variansen är beroende av medelvärdet 40. Eftersom nämnaren är lika med eller större än en, förhindrar detta problem med stora värden som orsakas genom att dividera med små siffror och en stor kritik av MAPE 5. MARE-statistiken har inte ett inbyggt straff för att förhindra övermontering, men bland modeller med liknande värde för MARE är modellen med det minsta antalet parametrar att föredra . MARE-uppskattningen är jämförbar över modeller med olika fördelningsförutsättningar, i motsats till DIC. Modeller kördes med tre Markov-kedjor med 11 000 iterationer vardera, inklusive en inbränning av 1000 iterationer. Konvergens bedömdes genom att studera diagram av Gelman-Rubin-konvergensstatistiken (på beräknade parametrar), modifierad av Brooks och Gelman 42. Restanalys Att veta om de valda modellerna och deras underliggande fördelningar passar variationen i data på ett adekvat sätt är av intresse. Om dessa modeller används för att förutsäga malariafall i ett diskret tidsintervall (i det här fallet en månad) är inte bara punktuppskattningen av den bakre prediktiva fördelningen av intresse, utan även hela fördelningen. Låt vara den kumulativa posterior predictive distribution funktionen av. Den övre halans restsannolikhet. d. v.s. värdet av den kumulativa bakre prediktiva fördelningen beräknad vid de observerade data. även kallad sannolikhetsintegraltransformationen, kan beräknas för varje månad. En kumulativ fördelningsfunktion för alla intressanta månader möjliggör analys av lämpligheten av modellen inklusive den antagna underliggande fördelningen. Om modellen passar uppgifterna på lämpligt sätt följer denna kumulativa fördelningsfunktion av restsannolikhetsvärden (C-R-plot) en ungefär rak diagonal linje mellan ursprung och punkt (1,1), som liknar ett sannolikhetsprov. Till exempel, när modellen passar på lämpligt sätt, har 50 av observationer ett associerat residual sannolikhetsvärde på 0,5. Mer detaljer om C-R-plot ges som stödinformation, se Ytterligare fil S3. Ett exempel ges också i den stödjande informationen där C-R-diagrammen används för att bedöma lämpligheten av modeller som är monterade i en tidsserie med en Poisson GARIMA (1,1,0) - struktur, se Ytterligare fil S4. Således beräknades för varje observation efter montering av en modell och erhållande av bakre fördelningar. På grund av det faktum att den kumulativa fördelningsfunktionen för de negativa binomialmodellerna är diskret randomiserades det resterande sannolikhetsvärdet genom att dra ett slumpmässigt värde från den enhetliga fördelningen i intervallet. efter ett förfarande av Dunn och Smyth 43. var uppskattades med 30 000 prover från denna fördelning. Denna procedur förespråkas av Benjamin och kollegor 16 för diskreta GARMA-modeller. Lämpligheten hos utvalda modeller jämfördes med hjälp av sammanfattningar av deras kumulativa fördelningsfunktioner av (randomiserade) restsannolikhetsvärden, både på hela malariagas tidsserien och i en period innefattande de senaste 50 observationerna, var falltal var relativt låga. Det är standard praxis att testa tidsseriemodellrester för återstående autokorrelation. Standardverktyg förutsätter emellertid ungefär gussisk distribuerad data. Därför omvandlades de randomiserade restsannolikhetsvärdena till normaliserade randomiserade kvantila rester,. med hjälp av kvantilfunktionen (invers kumulativ fördelningsfunktion) för normalfördelningen med nollvärde för medelvärde och enhetlighet. Före omvandling sattes randomiserade restsannolikhetsvärden på noll (när alla 30 000 prover från den bakre prediktiva fördelningsfunktionen var över det observerade värdet) satt till 0.00001 och randomiserade restsannolikhetsvärden av en (när alla 30 000 proverna från den bakre prediktiva fördelningsfunktionen var under det observerade värdet) sattes till 0,99999. De normaliserade randomiserade kvantila residualerna analyserades för återstående autokorrelation med Ljung-Box-testet 44 och visuell analys av autokorrelation och partiella autokorrelationsfunktioner. Resultat och diskussion I syfte att identifiera Gaussian SARIMA-modell identifierades en Box-Cox-omvandling genom att passa till tidsserierna för malariakassetträkning. De utrustade Box-Cox-parametrarna var en kraft av 0,249 och, med tanke på att serien innehöll observationer med nolltal, tillsattes en konstant på 0,0251 till varje observation före transformation. Som observerats för den ursprungliga serien var förekomsten av långsiktig förändring i medelvärdet uppenbar i den transformerade tidsserien (Figur S1). Trots att förändringarna i medelvärdet potentiellt kunde relateras till malariastyrningsinsatser, betraktades inte utvecklingen av parasit och vektorresistens etc. Sådana kovariata data här. Det utvidgade Dickey Fuller-testet stödde närvaron av en unit-root (p 0.14) i Box-Cox-transformerade serien och serien var differentierad. Plottar av automatisk korrelationsfunktion (ACF) (Figur S2) och partiell automatisk korrelationsfunktion (PACF) (Figur S3) av de olika serierna visade signifikant (partiell) auto korrelation vid lags av tre och tolv månader. Baserat på den preliminära analysen av Box-Cox-omvandlade serien valdes fyra gaussiska SARIMA-modeller och två gaussiska ARIMA-modeller med andra ordningsharmoniker (SOH), baserat på AIC (tabell 1). ARIMA-SOH-modeller hade den lägre (bättre) AIC jämfört med SARIMA-modellerna. ARIMA-SOH-modeller inklusive regn som kovariat hade en något lägre AIC än ARIMA-SOH-modeller utan regn. För SARIMA-modellerna var emellertid invers sant. Tabell 3. Parameteruppskattningar (medelvärde och 95 trovärdigt intervall) för utvalda negativa binomialmodeller. Trots att modellen hade en högre (sämre) DIC än modellen var provet MARE av modellen 5,7 procent bättre än modellen MARE av modellen och krävde mindre än hälften av antalet monterade parametrar. Detta indikerar att modellen förmodligen överfogade data, som beskriver det slumpmässiga felet istället för den underliggande processen. Modellen valdes för vidare analys. Figur 2 illustrerar bakre prediktiva fördelningar under de senaste 12 månaderna av serien med modellen och de av en (bayesisk) gaussmodell på Box-Cox-transformerade data, när de är anpassade till hela datasatsen. Skillnader i de bakre prediktiva fördelningarna mellan de två modellerna är uppenbara med de gaussiska modellens prediktiva fördelningar med längre högra svansar. Figur 2. Posterior predictive distributioner för de senaste 12 månaderna av Gampaha malaria fallräkning serien. I varje panel, som representerar var en månad i serien i det sista året, är de svarta och röda linjerna kontureringshistogrammet för densiteten av den bakre prediktiva fördelningen av den negativa binomialmodellen och en (bayesisk) gaussisk modell på Box-Cox transformerade data. Modellerna fanns på hela datasatsen. I varje panel representeras det observerade falltalet av en blå punkt. C-R-diagrammet för den negativa binomialmodellpassningen jämfördes med den för en (Bayesian) Gaussian på Box-Cox-transformerad data i Figur 3. C-R-plot på hela serien (Figur 3A) är inte helt tillfredsställande för båda modellerna. För Gaussian. Den bakre prediktiva fördelningen verkar vara platykurtisk (för värden av rest sannolikhet under 0,5, det finns för få observationer, och för värden över 0,5 är det för många). För den negativa binomialmodellen hade, för randomiserade restsannolikhetsvärden under cirka 0,5, kumulativt färre observationer dessa värden än de posteriora densitetsfördelningarna hade angivit. I genomsnitt spridda delen av de bakre densitetsfördelningarna under medianen i genomsnitt för mycket till vänster. De lägre gränserna för distributionernas trovärdighetsintervaller var således i genomsnitt för låga. För värdena över 0,5 följde den kumulativa fördelningsfunktionen diagonalen. Figur 3B jämför båda modellerna för de senaste 50 månaderna av serien endast, där antalet månatliga fall var mindre än 35. För dessa låga tal var den negativa binomialmodellen mycket lämpligare. Figur 3. Kumulativ fördelningsfunktion av randomiserade kumulativa sannolikheter. Den svarta linjen representerar den kumulativa fördelningsfunktionen av slumpmässiga kumulativa sannolikheter för modellen på månatliga antal malariafall i Gampaha, Sri Lanka. Den röda linjen representerar den kumulativa fördelningsfunktionen av randomiserade restsannolikheter för den gaussiska modellen på Box-Cox-transformerade data. Den ljusgrå diagonala linjen (kumulativ fördelning är lika med slumpmässig sannolikhet) representerar i genomsnitt lämpliga prediktiva fördelningar. Stipade linjer representerar 95 konfidensgränser för proportioner lika med sannolikhet. A. för de senaste 392 månaderna i serien. B. för de senaste femtio månaderna i serien. Figur 4 visar den normala Q-Q-plot för de normaliserade randomiserade kvantilterna av modellen, för vilken fördelningen är något leptokurtisk. En plot av dessa normaliserade randomiserade kvantila rester mot tid (Figur S4) framträder en slumpmässig scatter vid första anblicken, men vid närmare kontroll uppträder extrema rester i perioder med starkare relativa förändringar. Detta beror på att resterna,. är positivt korrelerade med en relativ förändring i malariafall, med linjär regressionslinje. (Figur 5). Figur 4. Normal Q-Q-plot av normaliserade randomiserade kvantila rester av den valda modellen. Figur 5. Plot av normaliserade randomiserade kvantilterester av modellen mot logaritmen för relativ förändring. Månadsvisa malariagrupptäkter omvandlades logaritmiskt efter tillsats av en. Sedan för varje månad togs skillnaden mellan det här värdet och värdet för föregående månad. Diagonalen är den utrustade regressionslinjen. Det faktum att denna linje inte går genom ursprunget men har en positiv (liten men signifikant plt0.05) positiv avlyssning är en annan indikation på att de bakre fördelningarna i genomsnitt har för mycket massa till vänster och därför överskattar i genomsnitt rester. Figure 6 shows a plot of the autocorrelation function of the normalized randomized quantile residuals of the model. There is no indication of significant autocorrelation in the residuals, which was confirmed by the Ljung-Box test 44. The Ljung-Box statistic was 19.8 based on 24 lags, which was not significant (p 0.65) because the quantile corresponding to the 95 th percentile of a chi-squared distribution with 23 degrees freedom (24 degrees minus one fitted ARMA parameter) is 35.17. The Ljung-Box test is valid under these mild conditions of non-normality, although for stronger non-normality, the Ljung-Box test is not robust and tends to reject the null hypothesis of no autocorrelation too quickly 45 . Figure 6. Plot of the autocorrelation function of normalized randomized quantile residuals of the selected model. Conclusions To model a series of monthly counts of new malaria episodes in a district in Sri Lanka, GSARIMA models and GARIMA models with a deterministic seasonality component were developed. GSARIMA and GARIMA models are an extension of the class of GARMA models 16. and are suitable for parsimonious modelling of non-stationary seasonal time series of (over dispersed) count data with negative binomial conditional distribution. Models were presented with a choice of identity link function or logarithmic link function, and for the latter models, with a choice between two transformation methods to deal with zero value observations and using a threshold parameter. When a count time series has many observations of zero, both transformation methods and several threshold parameters should be explored in order to find the best fitting model. Bayesian GSARIMA and GARIMA models were applied to malaria case count time series data from Gampaha District in Sri Lanka. Both a GSARIMA and a GARIMA model with a deterministic seasonality component were selected, based on different criteria. The GARIMA model with deterministic seasonality showed a lower DIC, but the GSARIMA model had a lower mean absolute relative error on out of sample data, and needed fewer parameters. Bayesian modelling allowed for analysis of the posterior predictive distributions. The performance of the selected negative binomial model was compared with that of a Gaussian version of the model on Box-Cox transformed data. These distributions did not perfectly mirror the distribution of the residuals for either model. This is possibly an indication that the assumptions about the underlying distributions were not entirely appropriate for either case. However, analysis of the residuals showed that the posterior predictive distributions were much better for the negative binomial GSARIMA model than for its Gaussian version on transformed data when counts were low. Both models could account for autocorrelation in the data, but the negative binomial model had an 8 better MARE than the Gaussian version on transformed data (0.388 vs 0.423). The fact that the cumulative distribution functions do not perfectly match the diagonal in Figure 3A indicates that there is room for improvement, through modelling a more complex autocorrelation structure ( e. g. through time varying SARIMA parameters) and through the inclusion of covariates. It is also possible that assuming an underlying negative binomial distribution is not entirely appropriate. In the latter case, the DIC, which was based on this assumption, has less value than the MARE for comparison between models. Apart from the fact that the MARE does not depend on the assumption of a true underlying distribution, it is easier to for malaria control staff to interpret. G(S)ARIMA models may be particularly useful in the drive towards malaria elimination, but could also be applied to other fields. Although building and fitting Bayesian GSARIMA models is laborious, they may provide more realistic prediction distributions for time series of counts than do Gaussian methods on transformed data, especially when counts are low. Supporting Information8.5 Non-seasonal ARIMA models If we combine differencing with autoregression and a moving average model, we obtain a non-seasonal ARIMA model. ARIMA is an acronym for AutoRegressive Integrated Moving Average model (integration in this context is the reverse of differencing). The full model can be written as where y is the differenced series (it may have been differenced more than once). The predictors on the right hand side include both lagged values of yt and lagged errors. We call this an ARIMA(p, d, q) model . where p order of the autoregressive part d degree of first differencing involved q order of the moving average part. The same stationarity and invertibility conditions that are used for autoregressive and moving average models apply to this ARIMA model. Once we start combining components in this way to form more complicated models, it is much easier to work with the backshift notation. Then equation (ref ) can be written as begin (1-phi1B - cdots - phip Bp) amp (1-B)d y amp ampc (1 theta1 B cdots thetaq Bq)et uparrow amp uparrow amp ampuparrow text amp text amp amptext end Selecting appropriate values for p, d and q can be difficult. The auto. arima() function in R will do it for you automatically. Later in this chapter, we will learn how the function works, and some methods for choosing these values yourself. Many of the models we have already discussed are special cases of the ARIMA model as shown in the following table. plot 40 forecast 40 fit, h 10 41,include 80 41 Understanding ARIMA models The auto. arima() function is very useful, but anything automated can be a little dangerous, and it is worth understanding something of the behaviour of the models even when you rely on an automatic procedure to choose the model for you. The constant c has an important effect on the long-term forecasts obtained from these models. If c0 and d0, the long-term forecasts will go to zero. If c0 and d1, the long-term forecasts will go to a non-zero constant. If c0 and d2, the long-term forecasts will follow a straight line. If cne0 and d0, the long-term forecasts will go to the mean of the data. If cne0 and d1, the long-term forecasts will follow a straight line. If cne0 and d2, the long-term forecasts will follow a quadratic trend. The value of d also has an effect on the prediction intervals the higher the value of d, the more rapidly the prediction intervals increase in size. For d0, the long-term forecast standard deviation will go to the standard deviation of the historical data, so the prediction intervals will all be essentially the same. This behaviour is seen in Figure 8.8 where d0 and cne 0. In this figure, the prediction intervals are the same for the last few forecast horizons, and the point forecasts are equal to the mean of the data. The value of p is important if the data show cycles. To obtain cyclic forecasts, it is necessary to have pge2 along with some additional conditions on the parameters. For an AR(2) model, cyclic behaviour occurs if phi124phi2lt0. In that case, the average period of the cycles is 1 frac (-phi1(1-phi2)(4phi2)). ACF and PACF plots It is usually not possible to tell, simply from a time plot, what values of p and q are appropriate for the data. However, it is sometimes possible to use the ACF plot, and the closely related PACF plot, to determine appropriate values for p and q. Recall that an ACF plot shows the autocorrelations which measure the relationship between yt and y for different values of k. Now if yt and y are correlated, then y and y must also be correlated. But then yt and y might be correlated, simply because they are both connected to y , rather than because of any new information contained in y that could be used in forecasting yt. To overcome this problem, we can use partial autocorrelations . These measure the between y and y after removing the effects of other time lags -- 1, 2, 3, dots, k - 1. So the first partial autocorrelation is identical to the first autocorrelation, because there is nothing between them to remove. The partial autocorrelations for lags 2, 3 and greater are calculated as follows: Varying the number of terms on the right hand side of this autoregression model gives alphak for different values of k. (In practice, there are more efficient algorithms for computing alphak than fitting all these autoregressions, but they give the same results.) Figure 8.9 shows the ACF and PACF plots for the US consumption data shown in Figure 8.7. The partial autocorrelations have the same critical values of pm 1.96sqrt as for ordinary autocorrelations, and these are typically shown on the plot as in Figure 8.9. Figure 8.9: ACF and PACF of quarterly percentage change in US consumption. A convenient way to produce a time plot, ACF plot and PACF plot in one command is to use the tsdisplay function in R. par 40 mfrow c 40 1. 2 41 41 Acf 40 usconsumption 91. 1 93,main quotquot 41 Pacf 40 usconsumption 91. 1 93,main quotquot 41 If the data are from an ARIMA(p, d,0) or ARIMA(0,d, q) model, then the ACF and PACF plots can be helpful in determining the value of p or q. If both p and q are positive, then the plots do not help in finding suitable values of p and q. The data may follow an ARIMA(p, d,0) model if the ACF and PACF plots of the differenced data show the following patterns: the ACF is exponentially decaying or sinusoidal there is a significant spike at lag p in PACF, but none beyond lag p. The data may follow an ARIMA(0,d, q) model if the ACF and PACF plots of the differenced data show the following patterns: the PACF is exponentially decaying or sinusoidal there is a significant spike at lag q in ACF, but none beyond lag q. In Figure 8.9, we see that there are three spikes in the ACF and then no significant spikes thereafter (apart from one just outside the bounds at lag 14). In the PACF, there are three spikes decreasing with the lag, and then no significant spikes thereafter (apart from one just outside the bounds at lag 8). We can ignore one significant spike in each plot if it is just outside the limits, and not in the first few lags. After all, the probability of a spike being significant by chance is about one in twenty, and we are plotting 21 spikes in each plot. The pattern in the first three spikes is what we would expect from an ARIMA(0,0,3) as the PACF tends to decay exponentially. So in this case, the ACF and PACF lead us to the same model as was obtained using the automatic procedure. arc cos is the inverse cosine function. You should be able to find it on your calculator. It may be labelled acos or cos .1608617
No comments:
Post a Comment