Mittwoch, 28. Februar 2018

Luftbelastung mit NOx: Nur noch der smarte Umgang mit Big Data wird helfen können

Das digitale Zeitalter hat neue Möglichkeiten für eine datengetriebene Forschung eröffnet. So ist etwa die gerade sehr aktuelle Überwachung der Luftverschmutzung und der Belastung unserer Innenstädte mit NOx mit dem Aufkommen gewaltiger Datenmengen verbunden, zu deren Bewältigung statistische Auswertungsmethoden herangezogen werden müssen. Eine aktuelle Studie von Forschern aus Deutschland (Münster) und Spanien diskutiert diese Big-Data-Herausforderungen im Umweltmonitoring und reflektiert den Einsatz statistischer Methoden zur Bewältigung dieser Herausforderungen zur Verbesserung der Lebensqualität in Städten. Dabei favorisieren sie die Kombination der beiden Auswertungs- und Erfassungsverfahren "Land Use Regression (LUR)" und "Spatial Simulated Annealing (SSA)".

Lebensqualität (QoL) ist an die Wahrnehmung von "Bedeutung" gebunden. Das Streben nach Sinn steht im Mittelpunkt des menschlichen Daseins, und wir werden mit einem Gefühl der Bedeutung in Berührung gebracht, wenn wir darüber nachdenken, was wir als Vermächtnis erschaffen, geliebt, geglaubt oder hinterlassen haben (Barcaccia, 2013). QoL ist mit mehrdimensionalen Problemen und Merkmalen wie Umweltbelastung, Gesamtwassermanagement, Gesamtabfallmanagement, Lärm und Luftverschmutzung verbunden (Eusuf et al., 2014). Um all diese Dimensionen zu verstehen, wird eine erhebliche Menge an Daten benötigt. Dieses Wissen ist notwendig, um die Vision einer "smarten" City zu verwirklichen, die den Einsatz datengestützter Ansätze zur Verbesserung der Lebensqualität der Bewohner und der städtischen Infrastrukturen beinhaltet (Degbelo et al., 2016).

PROF. DR. EDZER PEBESMA
Technologien wie die Radio Frequency Identification (RFID) oder das Internet der Dinge (IoT) produzieren eine große Menge an Daten. Kohet al. (2015) wiesen darauf hin, dass täglich rund 2,5 Trillionen Bytes an Daten generiert werden, davon 90 Prozent der Daten weltweit allein in den letzten zwei Jahren. Die Verwaltung dieser großen Datenmenge und ihre effiziente Analyse können dazu beitragen, fundiertere Entscheidungen zu treffen und gleichzeitig viele der gesellschaftlichen Herausforderungen zu bewältigen (z. B. Expositionsanalyse, Katastrophenvorsorge, Klimawandel). Wie in Goodchild (2016) diskutiert, lässt sich die Attraktivität von Big Data in einem Wort zusammenfassen, nämlich der räumlichen Vorhersage – der Vorhersage des Wo und Wann.

Dieser Artikel konzentriert sich auf die im Englischen 5Vs von Big Data (Volumen, Geschwindigkeit, Vielfalt, Wert, Wahrhaftigkeit). Die Herausforderungen im Zusammenhang mit Big Data im Kontext der Umweltüberwachung auf Stadtebene werden in Abschnitt 2 kurz dargestellt. Abschnitt 3 diskutiert die Verwendung statistischer Methoden wie Land Use Regression (LUR) und Spatial Simulated Annealing (SSA) als zwei vielversprechende Möglichkeiten, die Herausforderungen von Big Data anzugehen.

Umweltüberwachung und Big-Data-Herausforderungen

Angesichts der steigenden Zahl von Menschen, die sich in (und zu) städtischen Gebieten bewegen, muss dringend geprüft werden, was diese steigende Zahl für die Umwelt und die Lebensqualität in den Städten bedeutet. Die Luftqualität wirkt sich auf die Lebensqualität der Bevölkerung aus (Darçın, 2014), die auch der größte Umweltrisikofaktor für die menschliche Gesundheit ist. Im Jahr 2012 könnte einer von acht Todesfällen gemäß der Weltgesundheitsorganisation der Luftverschmutzung zugeschrieben werden. Die Luftqualität hat aufgrund ihrer sehr komplexen Verteilung, der Struktur der Stadt und der Dispersionsprozesse eine hohe Schwankungsbreite. Institutionen wie die Europäische Umweltagentur haben Karten der Luftqualität für ganz Europa erstellt. Diese Karten haben aber zwei Nachteile: Erstens ist ihre räumliche Auflösung zu grob (dh sie sind normalerweise für die Mitgliederebene verfügbar) und zweitens geben sie keine Echtzeitdarstellung der Situation wieder. Projekte wie der World Air Quality Index bieten zwar **Echtzeit**-Luftqualitätskarten (siehe http://aqicn.org/ ), haben aber wiederum eine relativ grobe räumliche Auflösung.

Daten für Umwelt- und meteorologische Analysen sind nicht nur von erheblichem Volumen, sondern auch räumlich und zeitlich komplex. Formate und Arten von Daten sind ebenfalls sehr unterschiedlich (zB netCDF, GDB, CSV, GeoTIFF, Shapefile, JSON, etc.), und es gibt viele Verbindungen innerhalb von Daten, die es für traditionelle Datenanalyseverfahren kompliziert machen. Die Verschmelzung der Daten von offiziellen Überwachungsstationen mit Methoden wie IoT-basierten Crowd-Sourced-Datenquellen kann die Redundanz erhöhen und das Datenmanagement zu einer ernsthaften Herausforderung machen. Anhand dieses Beispiels können Herausforderungen im Zusammenhang mit Big Data veranschaulicht werden als:

  • Volumen: Das große Datenvolumen wird durch das Verschmelzen von Daten von Überwachungsstationen mit Crowdsourcing-Sensoren induziert, die weiter mit signifikanten Umweltdaten, Stadtdynamikdaten und anderen Parametern wie städtischen Landnutzungsinformationen verbunden werden können. Die Datengröße für einige Variablen variiert von MB bis TB (z. B. liegt eine einzelne Datei für atmosphärische Daten bei etwa 2 GB für einen einzelnen Punkt von Interesse). Die Handhabung dieser Datenmenge erfordert eine ordnungsgemäße Planung. Andernfalls kann die Analyse aufgrund der Mischung redundanter oder weniger relevanter Daten länger dauern.
  • Geschwindigkeit: Die Geschwindigkeit, mit der die Daten von Überwachungsstationen, hinzugefügten Sensoren und anderen Datenquellen erstellt, erfasst, extrahiert, verarbeitet und gespeichert werden, muss ebenfalls angemessen behandelt werden. Statistische Probleme ergeben sich aus der Verschmelzung verschiedener Datenquellenströme auf verschiedenen raumzeitlichen Skalen. Verzögerungen beim Datenabruf von Remote-Speichergeräten oder geografische Einschränkungen können sich ebenfalls auf den Prozess auswirken. Geschwindigkeit ist ein entscheidendes Merkmal, das die Art von Ergebnissen definiert, die wir aus den Datenquellen entwickeln können.
  • Vielfalt: Umweltdaten liegen in verschiedenen Formaten vor (z. B. NetCDF-Dateien für Umweltvariablen, GeoTIFF-Dateien für Landnutzung, Stadtformulare für Straßennetze und Verkehrsstaus), die Heterogenitätsherausforderungen darstellen, Entitätsauflösungsprobleme durch Zusammenführen von Daten aus verschiedenen Daten-Quellen und Interaktionsprobleme zwischen Big Data und Datenanwendungen.
  • Wahrheitsgehalt: Mit der Vielfalt der Daten, die in die Analyse einfließen, steigt auch das Maß an Unsicherheit. Die von der Analyse erwarteten Ergebnisse können durch einige Offsets und Ursprungsfehler von Datenquellen beeinflusst werden. Um die Datenwahrheit aufrecht zu erhalten, wird manchmal empfohlen, verrauschte Quellen zu verwerfen und nur zuverlässige Quellen einzubeziehen. Das Ignorieren einiger Datenpunkte kann jedoch dazu führen, dass einige Luftqualitätsmuster in der Stadt fehlen.
  • Wert: Eine große Datenmenge ist nutzlos, bis sie in einen Wert umgewandelt wird. Für die Luftqualität kann der Wert als die Gewinnung von Intelligenz zur Verbesserung der Lebensqualität in der Stadt durch die Entwicklung von Anwendungen betrachtet werden, die den Stadtbewohnern helfen, sich ihrer Luftqualität bewusst zu werden. Probleme wie der ineffiziente Umgang mit großen Datenmengen, die Unfähigkeit, rechtzeitig Qualitätsergebnisse zu liefern, der Engpass bei der gemeinsamen Nutzung verarbeiteter Daten und die hohen Rechenkosten der Big-Data-Verarbeitung behindern jedoch die Bereitstellung effizienter, einfacher Ergebnisse für die öffentliche Nutzung.
 

Statistik und Umweltüberwachung

Wie Scott (2017) sagte, bleiben Statistiken unabhängig von der "Größe" der Daten von großer Relevanz. Es bietet die Grundlage, um Daten unter Berücksichtigung der inhärenten Unsicherheiten verständlich zu machen. Die statistische Analyse umfasst die Entwicklung von Datenerhebungsverfahren, um die verschiedenen Datenquellen weiter zu behandeln und um formale Modelle für die Analyse und Vorhersage vorzuschlagen. Es gibt eine Reihe statistischer Methoden, die von anspruchsvollen Datenanforderungen (z. B. Dispersionsmodelle) bis hin zu einfachen Inferenzmodellen (z. B. näherungsbasierte Modelle) zur Vorhersage der Luftqualität reichen. Jede der Methoden hat ihre spezifischen Daten- und Rechenanforderungen. Einige Methoden können aufgrund der damit verbundenen Kosten, Zeit und Ressourcen nicht immer implementiert werden. Bemerkenswerte Luftqualitätsmodellierungsmethoden, wie z. B. Ausbreitungsmodelle, sind sehr anspruchsvoll und erfordern einen tiefen Einblick in die chemischen und physikalischen Annahmen des Schadstoffs sowie Schadstoffmessstellen in der Stadt mit einer sehr feinen raumzeitlichen Auflösung. Der Niedergang dieser Methoden umfasst auch die Kosten der für die Studie benötigten Daten mit strittigen Annahmen über das Dispersionsmuster (dh Gaußsche Dispersion) und eine umfangreiche Kreuzvalidierung mit Überwachungsstationsdaten (Jerrett et al., 2005). Die nächsten Unterabschnitte heben das Potenzial der Landnutzungsregression und des räumlichen Simulationsglühens hervor, um sowohl Big Data-Herausforderungen als auch Unzulänglichkeiten früherer Arbeiten anzugehen.

Landnutzungsregression (LUR)

Die Landnutzungsregression erfordert einfache geografische Variablen zur Vorhersage von Umweltfaktoren wie Luftverschmutzung oder Lärmbelastung in der Stadt. Es ist eine der Standardmethoden, die von Epidemiologen und Gesundheitsforschern für die Expositionsanalyse verwendet wird. LUR hilft dabei, die Einschränkungen bei der Entwicklung der Modelle zu durchbrechen und bietet gleichzeitig die Flexibilität, bereits verfügbare Datenquellen zu nutzen. In Bezug auf die Leistung haben LUR-Modelle geostatistische Methoden übertroffen und können gleich oder manchmal besser als Dispersionsmodelle funktionieren (Gulliver et al., 2011). Mit LUR können Forscher individuelle Expositionen aus statistischen Modellen schätzen, die die Vorhersagekraft mehrerer Surrogate basierend auf ihrer Beziehung zu gemessenen Konzentrationen kombinieren.

  • Vorteile. Der Vorteil des LUR-Ansatzes besteht in der Flexibilität, mehr theoretisches Wissen über den Prozess der räumlichen und räumlich-zeitlichen Variation zu integrieren. Auf diese Weise können die Herausforderungen aufgrund der Hinzufügung neuer Daten (z. B. IoT-Daten) mit der kontextbasierten Variablenauswahl gehandhabt werden. Dies schränkt die Menge an Eingaben in der Analyse ein und kann daher bei der Bewältigung der Herausforderungen in Bezug auf Volumen, Vielfalt, Wahrhaftigkeit und Geschwindigkeitsdaten helfen. Der Vorteil von LUR ist auch seine Fähigkeit, Modelle in räumlichen Rasterumgebungen zu betreiben, was eine schnelle Berechnung ermöglicht. Daher kann es bei Herausforderungen im Zusammenhang mit dem Wertaspekt der Big Data-Analyse helfen. Ein weiterer großer Vorteil des LUR-Modells gegenüber Dispersions- und Interpolationsmodellen ist die räumliche Skalierung auf Stadtebene. LUR-Modelle sind besser in der Lage, Hot-Spots in Städten zu beschreiben, im Gegensatz zu den oben genannten Methoden, die glattere Konzentrations-Maps bieten (Marshall et al., 2008).
  • Nachteile. Im Vergleich zu Dispersionsmodellen erfordert die LUR-Methode weniger detaillierte Eingabedaten auf Kosten der Notwendigkeit, Überwachungsdaten für eine ausreichend große Anzahl von Standorten zu erhalten. Darüber hinaus haben LUR-Modelle eine begrenzte Fähigkeit, die Auswirkungen einiger Schadstoffe zu trennen, da sie kollinear zueinander sind, was auch bei anderen Expositionsuntersuchungsmethoden der Fall ist. LUR-Methoden können von einer systematischeren Auswahl und Beschreibung von Raum-Zeit-Attributen von Überwachungsorten profitieren.
Um zuverlässige Modelle für Big Data zu erstellen, muss der Stichprobenprozess in Richtung Standorte und Zeitpunkte verstärkt werden, um die Vorhersagbarkeit zu verbessern. Die Zuverlässigkeit von Methoden hängt immer von der Qualität der Eingabedaten ab. Die Auswahl von Überwachungsstandorten zur Entwicklung der Luftqualitätsmodelle wurde als einer der Faktoren identifiziert, die die Qualität der Modelle beeinflussen. Es fehlt uns noch an rigorosen Methoden, um die Anzahl und Verteilung von Überwachungsstellen zu bestimmen (Hoek et al., 2008) . Die Verwendung einer großen Anzahl von Überwachungsstandorten zur Erstellung eines Modells verbessert seine Fähigkeit, die Schadstoffe zu schätzen. Die Vorhersagekraft der Modelle kann jedoch durch eine bestimmte Anzahl und spezifische Verteilung der Überwachungsstationen verbessert werden. Die Auswahl optimaler Positionen kann dabei helfen, die Datenredundanz zu minimieren und die Rechenzeit zu verlängern. Zur Optimierung des Stichprobenprozesses existieren verschiedene statistische Methoden. Hier diskutieren wir die Methode namens Spatial Simulated Annealing (SSA) zur Optimierung eines Luftqualitätsüberwachungsnetzes.

Räumliches Simulated Annealing zur Optimierung des Monitoring-Netzwerks

Das Anordnen von Sensoren an bestimmten Orten sollte häufig mehrere Zwecke erfüllen, und diese können durch Kombinieren der jeweiligen Kostenfunktionen erreicht werden. Indem wir die Kostenfunktion definieren, versuchen wir, jeden Sensor in seinen Nachbarschaftszellen / -stellen zu bewegen und die besten Stellen zu finden, an denen eine Kostenfunktion erreicht werden kann, so dass der Zweck das Platzierens des Sensors wert ist. SSA berücksichtigt die räumliche Nachbarschaft, um räumliche Stichprobenschemata basierend auf einer definierten Kostenfunktion zu optimieren. Während des Prozesses verringern sich sowohl die Größe der Bewegung von Sensoren um das spezifizierte interessierende Gebiet als auch die Wahrscheinlichkeit, den schlechtesten Ergebnissen zuzustimmen, mit einer abnehmenden Glühtemperatur. Mit diesem Ansatz können wir die Datenmenge reduzieren, die für die Durchführung der Analyse mit optimalen Ergebnissen benötigt wird.

Neuere Arbeiten zur Optimierung der räumlichen Stichprobenkonfiguration unter Verwendung von SSA, die auf folgende Ziele ausgerichtet sind: (a) konditionierte Latin Hyper Cube Sampling (Roudier et al., 2012) ; (b) Variogrammidentifikation und -schätzung unter Verwendung von Einschränkungen wie Paare, die zu jeder Verzögerungsklasse beitragen (Truong et al., 2013) ; (c) räumliche Interpolation unter Verwendung von Randbedingungen wie Minimierung der Kriging-Varianz in einer Raum-Zeit-Einstellung (Delmelle, 2014)

  • Vorteile. SSA ermöglicht die Spezifikation verschiedener Arten von Optimierungszielen während der räumlichen Analyse. Sobald das Ziel festgelegt ist, können wir das Interessensgebiet zusammen mit dem geostatistischen Kriterium begrenzen, dh wir vergrößern unsere Forschungsziele in einer bestimmten räumlichen Nähe für ein vorgeschlagenes Ergebnis. Diese Methode kann das Gewicht des Bereichs berücksichtigen, über den wir mehr Wissen sammeln möchten. Indem wir den Bereich begrenzen und kontextsensitive Ziele in Standortauswahlprozesse integrieren, begrenzen wir auch die Erstellung einer großen Menge nicht essenzieller Daten und helfen so, die oben genannten Big-Data-Herausforderungen zu bewältigen.
  • Nachteile. Basierend auf der Konvergenzanalyse werden verschiedene Formen von Temperaturaktualisierungsfunktionen bezüglich verschiedener Arten von verwendeten Wahrscheinlichkeitsdichtefunktionen befolgt. Die Konvergenz des Objektivs unter Verwendung von SSA hängt von der Eingabe geeigneter Bedingungen für sowohl die Wahrscheinlichkeitsdichtefunktion als auch die Temperaturaktualisierungsfunktion ab. Die Berechnung dieser Eingaben für SSA kann zeitaufwändig sein und erfordert praktische Erfahrung. Je nach Ziel und Größe eines Gebietes ist die Verarbeitung des Algorithmus zeitweise auch zeitaufwendig. Zeitaufwändige Prozesse werden sich jedoch in einer späteren Phase auszahlen, da sie bei der Auswahl der möglichen besten Standorte für die Datenerfassung helfen und somit den Gesamtablauf der Analyse verbessern. Tabelle 1 fasst die wichtigsten Punkte der kombinierten Nutzung der beiden Methoden zusammen, die zuvor zur Bewältigung der Herausforderungen von Big Data für das Umweltmonitoring diskutiert wurden.
 

Schlussfolgerung

In diesem Papier haben wir uns auf die Rolle der Statistik bei der Behandlung der fünf Big Data und die damit verbundenen Herausforderungen konzentriert. Big-Data-Analysen erfordern andere Methoden als traditionelle statistische Ansätze, die eine effiziente Computerverarbeitung und zeitnahe Ergebnisse für die effiziente Nutzung von Daten ermöglichen. Wir schlagen vor, zwei gut etablierte statistische Methoden zu kombinieren, um die Auswahl von Variablen und Orten für die räumliche und zeitliche Analyse von Umweltdatenquellen zu optimieren. Die kombinierte Verwendung beider Methoden wird helfen, Datenerfassungsprozesse so zu gestalten, dass die maximale Information bei einer bestimmten Anzahl von möglichen Messstellen extrahiert werden kann. Die Begrenzung der Datenquellen kann die Geschwindigkeit der Analyse erhöhen. Das zentrale Highlight bei der Integration von LUR und SSA ist es, Prozesse wie die Überwachung der Luftqualität flexibel zu gestalten, da LUR begrenzte, aber zugängliche Datenquellen berücksichtigen kann. Wir müssen jedoch einige entscheidende Aspekte berücksichtigen. Zunächst sollten die Variablen sorgfältig ausgewählt und in den Modellen korrekt verwendet werden. Zweitens basiert das Design der SSA-basierten Optimierung auf der Qualität der Eingabe von der LUR, um diese Bereiche für die Kostenfunktion, die wir erreichen wollen, zu belasten. Es ist auch hilfreich, um die zeitliche Abhängigkeit der Luftqualität an einem Ort und die räumliche Korrelation zwischen anderen Orten zu reflektieren. Drittens benötigt SSA Eingaben über Wahrscheinlichkeitsverteilungen und Temperaturänderungsfunktionen, was ein kritischer Aspekt der optimalen Standortauswahl ist. Durch die Verwendung solcher statistischer Werkzeuge kann die Big-Data-Analyse unabhängig von der "Größe" effektiv sein. Statistiken sind seit Jahrhunderten ein wichtiger Bestandteil der Datenanalyse und werden in der Ära der Big Data von entscheidender Bedeutung sein.

Hier geht es zur Originalveröffentlichung

 

Keine Kommentare:

Kommentar veröffentlichen

Related Posts Plugin for WordPress, Blogger...