Hydrologische Position mehrerer Ordnungen für Europa – eine Reihe von Funktionen für maschinelles Lernen und Analyse in der Hydrologie

Blog

HeimHeim / Blog / Hydrologische Position mehrerer Ordnungen für Europa – eine Reihe von Funktionen für maschinelles Lernen und Analyse in der Hydrologie

Jun 22, 2024

Hydrologische Position mehrerer Ordnungen für Europa – eine Reihe von Funktionen für maschinelles Lernen und Analyse in der Hydrologie

Scientific Data Band 9, Artikelnummer: 662 (2022) Diesen Artikel zitieren 1083 Zugriffe auf 5 altmetrische Metrikdetails Der präsentierte Datensatz EU-MOHP v013.1.1 bietet mehrskalige Informationen zum

Scientific Data Band 9, Artikelnummer: 662 (2022) Diesen Artikel zitieren

1083 Zugriffe

5 Altmetrisch

Details zu den Metriken

Der vorgestellte Datensatz EU-MOHP v013.1.1 liefert multiskalige Informationen über die hydrologische Position (MOHP) eines geografischen Punktes innerhalb seines jeweiligen Flussnetzes und Einzugsgebiets als Rasterkarten. Genauer gesagt umfasst es die drei Maße „Divide to Stream Distance“ (DSD) als Summe der Abstände zum nächstgelegenen Bach und Einzugsgebiet, „Lateral Position“ (LP) als relatives Maß für die Position zwischen dem nächstgelegenen Bach und der Wasserscheide und „Stromentfernung“ (SD) als Entfernung zum nächsten Bach. Diese drei Maße werden für neun hydrologische Ordnungen berechnet, um unterschiedliche räumliche Skalen von lokal bis kontinental abzubilden. Seine räumliche Ausdehnung umfasst große Teile des Europäischen Wirtschaftsraums (EWR39), der auch weitgehend mit dem physiografischen Europa übereinstimmt. Obwohl es mehrere potenzielle Anwendungsfälle gibt, dient dieser Datensatz vor allem als wertvoller statischer Umweltdeskriptor oder Prädiktorvariable für hydrogeologische und hydrologische Modellierungen wie Kartierungen oder Prognoseaufgaben mithilfe maschinellen Lernens. Die Generierung dieses Datensatzes erfolgt ausschließlich mit kostenloser Open-Source-Software und kann daher auf andere Regionen oder Eingabedatensätze übertragen werden.

Messungen)

Aufteilung auf Bachabstand • seitliche Position • Bachabstand

Technologietyp(en)

Fernerkundung

Probeneigenschaft – Umgebung

Einzugsgebiet • Grundwassereinzugsgebiet • Einzugsgebiet

Probenmerkmal – Standort

Europa

In den letzten Jahren werden datenwissenschaftliche Werkzeuge wie maschinelles Lernen zunehmend auf hydro(ge)logische Herausforderungen und Forschungsfragen angewendet und speziell für diese entwickelt1,2. Im Bereich der Hydrogeologie wurde maschinelles Lernen erfolgreich zur Vorhersage des Grundwasserspiegels und für eine Vielzahl von Kartierungsaufgaben eingesetzt3,4,5,6,7,8,9,10,11,12,13. Da Machine-Learning-Modelle – mit Ausnahme von hybriden oder physikgesteuerten Modellen – rein auf Daten basieren, ohne dass Kenntnisse über physikalische Prozesse vorliegen, ist es wichtig, aussagekräftige Merkmale (auch Prädiktor- oder erklärende Variablen genannt) bereitzustellen, die die Zielvariable so beeinflussen dass der Algorithmus für maschinelles Lernen die Funktion zwischen Eingabe und Ziel modellieren kann. Für oberflächennahe und oberflächennahe Prozesse kann dieses Kriterium durch die Verfügbarkeit von Fernerkundungsdaten mehr oder weniger erfüllt werden, wohingegen dies für die Modellierung von Prozessen unter der Oberfläche, beispielsweise in der Hydrogeologie, eine große Herausforderung darstellt.

Die Hauptmotivation für diesen Datensatz besteht darin, diese Lücke teilweise zu schließen, indem eine Reihe von Funktionen bereitgestellt werden, die hydrologischen Kontext in Modelle für maschinelles Lernen hinsichtlich der horizontalen Position eines Punktes innerhalb seines Einzugsgebiets einführen. Die drei Maße – bestimmt durch diese horizontale Lage – werden für mehrere sogenannte hydrologische Ordnungen berechnet. Hydrologische Ordnungen repräsentieren unterschiedliche räumliche Skalen, von lokal über regional bis hin zu kontinental. Daher dienen die Messungen als Proxys für geophysikalische Eigenschaften hydrologischer Systeme auf mehreren Skalen und ergänzen allgemein verfügbare und verwendete Merkmale wie Landnutzung und Landbedeckung, geologische Karten oder Bodenkarten. Dieser Datensatz ist stark von Belitz et al.14 inspiriert und passt deren Ideen und Methoden an die „EU-Hydro – River Network Database“15 an, nutzt jedoch im Gegensatz dazu kostenlose Open-Source-Software und legt einen starken Fokus auf Reproduzierbarkeit. Dieses Konzept könnte räumlich weiter erweitert werden, indem die vorgestellten Methoden auf globale Flussnetzwerk- oder Hydrographendatensätze wie HYDRO1k16 oder MERIT Hydro-Vector17 angewendet werden. Für detailliertere Hintergrundinformationen zu Konzept und Methoden verweisen wir auf Belitz et al.14.

Belitz et al.14 liefern in ihrer Studie auch Ergebnisse aus Fallstudien, um zu belegen, dass die hydrologische Position mehrerer Ordnungen ein wertvolles Merkmal bei der Kartierung verschiedener geophysikalischer Zielvariablen mithilfe maschinellen Lernens ist. Sein Nutzen für die Leistung von Modellen des maschinellen Lernens wurde auch in mehreren anderen Studien anerkannt7,18,19.

Die Gitterkarten des EU-MOHP-Datensatzes20 spiegeln ein statisches geophysikalisches Attribut wider und können als Features für maschinelles Lernen oder allgemeine Modellierungsaufgaben im Bereich Hydrologie und Hydrogeologie verwendet werden. Wie in den Geowissenschaften allgemein üblich, ist „statisch“ im Sinne von zeitinvariant stark relativ, denn auch Flussnetze verändern sich im Laufe der Zeit, allerdings im Vergleich zu Grundwasserspiegelschwankungen eher langsam. Dieser Datensatz kann auf mehreren räumlichen Skalen angewendet werden – von lokalen über regionale bis hin zu kontinentalen Skalen. Beispiele für Anwendungsfälle können die Kartierung hydrogeochemischer Parameter oder hydraulischer Variablen, die Vorhersage von Grundwasserständen oder Aufgaben zur Klassifizierung von Einzugsgebieten mithilfe unüberwachter maschineller Lernmethoden sein. Es kann aber auch zur explorativen Datenanalyse eingesetzt werden.

Der EU-MOHP v013.1.1-Datensatz20 umfasst die drei Maßnahmen

Aufteilung in Stream-Distanz (DSD),

Seitenlage (LP) und

Stromentfernung (SD).

für jede hydrologische Ordnung. Daraus ergeben sich \({n}_{Maßnahmen}\cdot {n}_{hydrologische Ordnungen}=3\cdot 9=27\) verschiedene Metriken, die als Features verwendet werden können. Räumlich deckt der Datensatz große Teile des geografischen Europas und alle 39 Länder des Europäischen Wirtschaftsraums (EWR39) ab. Genauer gesagt umfasst es die zehn größten zusammenhängenden Landmassen des EWR39 (Abb. 1).

Räumliche Abdeckung des Datensatzes, die durch die Datenschicht des Untersuchungsgebiets bestimmt wird.

Konzeptionell basieren die drei Maßnahmen DSD, LP und SD von EU-MOHP20 auf der Idee, dass der Standort in den Wassersystemen eine Rolle spielt14. Ein Standort kann beispielsweise in der Nähe des Zusammenflusses zweier großer Flüsse oder im anderen Extremfall in der Nähe der Einzugsgebietsgrenze von Quellbächen liegen. Solche Standortunterschiede im hydrologischen Kontext enthalten wertvolle Informationen für Modelle, da sie einen Großteil der Dynamik des Systems bestimmen, z. B. Neuaufladung, Entladung, Schwankungen oder die zeitliche Verzögerung von Eingangssignalen wie meteorologischen Antrieben. Der Standort oder die hydrologische Position bezieht sich in diesem Fall auf die Position eines Punktes zwischen dem nächstgelegenen Fluss und seiner Einzugsgebietsgrenze. Thiessen-Wasserscheide werden aus verschiedenen praktischen Gründen als Einzugsgebietsgrenzen anstelle von Wasserscheiden verwendet, die aus digitalen Höhenmodellen (DEM) generiert werden, wie in Belitz et al.14 beschrieben. Weitere Einzelheiten zu Thiessen-Dividungen finden Sie im Abschnitt Methoden.

Basierend auf dem Flussnetz und der Thiessen-Wasserscheide werden die EU-MOHP20-Maßnahmen berechnet

Dabei ist DSi die Entfernung zum nächstgelegenen Bach, Küsten- oder Oberflächenwasserkörper der hydrologischen Ordnung i und DDi die Entfernung zum nächsten Teil der hydrologischen Ordnung i. Die Begriffe „Fluss“ und „Bach“ werden hier synonym verwendet, Bach bezieht sich jedoch eher auf die digitale Darstellung eines Flusses.

Diese drei Maße werden nicht nur für eine einzelne Skala berechnet, sondern durch den zweiten wichtigen Teil des Konzepts, die zuvor erwähnten hydrologischen Ordnungen, auf mehrere Skalen übertragen. Dies ist besonders wertvoll, da die Bedeutung der verschiedenen hydrologischen Prozesse vom Maßstab abhängt. Es ermöglicht daher sowohl Untersuchungen in unterschiedlichen Maßstäben als auch die Berücksichtigung unterschiedlicher Tiefen, da die Tiefe von Grundwasserfließwegen im Allgemeinen mit zunehmender hydrologischer Skala zunimmt. Die hydrologischen Ordnungen basieren auf den Fließgewässerordnungen des Flussnetzes. Für eine bestimmte hydrologische Ordnung i werden nur Bäche mit einer Gewässerordnung > = i verwendet, wohingegen solche mit einer Gewässerordnung

Schematische Darstellung von MOHP-Maßnahmen anhand zweier Beispiele für die hydrologischen Ordnungen 1 (a) und 2 (b). DS ist der horizontale Abstand zum nächsten Bach und DD ist der horizontale Abstand zur nächsten Thiessen-Wasserscheide unter der Bedingung, dass sich die Wasserscheide auf derselben Seite des Bachs befindet wie die Mitte der Rasterzelle (schwarzer Punkt).

Abbildung 3 zeigt das resultierende EU-MOHP v013.1.120 beispielhaft für die drei hydrologischen Ordnungen 3, 5 und 7 als Karten.

Resultierende Karten der drei EU-MOHP-Maße DSD (a), LP (b) und SD (c) in den Spalten beispielhaft für die drei hydrologischen Ordnungen 3 (1), 5 (2) und 7 (3) in den Zeilen . Beachten Sie, dass die Unterteilungen der gruppierten Farbskala auf Quantilen basieren.

Die Generierung dieses Datensatzes basiert auf zwei Datensätzen, zunächst der „EU-Hydro–River Network Database“ Version v01315 und der „EU-Hydro–Coastline“ Version v01322, mit dem Vorteil, dass die Datenabhängigkeiten gering sind. Aus diesen beiden Datensätzen wurden die vier Datenebenen (1) Flussnetz, (2) Oberflächengewässer, (3) Flusseinzugsgebiete/Untersuchungsgebiet und 4) Küstenlinie abgeleitet (siehe Tabelle 1). Aufgrund dieser relativ geringen Eingabedatenanforderungen ist es möglich, die vorgestellte Methodik mit nur geringem Aufwand auf andere Regionen oder Datensätze zu übertragen.

Die „EU-Hydro–River Network Database“15 sowie die „EU-Hydro–Coastline“22 wurden manuell von der Website des Copernicus - Land Monitoring Service heruntergeladen (siehe Abb. 4a). Die Flussnetzdaten sind in zwei GeoPackage-Dateien (.gpkg) für jedes der 35 großen Flusseinzugsgebiete in den 39 EWR-Ländern aufgeteilt, eine mit dem Benennungsschema „drainage_network__public_beta_v009.gpkg“ und die zweite mit „euhydro__v011.gpkg“. Die Küstenliniendaten werden in einer einzigen Shapefile-Datei (.shp) gespeichert (siehe Abb. 4b). Alle Dateien haben im entpackten Zustand eine Gesamtgröße von ca. 14 GB.

Ablauf der Datenverarbeitung in unterschiedlicher Software.

Die einzelne .shp-Datei mit der Küstenlinie hat eine Größe von 288 MB. Anweisungen zum Zugriff auf diese zugrunde liegenden Daten finden Sie in den Nutzungshinweisen.

Die Generierung des präsentierten Datensatzes erfordert mehrere rechenintensive Verarbeitungsschritte. Aus diesem Grund und um die Methoden reproduzierbarer und wartbarer zu machen, werden alle Verarbeitungsschritte von einer Verarbeitungspipeline in der Programmiersprache R unter Verwendung des Targets-Pakets ausgeführt und gesteuert (Abb. 4c)23,24. Diese Verarbeitungs- oder Zielpipeline kann als Programmierskript angesehen werden, das Änderungen im Quellcode und in den Daten verfolgt, mit dem großen Vorteil, dass sie Verarbeitungsschritte, die noch aktuell sind, überspringen und diejenigen, die aktualisiert werden müssen, erneut ausführen kann . Aufgrund des großen Speicherbedarfs für diesen Datensatz sowie aus Gründen der Rechengeschwindigkeit wird für bestimmte Verarbeitungsschritte von Vektordaten eine PostgreSQL-Datenbank mit der PostGIS-Erweiterung und für alle endgültigen rasterbasierten Berechnungen der Daten eine GRASS GIS-Datenbank verwendet EU-MOHP20-Metriken (Abb. 4d, e). Auch die Berechnungen in den Datenbanken werden von der Verarbeitungspipeline verfolgt und ausgeführt. Im Folgenden werden die relevanten Schritte der Methoden beschrieben. Für eine umfassende Beschreibung aller Details verweisen wir auf den Quellcode selbst (siehe Code-Verfügbarkeit).

Im Folgenden werden die wichtigsten Verarbeitungsschritte beschrieben. Diese Schritte sind Teil der zuvor beschriebenen Pipeline und werden als sogenannte Targets im Quellcode der Pipeline definiert. Um die Beschreibung zu vereinfachen, sind die Verarbeitungsschritte hier nach den zuvor genannten Datenschichten gruppiert.

Zuerst werden die Vorverarbeitungsschritte zum Definieren und Generieren des Untersuchungsgebiets beschrieben, da es für die Verarbeitung aller anderen Datenschichten erforderlich ist. Das Untersuchungsgebiet definiert auch die räumliche Abdeckung des Endprodukts. Für die Generierung des Untersuchungsgebiets wird der Layer *_eudem2_basins_h1* in der zuvor erwähnten GeoPackage-Datei mit dem Namensschema mit dem Suffix „drainage_network“ (siehe Tabelle 1) verwendet. Es enthält Polygongeometrien, die Teileinzugsgebiete der wichtigsten Flusseinzugsgebiete darstellen. Zunächst werden alle Polygongeometrien entfernt, die zu europäischen Überseegebieten wie den französischen Inseln in der Karibik gehören. Anschließend werden die verbleibenden Polygone zusammengeführt. Anschließend werden aus diesen Polygonen zusammenhängender Landmassen die zehn flächenmäßig größten Polygone als Untersuchungsgebiet ausgewählt.

Das Fluss- oder hydrografische Netzwerk basiert auf den Linienzuggeometrien aus dem Layer River_Net_l in der zuvor erwähnten GeoPackage-Datei mit dem Namensschema, das das Suffix „euhydro“ enthält (siehe Tabelle 1). Diese Datenschicht erfordert mehr Verarbeitungsschritte als die anderen drei Datenschichten. Zunächst werden bestimmte Leitungsstranggeometrien aus dem Flussnetz entfernt. Diese Linienzüge umfassen alle Geometrien, die in der Attributspalte dfdd als Kanal oder Graben kategorisiert sind, codiert mit den Werten BH020 für Kanal und BH030 für Graben25. Diese werden vor allem aus folgenden zwei Gründen entfernt: Erstens fehlen bei vielen Kanal- und Grabengeometrien Bachordnungswerte, die für die folgenden Bearbeitungsschritte benötigt werden, und zweitens wird davon ausgegangen, dass Kanäle häufig hydraulisch vom natürlichen Wassersystem abgekoppelt sind wegen ihrer undurchlässigen Seitenwände und Kanalsohle. Darüber hinaus ist die Gesamtbedeutung von Kanälen und Gräben gering, wenn man ihre Geometrieanzahl mit der Anzahl der Flussgeometrien vergleicht (Differenz von drei Größenordnungen). Darüber hinaus werden alle Linienzuggeometrien entfernt, die in der Attributspalte hyp mit den Werten 2 (intermittierend), 3 (ephemer) und 4 (trocken) als nicht mehrjährige Flüsse kategorisiert sind25. Nach dieser Filterung verbleiben mehr als 1,05 Millionen Geometrien. Anschließend werden fehlende und ungültige Stream-Order-Werte mit dem Wert 1 als erste Stream-Order unterstellt. Dadurch wird sichergestellt, dass verwandte Geometrien zumindest in der ersten hydrologischen Ordnung enthalten sind. Anschließend werden die Flussnetzgeometrien auf das Untersuchungsgebiet zugeschnitten.

Der nächste wesentliche Verarbeitungsschritt implementiert eine Methode zum Erhalten von Linienzuggeometrien, die die Hauptstämme der Flussnetze darstellen, wie im Supplementary von Belitz et. beschrieben. al. (2019). Ein Hauptstamm wird hier als der längste Weg vom Quellwasser zur nächst entfernten Flussmündung definiert (siehe Geometrien mit derselben levelpath_id in Abb. 5b). In Abb. 5b ist das Hauptkonzept schematisch dargestellt. In dieser Abbildung besteht ein Hauptstamm aus Linienzuggeometrien mit derselben levelpath_id. Belitz et al.14 nutzten die Spalte „LevelPathID“ in ihrem zugrunde liegenden NHDPlusV2-Flussnetzwerkdatensatz26,27. Da im Datensatz „EU-Hydro-River Network Database“15 keine vergleichbare Spalte vorhanden ist, ist deren Generierung ein erforderlicher Vorverarbeitungsschritt. Dieser Schritt ist besonders wichtig, wenn diese Methoden auf Flussnetzdaten angewendet werden, die keine geeigneten Spalten für die Generierung der Hauptdaten bereitstellen. Die Generierung dieser erforderlichen Spalte „levelpath_id“ für den Flussnetzwerkdatensatz15 umfasst die folgenden Schritte. Zunächst wird ein Flussnetz für jede hydrologische Ordnung separat abgeleitet, indem nur Geometrien mit einer Bachordnung beibehalten werden, die gleich oder größer als die spezifische hydrologische Ordnung ist, wie in Hintergrund und Zusammenfassung beschrieben (siehe auch Abb. 2). Die folgenden Schritte werden für jede hydrologische Ordnung wiederholt. Das Flussnetz ist nach der Spalte Langweg in absteigender Reihenfolge sortiert. Die Spalte longpath gibt die Länge des Pfades vom Startknoten einer Linienzuggeometrie bis zum Endknoten der am weitesten flussabwärts gelegenen Geometrie des Flussnetzes an. Anschließend werden, beginnend mit der obersten Geometrie, alle Liniengeometrien ermittelt, die über die Spalten object_id und nextdownid miteinander verbunden sind. Die Spalte object_id liefert eine eindeutige ID für jede Linienzuggeometrie und nextdownid gibt die object_id der nächstfolgenden Geometrie an. Die nun identifizierten Leitungsstränge stellen den längsten Hauptstrom dar und wurden aus dem ursprünglichen Flussnetz entfernt. Dies wird nun iterativ für den zweitobersten Linienstrang im verbleibenden Flussnetz usw. wiederholt.

Schematische Darstellung des Flussnetzes und seiner Linienzuggeometrien vor der Generierung der Hauptstämme (a), nach der Identifizierung der Hauptstämme einschließlich der Spalte levelpath_id (b) und nach dem Zusammenführen der Linienzuggeometrien durch die Spalte levelpath_id und dem Hinzufügen einer feature_id-Spalte (c).

Anschließend wird die Spalte levelpath_id als eindeutige ID für alle Geometrien hinzugefügt, die zum gleichen Hauptstamm gehören (Abb. 5b). Basierend auf dieser Spalte werden dann die Geometrien des jeweiligen Flussnetzes zusammengeführt (siehe Unterschied in den Linienzuggeometrien zwischen Abb. 5b, c). Dies führt zu einem Flussnetz für jede hydrologische Ordnung separat mit einer reduzierten Anzahl von Geometrien, da mehrere Geometrien nun in Hauptstämmen zusammengefasst werden.

Der nächste Schritt befasst sich mit dem Auftreten von Strömungsaufteilungen im Flussnetz. Eine Strömungsaufteilung oder -divergenz wird hier als Verbindung von Linienzuggeometrien mit mehr als einer Linienzuggeometrie definiert, die abfließende Ströme darstellt (orangefarbene Markierungen in Abb. 6). Um die Methoden von Belitz et al.14 zur Berechnung von EU-MOHP20 zu übertragen, ist es erforderlich, kleinere Fließpfade, die aus solchen Divergenzen resultieren, aus dem Flussnetz zu entfernen. Eine Klassifizierung der Linienzuggeometrien in Haupt- und Nebenfließwege wird in keiner Spalte im zugrunde liegenden Flussnetzdatensatz direkt bereitgestellt. Belitz et al.14 nutzten die Säulendivergenz zur Entfernung aller kleineren Strömungspfade. Hier wird dies erreicht, indem alle Linienzuggeometrien entfernt werden, die andere Linienzüge sowohl am End- als auch am Startknoten schneiden. Die Entfernung dieser kleineren Fließwege erfolgt nicht für die erste hydrologische Ordnung, um alle Leitungsstränge in mindestens einer Ordnung einzubeziehen. Die Umsetzung dieser Schritte wies auf Fehler im Flussnetzdatensatz15 hin. Diese Fehler hängen mit fehlerhaften Werten in den Spalten longpath und nextdownid zusammen. Basierend auf einer visuellen Inspektion treten sie in den französischen Flussnetzen Garonne, Loire und Seine auf und werden während der Verarbeitung programmgesteuert korrigiert.

Schematische Darstellung des Flussnetzes und seiner Liniengeometrien einschließlich Divergenzen vor (a) und nach (b) der Entfernung kleinerer Wege. Die Linienzuggeometrie mit den feature_ids 7 und 8 wurde aus dem Flussnetz in B entfernt, da sie andere Linienzuggeometrien sowohl am Start- als auch am Endknoten schneidet.

Anschließend werden die Flussnetze nach der Länge der Linienzuggeometrien in absteigender Reihenfolge sortiert und mit einer eindeutigen ID für jede Geometrie in der Spalte feature_id versehen (siehe feature_id in Abb. 5c).

Die Oberflächenwasserkörper werden aus der Schicht InlandWater in der GeoPackage-Datei abgeleitet, wobei das Benennungsschema das Suffix „euhydro“ enthält (siehe Tabelle 1). Ein Filter wird angewendet, um nur die Geometrien von Oberflächenwasserkörpern beizubehalten, deren Fläche größer als das Vierfache der Fläche der Gitterzelle ist. Ein weiterer Filter wird angewendet, um alle Geometrien zu entfernen, die sich nicht mit den Flussnetzgeometrien überschneiden. Da sich die Flussnetze der 9 Wasserordnungen voneinander unterscheiden, wird dieser zweite Filter für jedes Flussnetz einzeln angewendet. Dies führt zu einem Datensatz von Oberflächengewässern für jede hydrologische Ordnung.

Die Datenebene „Küste“ wird aus der Shape-Datei abgeleitet, die sich auf den Datensatz „EU-Hydro–Coastline“22 bezieht (siehe Tabelle 1). Wie Flüsse ist auch der durch die Küstenlinie definierte Ozean ein Bereich, in dem sich Wasser ansammelt, und daher ist seine räumliche Darstellung für die Erstellung dieses Datensatzes erforderlich14.

Zunächst werden die Polygongeometrien der zugrunde liegenden Shape-Datei zusammengeführt. Anschließend wird den zusammengeführten Geometrien ein Puffer von 3000 m hinzugefügt. Dies ist notwendig, um sicherzustellen, dass sich der Umriss des Untersuchungsgebiets für den nächsten Schritt mit den Polygongeometrien der Küstenlinie schneidet. Ohne diesen Puffer sind Abweichungen zwischen Untersuchungsgebiet und Küstenlinie erkennbar. Diese Abweichungen würden im nächsten Schritt zu unerwünschten Ergebnissen führen. Der Wert von 3000 m ergibt sich aus einer Sichtprüfung. Die resultierenden Multipolygongeometrien werden mit dem Umriss des Untersuchungsgebiets geschnitten, um die Küstenlinie als Linienzug zu erhalten. Die Teile des Untersuchungsgebiets, die sich nicht mit den Polygongeometrien überschneiden, werden als „Verwaltungsgrenzen über Land“ kategorisiert. Dieser Schnittpunkt stellt dann sicher, dass die Küstenlinie genau mit der Umrisse des Untersuchungsgebiets übereinstimmt. Die resultierende Küstenlinie ist in Abb. 7 dargestellt. Die Küstenlinie wird dann zu jedem Flussnetz aller hydrologischen Ordnungen hinzugefügt.

Karte, die den Standort und die räumliche Verteilung von Küstenlinien und Verwaltungsgrenzen über Land zeigt, die sich aus der Vorverarbeitung ergeben.

Nachdem alle vier erforderlichen Datenschichten wie zuvor beschrieben erhalten wurden, umfasst der nächste und letzte Verarbeitungsschritt mehrere kleinere Schritte mit dem Endziel, die EU-MOHP20-Metriken zu berechnen und zu exportieren. Da die Verarbeitung für alle hydrologischen Ordnungen und alle 10 Polygongeometrien des Untersuchungsgebiets analog ist, wird dieser Schritt nur einmal allgemein beschrieben. Da alle nachfolgend beschriebenen Verarbeitungsschritte gitterbasierte Berechnungen erfordern, wird eine GRASS GIS-Datenbank verwendet (siehe Abb. 4e).

Die vier Datenebenen Untersuchungsgebiet, Flussnetz einschließlich der Küstenlinie und Oberflächengewässer der jeweiligen Wasserordnung sowie die Küstenlinie werden in die GRASS GIS-Datenbank geschrieben. Die Projektion der GRASS GIS-Datenbank ist auf das ETRS89 Lambert Azimuthal Equal-Area-Projektionskoordinatenreferenzsystem (EPSG: 3035) eingestellt. Die räumliche Auflösung der Rasterzellen ist auf 30 m eingestellt.

Wie in Hintergrund und Zusammenfassung beschrieben, sind die Einzugsgebietsgrenzen erforderlich, um DD zu bestimmen (siehe Gleichungen (1, 2) oder Abb. 2). Daher werden Thiessen-Divisionen verwendet. Eine Thiessen-Wasserscheide ist der Umriss eines Thiessen-Einzugsgebiets, das wiederum das Gebiet ist, das alle Punkte in einem Flussnetz enthält, an denen ein Fluss näher liegt als jeder andere Fluss28. Ein großer Vorteil besteht darin, dass die Thiessen-Teilungen ausschließlich auf der Grundlage des Flussnetzes selbst berechnet werden können, während Probleme wie geschlossene Tiefststände in den resultierenden Metriken vermieden werden14. Dieser Vorteil überwiegt die zahlreichen kleineren Probleme, die mit DEM-basierten Einzugsgebieten verbunden sind, insbesondere wenn man die unsichere Übereinstimmung des unterirdischen Einzugsgebiets mit dem Oberflächeneinzugsgebiet berücksichtigt. Eine ausführliche Diskussion über die Bevorzugung von Thiessen-Gezeiten gegenüber topografischen Wasserscheiden findet sich in Belitz et. al. (2019), Abschnitt 2.2.014. Um Thiessen-Teilungen zu erhalten, besteht der erste Schritt darin, den euklidischen Abstand von jedem Rasterzellenzentrum zur nächstgelegenen Flussnetzgeometrie zu berechnen. Die resultierenden Abstände entsprechen DS in Gl. (1–3) oder Abb. 2). Dieser Schritt bestimmt auch die Feature-ID der nächstgelegenen Geometrie für alle Rasterzellen. Anschließend werden die Polygone, die Thiessen-Einzugsgebiete darstellen, durch Zusammenführen aller Rasterzellen abgeleitet, die derselben Feature-ID zugewiesen sind. Schließlich werden die Umrisse dieser Polygone als Thiessen-Teilungen verwendet.

Um den zu teilenden Abstand (DD) für jede Rasterzelle zu erhalten, wird der Abstand von der Mitte jeder Rasterzelle zur nächsten Thiessen-Teilung berechnet. Die Bestimmung der nächsten Thiessen-Teilung kann jedoch nicht durch eine einfache Suche nach dem nächsten Nachbarn erreicht werden, da diese zur Berechnung von DS und der Merkmals-ID des nächstgelegenen Flusses verwendet wird. Um die physikalische Realität umzusetzen, dass sich das Wasser in Einzugsgebieten ansammelt und in Flüsse abfließt, ist eine zusätzliche Bedingung erforderlich. Diese Bedingung muss sicherstellen, dass Abstände zur nächsten Wasserscheide nicht flussübergreifend berechnet werden. Mit anderen Worten: Die nächstgelegene Thiessen-Teilung für jede Rasterzelle darf nicht auf der anderen Seite des Flusses liegen. Mit anderen Worten: Wenn Sie eine imaginäre Linie zwischen der nächstgelegenen Thiessen-Trennung und der Mitte der Gitterzelle zeichnen, darf diese Linie keine Flussgeometrie kreuzen (siehe schwarze Linie gegenüber roter Linie in Abb. 13). Ohne diese Bedingung würde die geometrische Mittellinie der Thiessen-Einzugsgebiete als Ansammlungs- und Abflussgebiete gelten. Um diese Bedingung zu erfüllen, wurde der GRASS GIS-Befehl r.walk verwendet. Kleinere Ungenauigkeiten bezüglich dieses Befehls für den beschriebenen Zweck werden in der technischen Validierung vermerkt. Die berechneten Abstände entsprechen DD in Gl. (1, 2) oder Abb. 2.

Basierend auf den beiden berechneten Rasterschichten, die die Abstände DS und DD enthalten, werden nun die drei EU-MOHP-Maße DSD, LP und SD durch die Anwendung der Gleichungen Gl. (1–3) und der GRASS GIS Rasterkartenrechner („r.mapcalc“). Um die Speichergröße zu reduzieren, werden die Rasterwerte der Kennzahl LP mit dem Faktor 10.000 multipliziert und gerundet, um sie als ganzzahlige Werte mit zwei Dezimalstellen speichern zu können. Die beiden Maße DSD und LP werden auf die nächste ganze Zahl gerundet. Abschließend werden die resultierenden Rasterebenen für LP, DSD und SD aus der GRASS GIS-Datenbank exportiert und als GeoTIFF-Dateien mit der Dateierweiterung.tif auf der Festplatte gespeichert.

Um die Reproduzierbarkeit des Datendeskriptormanuskripts selbst zu verbessern, wird es als Teil der Verarbeitungspipeline generiert. Auch alle Tabellen und alle aus Daten abgeleiteten Abbildungen werden innerhalb der Pipeline erstellt. Dadurch wird sichergestellt, dass alle Zahlen aktuell sind und den neuesten Stand der Methoden widerspiegeln. Der Deskriptor ist in RMarkdown geschrieben, aus dem mit dem knitr-Paket29,30 eine LaTeX- und eine PDF-Datei generiert werden.

Der vorgestellte EU-MOHP v013.1.1-Datensatz20 ist im Hydroshare-Repository unter https://doi.org/10.4211/hs.0d6999591fb048cab5ab71fcb690eadb verfügbar. Der Datensatz stellt gerasterte Karten mit einer räumlichen Auflösung von 30 m dar. Es ist in mehrere GeoTIFF-Dateien mit der Dateierweiterung.tif unterteilt. Jede Datei stellt Daten zu einer der drei EU-MOHP20-Maßnahmen – LP, DSD und SD – für eine hydrologische Ordnung für ein anderes Untersuchungsgebietspolygon (räumliche Abdeckung) dar. Die Dateinamen sind nach dem Dateinamensschema „mohp_europa____.tif“ strukturiert. Die Platzhalter einschließlich „<“ und „>“ können theoretisch durch jede beliebige Kombination der in Tabelle 2 zusammengefassten Werte ersetzt werden. Allerdings verfügen nicht alle Untersuchungsgebietspolygone über ein Flussnetz für jede hydrologische Ordnung. Beispielsweise weist das Untersuchungsgebietspolygon für die Insel Sardinien nur Flüsse bis zu einer maximalen Stromordnung von 6 und daher nur eine maximale hydrologische Ordnung von 6 auf. Das bedeutet, dass für Sardinien keine GeoTIFF-Dateien für die hydrologischen Ordnungen 7–9 vorhanden sind. Daher beträgt die Gesamtzahl der Dateien \({n}_{measures}\cdot {\sum }_{i=1}^{{n}_{hydrologicorders}}{n}_{studyareapolygons,i}=3 \cdot {\sum }_{i=1}^{9}{n}_{studyareapolygons,i}=192\).

Die im Abschnitt „Messungen DSD, LP und SD“ abgeleiteten GeoTIFF-Dateien wurden als separat komprimierte Dateien mit der Dateierweiterung 0.7z mit dem kostenlosen Open-Source-Dateiarchivierungsprogramm 7-Zip auf Hydroshare hochgeladen. Jede 0,7z-Datei entspricht einer .tif-Datei.

Auf Hydroshare haben Sie die Möglichkeit, entweder alle 0,7z-Dateien auszuwählen und als komprimiertes Bagit-Archiv herunterzuladen oder eine benutzerdefinierte Auswahl von Dateien herunterzuladen, wenn Sie nur an einer bestimmten Region (Interessengebiet) oder bestimmten hydrologischen Ordnungen interessiert sind. Zum Erstellen einer benutzerdefinierten Auswahl können Sie die Suchleiste verwenden, um die Dateien nach einer räumlichen Abdeckung oder einer hydrologischen Ordnung zu filtern, wie auf der Hydroshare-Website dieses Datensatzes beschrieben. Wenn Sie genauer prüfen möchten, ob Ihr Interessengebiet überhaupt von diesem Datensatz abgedeckt wird oder welche Dateien relevant sind, sehen Sie sich bitte die interaktive Karte auf Github an (https://mxnl.github.io/macro_mohp_feature/).

Der vorgestellte EU-MOHP-Datensatz20 hat die Version v013.1.1. Die Version wird als Zusammensetzung der „EU-Hydro-River Network Database“15-Version (v013) und einer Haupt- und einer Nebenversionsnummer (1.0) generiert, die sich auf die beziehen Methoden dieses Datensatzes.

Der EU-MOHP-Datensatz20 besteht aus berechneten Werten, die auf einem hydrologischen Konzept basieren und daher nicht durch Beobachtungen oder Messungen validiert werden können. In erster Näherung wird zur Validierung eine statistische Zusammenfassung basierend auf einer Stichprobe jeder 100. Gitterzelle pro Zeile und Spalte verwendet. Tabelle 3 zeigt den Median-, Mittel-, Minimal- und Maximalwert der drei Maße für alle hydrologischen Ordnungen. Entsprechend dem theoretischen Hintergrund nehmen die Mittel-, Median- und Maximalwerte von DSD und SD mit zunehmender hydrologischer Ordnung zu (siehe auch Abb. 3a1-3 und c1-3). Dies verdeutlicht auch die unterschiedlichen räumlichen Maßstäbe. Dieser Anstieg spiegelt sich nicht in den Median- oder Mittelwerten des LP wider, da es sich bei LP um ein relatives Maß handelt. Die minimalen und maximalen Werte von LP betragen wie erwartet für alle hydrologischen Ordnungen 0 und 1. Die einzige Anomalie sind hier der Median und der Mittelwert bezogen auf die neunte hydrologische Ordnung. Diese niedrigeren Werte im Vergleich zu allen anderen hydrologischen Ordnungen hängen mit der räumlich sehr ungleichen Verteilung des Flussnetzes in diesem Fall in Kombination mit der Form der Küstenlinie Europas zusammen. Dies wird im nächsten Absatz besprochen. Eine weitere Anomalie sind die Minimalwerte der DSD bei höheren hydrologischen Ordnungen. Ihre Abweichung von 0 wird durch die abnehmende Wahrscheinlichkeit verursacht, dass der Mittelpunkt einer Gitterzelle genau am Schnittpunkt eines Flusses und einer Wasserscheide höherer hydrologischer Ordnung liegt.

Für einen umfassenderen Überblick über die Verteilung der Werte der drei Maße zeigt Abb. 8 die Dichte der Werte für alle hydrologischen Ordnungen. Hier ist der Gesamtanstieg der DSD- und SD-Werte mit zunehmender hydrologischer Ordnung deutlich zu erkennen, wie zuvor in Tabelle 3 dargestellt. Darüber hinaus ändert sich die Verteilung der DSD-Werte von einer linksschiefen unimodalen Verteilung (1. hydrologische Ordnung) zu einer multimodalen Verteilung (9. hydrologische Ordnung). Dieser Moduswechsel wird durch die vielen Halbinseln unterschiedlicher Größe an der europäischen Küste verursacht. Seine Form weist viele Halbinseln unterschiedlicher Größe auf. Beispiele für solche von kleiner nach größer geordneten Halbinseln sind Dänemark, die Bretagne, Griechenland, Italien und die Iberische Halbinsel. Mit zunehmender Wasserordnung nimmt die Zahl der Flüsse auf diesen Halbinseln ab. Wenn kein Fluss mehr vorhanden ist, zeigt die DSD-Verteilung einen Höhepunkt bei Werten, die sich auf diese Halbinsel beziehen. Belitz et al.14 bezeichneten diesen Effekt als Halbinseleffekt. Dies erklärt auch die offensichtliche Veränderung der Verteilung von LP der 9. hydrologischen Ordnung im Vergleich zu allen anderen Ordnungen.

Kammlinien zeigen die Verteilung der drei Maße DSD (a), LP (b) und SD (c) für alle neun hydrologischen Ordnungen. Das weiße Häkchen stellt den Median dar.

Am stärksten ausgeprägt ist dieser Effekt in der 9. Wasserordnung, wo die letzten paar hundert Kilometer der Donau vor ihrer Mündung ins Schwarze Meer der einzige Flussabschnitt in ganz Kontinentaleuropa sind (Abb. 9). Die Nutzung dieses Datensatzes an Standorten mit einem solchen Effekt ist bestenfalls sehr begrenzt.

Resultierende Karten der drei EU-MOHP-Maße DSD, LP und SD (von links nach rechts) für die 9. hydrologische Ordnung.

Um die Qualität der in dieser Studie angewandten Methodik weiter zu bewerten, wurde ein Kreuzvergleich mit dem ursprünglichen MOHP-Datensatz für die angrenzenden USA von Belitz et al.14 durchgeführt. Daher haben wir Teile des ursprünglichen MOHP-Datensatzes reproduziert, indem wir unsere Methodik auf den NHDPlusV2-Datensatz26 angewendet haben, der der zugrunde liegende Datensatz des ursprünglichen MOHP-Datensatzes ist, und diese reproduzierten Ergebnisse mit dem ursprünglichen Datensatz14 verglichen. Da die Methodik für alle hydrologischen Ordnungen analog ist und die Werte aller drei Maße (DSD, LP und SD) die gleichen Abhängigkeiten (DD und DS) aufweisen, reicht es aus, LP für eine einzelne hydrologische Ordnung zu vergleichen. Aus visuellen Gründen wurde die 7. hydrologische Ordnung ausgewählt. Dementsprechend wird der reproduzierte Datensatz als „Reproduziertes LP7“ und das Original als „Original LP7“ bezeichnet. Abbildung 10 zeigt einen direkten Vergleich zwischen dem Original-LP7 (a) und dem reproduzierten LP7 (b). Bei der visuellen Betrachtung erscheinen die Hauptmuster auf beiden Karten sehr ähnlich. Unterschiede sind vor allem in der Nähe der Verwaltungsgrenzen zu Kanada und Mexiko zu beobachten. Diese Unterschiede sind neben einigen anderen geringfügigen Abweichungen auf Abweichungen von der ursprünglichen Methodik zurückzuführen. Obwohl die Methodik des ursprünglichen MOHP-Datensatzes14 im Allgemeinen gut beschrieben ist, war es nicht möglich, alle Schritte vollständig zu verstehen und zu reproduzieren, da der Quellcode nicht öffentlich verfügbar war. Aus diesem Grund ist die für den Kreuzvergleich verwendete Küstenlinie nicht vollständig identisch mit der für den Originaldatensatz verwendeten Küstenlinie. Ebenso sind weder Flussnetze aus den beiden Nachbarländern Kanada und Mexiko noch Oberflächengewässer im Allgemeinen im wiedergegebenen Datensatz enthalten. Die von diesen Unterschieden am stärksten betroffenen Regionen werden vom quantitativen Quervergleich ausgeschlossen. Abbildung 10c zeigt den absoluten Unterschied zwischen beiden Karten aus Abb. 10a,b definiert als

Karten, die das Original-LP7 (a), das reproduzierte LP7 (b) und den absoluten Unterschied zwischen Original-LP7 und dem reproduzierten LP7 (c) für die angrenzenden USA zeigen.

Durch die Division durch 10.000 werden die Werte auf einen Bereich von 0 bis 1 umskaliert. In dieser Abbildung werden die zuvor beschriebenen Unterschiede entlang der Grenzen und in der Nähe von Oberflächengewässern deutlicher sichtbar. Diese Abbildung zeigt auch, dass die Werte der absoluten Differenz in allen angrenzenden USA überwiegend nahe 0 (graue Farbe) liegen, was darauf hindeutet, dass es keine oder nur geringe Unterschiede gibt. Zusätzlich zu diesem visuellen Vergleich wird ein quantitativer Kreuzvergleich durchgeführt, indem die Rasterzellenwerte des Original-LP7 und des reproduzierten LP7 an 10.000 zufällig verteilten Punkten verglichen werden. Um diese erwarteten Diskrepanzen zwischen den reproduzierten und ursprünglichen Datensätzen in Küstennähe und an Verwaltungsgrenzen über Land zu berücksichtigen, wurde ein negativer Puffer von 300 Meilen (ca. 480 km) landeinwärts verwendet, um diese Regionen vom quantitativen Kreuzvergleich auszuschließen. Abbildung 11a zeigt schematisch die Probenahmestrategie einschließlich der Lage der Hälfte aller 10.000 Probenahmepunkte.

(a) Stichprobenstrategie für den quantitativen Kreuzvergleich. Die Probenahmestellen sind gelb dargestellt. Aus ästhetischen Gründen wird hier nur die Hälfte der insgesamt 10.000 Punkte angezeigt. (b) Rasterzellenwerte an den Abtastpunkten für das Original-LP7 und das reproduzierte LP7. Die Punktfarbe stellt die Punktdichte dar, wobei Gelb für eine hohe und Blau für eine niedrige Dichte steht.

Abbildung 11b zeigt die Rasterzellenwerte des Original-LP7 und des reproduzierten LP7 an den Probenahmeorten. Während ein kleiner Teil aller Punkte weit von der gestrichelten Gleichwertlinie entfernt ist, liegt die überwiegende Mehrheit nahe beieinander, was darauf hindeutet, dass die ursprünglichen LP7-Werte gut reproduziert werden. Um dies zu quantifizieren, wurde ein lineares Regressionsmodell auf alle Punkte angewendet. Der R2 des angepassten Modells beträgt 0,988. Zusammenfassend zeigt der Quervergleich eine sehr gute Übereinstimmung der in dieser Studie verwendeten Methodik mit den beschriebenen Methoden bei Belitz et al. (2019). Die größten Unterschiede in den Ergebnissen lassen sich, wie bereits erwähnt, durch Abweichungen in der wiedergegebenen Methodik erklären (Flussnetze in Nachbarländern, Oberflächengewässer).

Da die Generierung dieses Datensatzes auf der „EU-Hydro-River Network Database“ basiert, hängt seine Genauigkeit und Gültigkeit stark von der Qualität dieses zugrunde liegenden Datensatzes ab. Die „EU-Hydro-River Network Database“15 wurde durch eine Kombination aus Fotointerpretation von Bildern mit sehr hoher Auflösung und Entwässerungsmodellierung basierend auf dem EU-DEM mit 25 m Auflösung erstellt. Es umfasst ein Flussnetz für alle 39 EWR-Staaten in hoher Auflösung. Nach unseren Recherchen gibt es keine umfassende Qualitätsbewertung oder Validierung der verwendeten Version. Die visuelle Inspektion deckt einige Fehler auf, die für die hier vorgestellte Methodik relevant sind. Erstens kommt es häufig zu einer Verwechslung der Klassifizierung der Liniengeometrien in Kanäle, Gräben und Flüsse. Ein Beispiel für eine solche Verwirrung ist in Abb. 12 dargestellt. Hier werden einige relativ gerade geformte Linienzuggeometrien als Fluss klassifiziert (Wert BH140 in Spalte dfdd), wohingegen mäandrierende Geometrien als Kanal klassifiziert werden (Wert BH020 in Spalte dfdd). Weitere Fehler könnten durch die Beschränkung der räumlichen Auflösung der Fotos und des EU-DEM entstehen. Dies beeinträchtigt möglicherweise die Erkennung kleinerer Flüsse, Kanäle und Gräben.

Beispiel für die Flussnetzdaten, das die Verwechslung zwischen den Werten BH140 (Fluss), BH020 (Kanal) und BH030 (Graben) der Attributspalte dfdd des Flussnetzdatensatzes15 zeigt.

Wie bereits in River Network erwähnt, wurden in den Flussnetzdaten weitere Fehler gefunden. Diese Fehler beziehen sich auf falsche Werte in den Spalten longpath und object_id und werden an Stellen korrigiert, an denen die resultierenden Karten durch visuelle Inspektion falsche Muster erkennen ließen. Diese Muster wurden durch das Fehlen eines Flussnetzes in größeren Regionen deutlich. Es ist sehr wahrscheinlich, dass weitere Fehler dieser Art im Flussnetz verbleiben und nur geringe Auswirkungen auf die resultierenden Karten haben. Die programmgesteuerte Behebung dieser Fehler erfordert solide theoretische Kenntnisse über die Verarbeitung von Netzwerken und könnte in zukünftigen Versionen der „EU-Hydro – River Network Database“15 durchgeführt werden.

Die Genauigkeit dieses Datensatzes kann auch in der Nähe der Grenzen, die über Land verlaufen, und nicht entlang der Küste oder der Grenzen von Flusseinzugsgebieten verringert werden. Dazu gehören die grenznahen Regionen im Süden und Osten der Türkei, im Osten Kontinentaleuropas und im Osten Finnlands (siehe gelbliche Linien in Abb. 7). Hier folgen die Grenzen des zugrunde liegenden Datensatzes und damit dieses Datensatzes Verwaltungsgrenzen und nicht den Grenzen von Flusseinzugsgebieten. Daher können berechnete Entfernungen zum nächsten Bach in diesen Regionen ungenau sein, da ein anderer, nicht im Datensatz enthaltener Bach möglicherweise näher an einem Raster liegt Zellzentrum. Die Breite dieser potenziell ungenauen Regionen entlang der Ränder nimmt mit der hydrologischen Ordnung zu. Da die Flussstandorte benachbarter Flussnetze unbekannt sind, ist es nicht möglich, diese Region abzugrenzen oder ihre Breite zu quantifizieren. Um dieses Problem bei der Anwendung dieses Datensatzes auf eine solche Region anzugehen, wäre eine konservative Option, diese Regionen abzuschneiden oder zu maskieren, indem die entsprechenden Grenzen um den Maximalwert in der Bachentfernungskarte der jeweiligen hydrologischen Ordnung nach innen verschoben werden.

Eine weitere Ungenauigkeit entsteht durch die Methode zur Berechnung von DD. Diese Ungenauigkeit betrifft nur einen schmalen Bereich in der Nähe des Quellgebiets. Zur Berechnung von DD wird der GRASS GIS-Befehl r.walk verwendet. Der Befehl r.walk verfolgt ursprünglich einen anderen Zweck als den, für den er hier verwendet wird. Es berechnet die kumulierten Kosten für den Umzug zwischen zwei geografischen Standorten auf der Grundlage einer topografischen Karte und einer Karte, die die Reibungskosten darstellt. Durch Erhöhen der Kostenparameter wird der horizontale Abstand von einer Zelle zur nächsten Thiessen-Wasserscheide berechnet, wobei ein Weg ohne Überquerung eines Baches bevorzugt wird. Dieses Verhalten wird normalerweise überall erreicht, außer in Gebieten in der Nähe von Quellgebieten, in denen das „Umrunden“ des Baches möglich ist. Um dies zu veranschaulichen, wird der folgende Fall betrachtet. Wenn eine Linienzuggeometrie, die einen Bach darstellt, näher an einer Seite der Thiessen-Trennung liegt als an der anderen Seite, berechnet r.walk einen falschen Abstand um den Anfang des Linienzugs, da es günstiger ist, um den Bach herum zu „laufen“ als auf einem geraden Weg von der entfernteren, aber korrekten Seite der Thiessen-Kluft. Somit überquert der gerade Weg von dieser fälschlicherweise nächstgelegenen Seite der Thiessen-Wasserscheide den Bach. Das erforderliche und korrekte Verhalten wäre, die Entfernung als Länge einer geraden Linie zur Thiessen-Wasserscheide zu berechnen, die den Bach nicht kreuzt (Abb. 13).

Schematisches Beispiel, das die Ursache für ungenaue DD in Gebieten in der Nähe von Quellgebieten zeigt, die durch die angewandte Methode zur Berechnung von DD verursacht werden. Der rote Abstand als DD ist falsch, da er den Bach kreuzt und somit die definierte Bedingung nicht erfüllt. Der richtige DD wäre der dunkelgraue Abstand. Der Weg zur richtigen Seite entspricht der richtigen DD (dunkelgraue durchgezogene Linie) und wird daher nicht auf der schematischen Karte eingezeichnet.

Die Methode zur Berechnung von DD führt auch zu fehlenden Werten (NA) für Rasterzellen, die sich in größeren Oberflächengewässern wie Seen befinden. Dieses Problem betrifft nur die Maßnahme DSD oder die zugehörigen Rasterkarten („ = dsd“). Bei Bedarf könnte eine mögliche Lösung hierfür darin bestehen, diese NA-Zellen als einfache Näherung mit Werten aus der nächstgelegenen Nicht-NA-Gitterzelle zu füllen.

Wie unten angegeben, ermutigen wir Leser und Benutzer dieses Datensatzes, Fehler in den Methoden oder im Code im genannten Github-Repository zu melden.

Diese Datenveröffentlichung stellt hauptsächlich zwei Ressourcen zur Verfügung, die von der Forschungsgemeinschaft genutzt werden können. Erstens der Datensatz selbst und zweitens der Quellcode, der angepasst und auf benutzerdefinierte Flussnetzdaten angewendet werden soll. Ersteres kann als zusätzlicher hydrologischer Kontext zur Beschreibung von Merkmalen in jeder auf maschinellem Lernen oder nicht auf maschinellem Lernen basierenden Modellierungsaufgabe im Bereich Hydrologie und Hydrogeologie über mehrere Maßstäbe hinweg verwendet werden. Nachdem Sie die erforderlichen komprimierten 0.7z-Dateien von Hydroshare heruntergeladen haben (Download-Link siehe data-recordsData Records), können Sie diese mit dem kostenlosen Open-Source-Dateiarchivierungsprogramm 7-Zip dekomprimieren. Aufgrund des weit verbreiteten GeoTIFF-Dateiformats kann der Datensatz mit jeder GIS-Software verarbeitet und visualisiert werden. Aus Gründen der Reproduzierbarkeit in der Wissenschaft wird empfohlen, Programmiersprachen anstelle von Point-and-Click-Software wie ArcGIS oder QGIS zu verwenden. Die Programmiersprachen R oder Python bieten vielfältige Werkzeuge zum Importieren, Verarbeiten und Visualisieren von GeoTIFF-Daten, bieten aber auch Flexibilität aus Sicht des maschinellen Lernens. Die R-Pakete Raster und Stars decken die häufigsten Operationen an Rasterdaten ab31,32. Um die GeoTIFF-Dateien auf Ihr benutzerdefiniertes Untersuchungsgebiet oder Interessengebiet zuzuschneiden, bietet die Funktion st_crop() aus dem Stars-Paket ein schnelles Zuschneiden, ohne dass die großen GeoTIFF-Dateien in den Speicher eingelesen werden müssen. Dazu ist es erforderlich, die GeoTIFF-Dateien als Stars_proxy-Objekte mit read_stars(, Proxy = TRUE) einzulesen, bevor st_crop() angewendet wird. Um einige der vorherigen Schritte zu vereinfachen, haben wir das R-Paket eumohpclipr (https://github.com/MxNl/eumohpclipr/)33 entwickelt. Dieses Paket bietet Funktionen zum Mosaikieren, Zuschneiden oder Ausschneiden und Plotten des EU-MOHP-Datensatzes20. Für eine schnelle Extraktion von Rasterzellenwerten basierend auf Polygonen wird das R-Paket Exactextractr (https://github.com/isciences/exacextraktr)34 empfohlen.

Es ist wichtig zu beachten, dass Rasterzellenwerte aller GeoTIFF-Dateien als Ganzzahlen im Datentyp INT32 gespeichert werden, um die Speichergröße zu reduzieren. Zellenwerte von Dateien, die LP darstellen („ = lp“), müssen durch 100 geteilt werden, um Prozentsätze mit zwei Dezimalstellen zu erhalten, oder durch 10.000, um Werte im Bereich von 0 bis 1 zu erhalten. Die Zelle Die Werte aller anderen Dateien stellen eine Entfernung in Metern dar und können unverändert verwendet werden. Alle Dateien werden unter Verwendung des Koordinatenreferenzsystems (CRS) ETRS89-extended/LAEA Europe mit dem EPSG-Code 3035 gespeichert.

Die folgenden Abschnitte konzentrieren sich auf die Verwendung des Quellcodes für die Reproduktion des EU-MOHP-Datensatzes20 und seine Verwendung für andere benutzerdefinierte Datensätze. Sie bieten außerdem Informationen zum Hardware- und Software-Setup sowie zu den wichtigsten Schritten, bevor der Quellcode ausgeführt werden kann.

Die Berechnungen zur Generierung des vorgestellten Datensatzes20 wurden auf einem DELL PowerEdge C4140 Server mit einer Intel Xeon Gold 6240 R CPU und 384 GB installiertem RAM durchgeführt. Das installierte Betriebssystem ist Microsoft Windows Server 2019 Standard, Version 10.0.17763 Build 17763. Die Gesamtlaufzeit der Pipeline sowie einzelner Ziele ist in Tabelle 4 zusammengefasst.

Die verwendete Software umfasst R (Version 4.0.3)23, die Datenbank PostgreSQL (Version 13) mit der Erweiterung PostGIS (Version 3.1.0) und GRASS GIS (Version 7.8.5-2). R-Paketabhängigkeiten werden mit dem renv-Paket35 verwaltet. Die Versionen der verwendeten R-Pakete finden Sie in der Datei renv.lock. Die am häufigsten verwendeten R-Pakete sind auch in den Referenzen24,29,30,31,32,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50 aufgeführt ,51,52,53,54,55.

Die Verzeichnis- und Dateistruktur des Projektordners, der den gesamten Code und die Dateien zum Generieren dieses Datensatzes enthält, ist in Abb. 14 in einer Baumstruktur zusammengefasst. Dateien und Verzeichnisse, die für die Beschreibung der Methoden nicht relevant sind, werden hier nicht angezeigt. Der Projektordner als oberstes Verzeichnis ist das Arbeitsverzeichnis. Die Datei config.yml (Zeile 2) enthält Definitionen von Variablen, die von einem Benutzer festgelegt werden sollen, bevor die Targets-Pipeline ausgeführt wird. Die relevanteste Variable ist die Zellengröße, die die räumliche Auflösung der resultierenden EU-MOHP-Gitterkarten20 festlegt. Eine weitere wichtige Variable ist der Bereich, in dem zwischen einem Teststudiengebiet und dem vollständigen Untersuchungsgebiet für den gesamten EWR gewechselt werden kann39. Das Testuntersuchungsgebiet stellt einen kleinen Teil des Untersuchungsgebiets dar. Dies reduziert die Laufzeit der Pipeline zu Testzwecken. Der Ordner grassdata (Zeile 4) wird zum Schreiben der GRASS GIS-Datenbanken verwendet. Der Ordner input_data (Zeile 5) enthält alle erforderlichen Eingabedaten. Erstens umfassen die Unterordnerdaten (Zeile 6) die Flussnetzdaten als einen einzigen Ordner pro Einzugsgebiet, wie sie nach dem Entpacken der heruntergeladenen „EU-Hydro-River Network Database“-Daten15 abgeleitet werden (siehe zugrunde liegender Datensatz). Der zweite Unterordner EUHYDRO_Coastline_EEA39_v013 (Zeile 7) enthält die Küstenliniendaten (siehe zugrunde liegender Datensatz). Der dritte Unterordner „studyarea_test“ (Zeile 8) enthält einen Teststudienbereich als Shape-Datei nur für Pipeline-Testzwecke (siehe Codeverfügbarkeit). Schließlich enthält der Unterordner „Validierung“ alle Daten, die zur Berechnung der Werte und Zahlen für den Quervergleich in der Technischen Validierung erforderlich sind. Die Datei „macro_mohp_feature.Rproj“ (Zeile 10) ist die R-Projektdatei. Der Ordner „output_data“ (Zeile 12) enthält drei Unterverzeichnisse, in die die endgültigen EU-MOHP-Rasterkarten20 geschrieben werden. Diese Verzeichnisse werden von der Pipeline erstellt, sofern sie noch nicht vorhanden sind. R (Zeile 16) enthält R-Skripte, in denen benutzerdefinierte Funktionen und Konstanten definiert werden. renv (Zeile 25) und die Datei renv.lock (Zeile 31) beziehen sich auf das R-Paket renv, das Versionen von Paketabhängigkeiten verfolgt35. Das R-Skript run_pipeline.R (Zeile 32) enthält Code zum Ausführen der Targets-Pipeline, die die gesamte Datenverarbeitung und Berechnungen durchführt. targets (Zeile 33) enthält die Definition aller Ziele bzw. Verarbeitungsschritte der Pipeline. Aus Übersichtsgründen erfolgt eine thematische Aufteilung auf mehrere Dateien. _targets (Zeile 39) wird vom Paket targets intern verwendet. Die Datei _targets.R (Zeile 43) richtet die Targets-Pipeline ein und lädt alle Abhängigkeiten.

Verzeichnisbaum des Projektverzeichnisses; Hier werden nur relevante Unterverzeichnisse und Dateien aufgelistet.

Um diesen Datensatz zu reproduzieren, sind die folgenden Schritte erforderlich. Sie wurden unter Windows als Betriebssystem getestet (siehe oben in diesem Abschnitt), daher sind Abweichungen unter Linux oder MacOS wahrscheinlich:

Installieren Sie die R-Sprache, PostgreSQL, PostGIS und GRASS GIS in ihren zuvor beschriebenen Versionen. Installieren Sie außerdem die neueste Version von RStudio. RStudio ist eine kostenlose integrierte Entwicklungsumgebung für R.

Richten Sie eine PostgreSQL-Datenbank mit dem Namen „postgis“ ein oder wählen Sie alternativ einen anderen Namen und ändern Sie später die Variable Datenbankname in der Datei config.yml. Ändern Sie unabhängig vom Datenbanknamen die Einstellung der PostgreSQL-Datenbank so, dass für die Verbindung kein Kennwort angefordert wird.

Laden Sie das Projekt-Repository mit allen erforderlichen Codes und Skripten aus dem oben genannten statischen Code-Repository herunter.

Laden Sie die erforderlichen Eingabedaten „EU-Hydro–River Network Database“15 und „EU-Hydro–Coastline“22 über die folgenden Links herunter und speichern Sie sie wie zuvor beschrieben im Verzeichnis input_data, damit sie mit der Dateistruktur der input_data übereinstimmen (Abb . 14, Zeile 5–8). Für den Download der Daten ist ein kostenloses Benutzerkonto erforderlich. Wenn Sie die Daten alternativ in einem anderen Verzeichnis, z. B. auf einem Remote-Server, speichern möchten, müssen Sie die Dateipfade in der Datei „constants.R“ ändern.

Navigieren Sie zum Projektverzeichnis und öffnen Sie die Datei „macro_mohp_feature.Rproj“ mit RStudio.

Installieren Sie das Paket renv, indem Sie den folgenden Befehl in der R-Konsole ausführen

install.packages („renv“)

Installieren Sie alle Paketabhängigkeiten mit der folgenden Zeile in der R-Konsole. Beachten Sie, dass unter Linux und MacOS einige R-Pakete Systemabhängigkeiten haben, wie zum Beispiel das Paket sf, das unter anderem von libgeos-dev abhängt. Bitte konsultieren Sie bei Problemen die entsprechende Dokumentation.

renv::restore()

Bevor wir die Pipeline in der gesamten räumlichen Abdeckung der EWR39-Länder betreiben, empfehlen wir, die Pipeline mit dem kleineren Teststudiengebiet zu testen, indem wir den Variablenbereich in der Datei config.yml auf „test“ setzen. Die Laufzeit beträgt etwa 20 Minuten. Der Inhalt der config.yml sollte so aussehen (Beachten Sie die leere Zeile in Zeile 6):

Bereich: Testzellengröße: 30 Datenbankname: Postgis Exclude_scandinavian_basins: FALSE simple_polygons: FALSE data_descriptor_only: FALSE parallel: TRUE

Wenn die Pipeline im „Test“-Modus arbeitet, können Sie den Variablenbereich wieder auf „Europa“ ändern.

Starten Sie die Verarbeitungspipeline, indem Sie die Datei run_pipeline.R von einer R-Konsole und im Stammverzeichnis mit ausführen

Quelle („run_pipeline.R“)

oder alternativ über die Befehlszeile mit

Rscript run_pipeline.R

Wenn Sie auf Probleme stoßen, wenden Sie sich bitte an den entsprechenden Autor oder öffnen Sie vorzugsweise ein Github-Problem. Fehler können wahrscheinlich durch falsche Verzeichnisse und Dateipfade verursacht werden. Wenn der verfügbare Speicher nicht ausreicht, besteht eine Möglichkeit darin, die Pipeline sequentiell statt parallel auszuführen. Ändern Sie dazu die Variable parallel in der Datei config.yml von TRUE auf FALSE.

Um den Datendeskriptor selbst zu reproduzieren, können Sie die Pipeline nach einem erfolgreichen Lauf ausführen, indem Sie die Variable data_descriptor_only in der Datei config.yml auf „TRUE“ setzen.

Die erforderlichen zugrunde liegenden Datensätze „EU-Hydro-River Network Database“15 Version v013 können vom Copernicus Land Monitoring Service heruntergeladen werden (https://land.copernicus.eu/imagery-in-situ/eu-hydro/eu-hydro- river-network-database?tab=download) sowie die „EU-Hydro–Coastline“22 Version v013 (https://land.copernicus.eu/imagery-in-situ/eu-hydro/eu-hydro-coastline ?tab=download). Um die Reproduzierbarkeit zu maximieren und zu vereinfachen, planen wir derzeit die Einrichtung eines Docker-Containers. Für Verfügbarkeitsaktualisierungen besuchen Sie bitte das erwähnte Github-Repository. Für die Übertragung der vorgestellten Methoden auf eine andere benutzerdefinierte Region sind äquivalente Eingabedaten zu Tabelle 1 erforderlich.

Wie bereits erwähnt, sind alle Verarbeitungsschritte einschließlich der Generierung des Datensatzes, der meisten Abbildungen und des Manuskripts skriptbasiert. Der gesamte benötigte Quellcode56 ist auf Hydroshare (https://doi.org/10.4211/hs.8ea376970c904c6698fc8cfe392689de) als statisches Code-Repository zu finden. Aufgrund der Vorgehensweise des Review-Prozesses enthält dieses statische Code-Repository nur den Status des Codes vor der letzten Review-Iteration. Der endgültige Code, der zum Einreichen des überprüften Manuskripts verwendet wird, finden Sie in dieser separaten Code-Veröffentlichung auf Github (https://github.com/MxNl/macro_mohp_feature/releases/tag/v013.1.1.0). Der aktiv entwickelte Code ist auch im selben Repository auf Github zu finden (https://github.com/MxNl/macro_mohp_feature). Wir ermutigen interessierte Benutzer dieses Datensatzes, Fehler im Code zu melden oder Hinweise zu weiteren methodischen oder programmtechnischen Verbesserungen zu geben, indem sie ein Issue im Github-Repository öffnen oder den entsprechenden Autor per E-Mail kontaktieren13,55.

Zounemat-Kermani, M. et al. Neurocomputing in der Oberflächenwasserhydrologie und -hydraulik: Ein Rückblick auf zwei Jahrzehnte, aktueller Status und Zukunftsaussichten. Journal of Hydrology 588, 125085, https://doi.org/10.1016/j.jhydrol.2020.125085 (2020).

Artikel Google Scholar

Sit, M. et al. Eine umfassende Übersicht über Deep-Learning-Anwendungen in der Hydrologie und den Wasserressourcen. Water Science and Technology 82 (12), 2635–2670, https://doi.org/10.2166/wst.2020.369 (2020).

DeSimone, LA, Pope, JP & Ransom, KM Maschinelle Lernmodelle zur Kartierung von pH- und Redoxbedingungen im Grundwasser in einem geschichteten Grundwasserleitersystem, Nordatlantische Küstenebene im Osten der USA. Journal of Hydrology: Regional Studies 30, 100697, https://doi.org/10.1016/j.ejrh.2020.100697 (2020).

Artikel Google Scholar

Knoll, L., Breuer, L. & Bach, M. Groß angelegte Vorhersage der Nitratkonzentrationen im Grundwasser aus räumlichen Daten mithilfe maschinellen Lernens. Science of The Total Environment 668, 1317–1327, https://doi.org/10.1016/j.scitotenv.2019.03.045 (2019).

Artikel ADS CAS PubMed Google Scholar

Knoll, L., Breuer, L. & Bach, M. Bundesweite Schätzung der Grundwasser-Redoxbedingungen und Nitratkonzentrationen durch maschinelles Lernen. Environmental Research Letters 15, 064004, https://doi.org/10.1088/1748-9326/ab7d5c (2020).

Artikel ADS CAS Google Scholar

Müller, J. et al. Ersatzoptimierung tiefer neuronaler Netze für Grundwasservorhersagen. J Glob Optim 81, 203–231, https://doi.org/10.1007/s10898-020-00912-0 (2019). ArXiv: 1908.10947.

Artikel MathSciNet MATH Google Scholar

Stackelberg, PE et al. Vorhersagen des pH-Werts durch maschinelles Lernen im glazialen Aquifersystem im Norden der USA. Grundwasser 59, 352–368, https://doi.org/10.1111/gwat.13063 (2021).

Artikel CAS Google Scholar

Wang, B., Oldham, C. & Hipsey, MR Vergleich von Techniken und Variablen des maschinellen Lernens für die Vorhersage von im Grundwasser gelöstem organischem Stickstoff in einem städtischen Gebiet. Procedia Engineering 154, 1176–1184, https://doi.org/10.1016/j.proeng.2016.07.527 (2016).

Artikel CAS Google Scholar

Wunsch, A., Liesch, T. & Broda, S. Vorhersage des Grundwasserspiegels mithilfe nichtlinearer autoregressiver Netzwerke mit exogenem Input (NARX. Journal of Hydrology 567, 743–758, https://doi.org/10.1016/j.jhydrol. 2018.01.045 (2018).

Artikel ADS Google Scholar

Wunsch, A., Liesch, T. & Broda, S. Grundwasserspiegelvorhersage mit künstlichen neuronalen Netzen: ein Vergleich von langem Kurzzeitgedächtnis (LSTM), Faltungs-Neuronalen Netzen (CNNs) und nichtlinearen autoregressiven Netzen mit exogenem Input (NARX). Hydrology and Earth System Sciences 25, 1671-1687, https://hess.copernicus.org/articles/25/1671/2021/ (2021).

Wunsch, A., Liesch, T. & Broda, S. Deep Learning zeigt sinkende Grundwasserspiegel in Deutschland bis 2100 aufgrund des Klimawandels. Nature Communications 13, 1221, https://doi.org/10.1038/s41467-022-28770-2 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Wunsch, A. et al. Karstquellenentladungsmodellierung basierend auf Deep Learning unter Verwendung räumlich verteilter Eingabedaten. Hydrology and Earth System Sciences 26, 2405–2430, https://doi.org/10.5194/hess-26-2405-2022 (2022).

Artikel ADS Google Scholar

Knoll, L., Breuer, L. & Bach, M. Groß angelegte Vorhersage der Nitratkonzentrationen im Grundwasser aus räumlichen Daten mithilfe maschinellen Lernens. Science of The Total Environment 668, 1317–1327, https://doi.org/10.1016/j.scitotenv.2019.03.045 (2019).

Artikel ADS CAS PubMed Google Scholar

Belitz, K., Moore, RB, Arnold, TL, Sharpe, JB & Starn, JJ Hydrologische Position mehrerer Ordnungen in den angrenzenden Vereinigten Staaten: Eine Reihe von Metriken zur Unterstützung der Grundwasserkartierung auf regionaler und nationaler Ebene. Water Resources Research 55, 11188–11207, https://doi.org/10.1029/2019WR025908 (2019).

Artikel ADS Google Scholar

EU-Hydro – Datenbank des Flussnetzes. Copernicus Land Monitoring Service https://land.copernicus.eu/imagery-in-situ/eu-hydro/eu-hydro-river-network-database?tab=download (2019).

Lehner, B., Verdin, K. & Jarvis, A. Neue globale Hydrographie, abgeleitet aus weltraumgestützten Höhendaten. Eos, Transactions American Geophysical Union 89, 93, https://doi.org/10.1029/2008EO100001 (2008).

Artikel ADS Google Scholar

Lin, P., Pan, M., Wood, EF, Yamazaki, D. & Allen, GH Ein neuer vektorbasierter globaler Flussnetzwerkdatensatz, der variable Entwässerungsdichten berücksichtigt. Wissenschaftliche Daten 8, 28 http://www.nature.com/articles/s41597-021-00819-9 (2021).

Artikel PubMed PubMed Central Google Scholar

Degnan, JR, Lindsey, BD, Levitt, JP und Szabo, Z. Die Beziehung geogener Schadstoffe zum Grundwasseralter, der hydrologischen Position des Grundwasserleiters, der Wasserart und den Redoxbedingungen in Grundwasserleitern des Atlantiks und der Golfküstenebene im Osten und Süden der zentralen USA. Science of The Total Environment 723, 137835, https://doi.org/10.1016/j.scitotenv.2020.137835 (2020).

Artikel ADS CAS PubMed Google Scholar

Knierim, KJ, Kingsbury, JA, Haugh, CJ & Ransom, KM verwenden verstärkte Regressionsbaummodelle zur Vorhersage des Salzgehalts in Mississippi Embayment Aquifers, Zentral-USA. JAWRA Journal of the American Water Resources Association 56, 1010–1029, https://doi.org/10.1111/1752-1688.12879 (2020).

Artikel ADS Google Scholar

Nölscher, M., Mutz, M. & Broda, S. EU-MOHP v013.1.1 Datensatz. Hydroshare https://doi.org/10.4211/hs.0d6999591fb048cab5ab71fcb690eadb (2022).

Strahler, AN Quantitative Analyse der Geomorphologie von Wassereinzugsgebieten. Eos, Transactions American Geophysical Union 38, 913–920 (1957).

Artikel ADS Google Scholar

EU-Hydro – Küste – Copernicus Land Monitoring Service. Copernicus Land Monitoring Service https://land.copernicus.eu/imagery-in-situ/eu-hydro/eu-hydro-coastline?tab=download (2019).

Team, RC R: Eine Sprache und Umgebung für statistische Berechnungen. R Foundation for Statistical Computing https://cran.r-project.org/mirrors.html (2020).

Landau, WM Das Targets-R-Paket: ein dynamisches Make-like-funktionsorientiertes Pipeline-Toolkit für Reproduzierbarkeit und Hochleistungsrechnen. Ziele: Dynamische funktionsorientierte „Make“-ähnliche deklarative Workflows https://cran.r-project.org/package=targets (2021).

Gallaun, H., Dohr, K., Puhm, M., Stumpf, A. & Hugé, J. EU-Hydro – River Net Benutzerhandbuch 1.3. Copernicus Land Monitoring Service https://land.copernicus.eu/user-corner/technical-library/eu-hydro_user_guide.pdf (2019).

Nationaler Hydrographiedatensatz Plus (nhdplus). Umweltschutzbehörde der Vereinigten Staaten https://www.epa.gov/waterdata/nhdplus-national-hydrography-dataset-plus (2012).

Dewald, T. et al. NHDPlus Version 2: Benutzerhandbuch. Umweltschutzbehörde der Vereinigten Staaten https://www.epa.gov/waterdata/basic-information (2012).

Johnston, CM et al. Evaluierung von Einzugsgebietsabgrenzungsmethoden für den nationalen Hydrographie-Datensatz mittlerer Auflösung. US Geological Survey https://pubs.usgs.gov/sir/2009/5233/pdf/sir2009-5233.pdf (2009).

Allaire, JJ et al. rmarkdown: Dynamische Dokumente für R https://cran.r-project.org/package=rmarkdown (2021).

Xie, Y. knitr: Ein umfassendes Tool für reproduzierbare Forschung in R https://cran.r-project.org/package=knitr (2014).

Hijmans, RJ Raster: Geografische Datenanalyse und Modellierung https://cran.r-project.org/package=raster (2020).

Pebesma, E. Sterne: Spatiotemporal Arrays, Raster and Vector Data Cubes https://cran.r-project.org/package=stars (2021).

Nölscher, M. & Mutz, M. eumohpclipr https://github.com/MxNl/eumohpclipr/ (2022).

Baston, D. ExactExtractr: Schnelle Extraktion aus Raster-Datensätzen mithilfe von Polygonen https://cran.r-project.org/package=exactextractr (2022).

Ushey, K. renv: Projektumgebungen https://cran.r-project.org/package=renv (2021).

Wickham, H. et al. Tidyverse: Einfaches Installieren und Laden von „Tidyverse“ https://cran.r-project.org/package=tidyverse (2019).

Pebesma, E. sf: Einfache Funktionen für R https://cran.r-project.org/package=sf (2018).

Fischetti, T. Assertr: Assertive Programmierung für R-Analyse-Pipelines https://cran.r-project.org/package=assertr (2021).

R Special Interest Group on Databases (R-SIG-DB), Wickham, H. & Müller, K. DBI: R Database Interface https://cran.r-project.org/package=DBI (2021).

Chang, W. extrafont: Tools zur Verwendung von Schriftarten https://cran.r-project.org/package=extrafont (2014).

Vaughan, D. & Dancho, M. furrr: Mapping-Funktionen parallel mithilfe von Futures anwenden https://cran.r-project.org/package=furrr (2021).

Hester, J. Glue: Interpretierte String-Literale https://cran.r-project.org/package=glue (2020).

Müller, K. hier: A Simpler Way to Find Your Files https://cran.r-project.org/package=here (2020).

Csardi, G. & Nepusz, T. igraph: Netzwerkanalyse und Visualisierung https://cran.r-project.org/package=igraph (2006).

Firke, S. Hausmeister: Einfache Tools zum Untersuchen und Bereinigen schmutziger Daten https://cran.r-project.org/package=janitor (2021).

Pedersen, TL Patchwork: The Composer of Plots https://cran.r-project.org/package=patchwork (2020).

Bivand, R., Keitt, T. & Rowlingson, B. rgdal: Bindungen für die „Geospatial“ Data Abstraction Library https://cran.r-project.org/package=rgdal (2021).

Bivand, R. rgrass7: Schnittstelle zwischen dem geografischen Informationssystem GRASS und R https://cran.r-project.org/package=rgrass7 (2021).

South, A. rnaturalearth: Weltkartendaten von der natürlichen Erde https://cran.r-project.org/package=rnaturalearth (2017).

Wickham, H., Ooms, J. & Müller, K. RPostgres: „Rcpp“-Schnittstelle zu „PostgreSQL“ https://cran.r-project.org/package=RPostgres (2021).

Cooley, D. sfheaders: Konvertiert zwischen R-Objekten und einfachen Feature-Objekten https://cran.r-project.org/package=sfheaders (2020).

Qiu, Y. & Raggett, D. showtext: Schriftarten einfacher in R-Diagrammen verwenden https://cran.r-project.org/package=showtext (2021).

Walthert, L. & Müller, K. Styler: Nicht-invasives hübsches Drucken von R-Code https://cran.r-project.org/package=styler (2021).

Landau, WM Tarchetypes: Archetypen für Ziele https://cran.r-project.org/package=tarchetypes (2021).

Hester, J. & Wickham, H. fs: Plattformübergreifende Dateisystemoperationen basierend auf „libuv“ https://cran.r-project.org/package=fs (2020).

NölSscher, M., Mutz, M. & Broda, S. EU-MOHP v013.1.1 Code. hydroshare https://doi.org/10.4211/hs.8ea376970c904c6698fc8cfe392689de (2022).

Referenzen herunterladen

Die Generierung dieses Datensatzes wäre ohne alle kostenlosen Open-Source-Pakete für R nicht möglich gewesen. Ein besonderer Dank geht daher an deren Entwickler, insbesondere an Will Landau, der schnell Antworten und Lösungen zum Targets-Paket lieferte. Alle verwendeten Pakete finden Sie in den Referenzen. Auch für Diskussionen und Hinweise unserer Kollegen von der BGR waren wir dankbar. Wir danken auch den drei Gutachterkollegen. Ihre durchweg konstruktiven Kommentare haben wirklich dazu beigetragen, den Datendeskriptor zu verbessern.

Open-Access-Förderung ermöglicht und organisiert durch Projekt DEAL.

Bundesanstalt für Geowissenschaften und Rohstoffe (BGR), Berlin, 13593, Deutschland

Maximilian Nölscher & Stefan Broda

Unabhängiger Forscher, Berlin, Deutschland

Michael Mutz

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MN war an allen Phasen und Schritten der Generierung dieses Datensatzes beteiligt, einschließlich Untersuchungen und Visualisierungen. MM trug zur Softwareentwicklung in R und PostGIS sowie zur Methodik und Validierung bei. SB trug zur Konzeptualisierung des Datensatzes bei, leitete aber auch die Überwachung, Projektverwaltung und Finanzierungseinwerbung. Alle Autoren haben das Manuskript überprüft und bearbeitet.

Korrespondenz mit Maximilian Nölscher.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Nölscher, M., Mutz, M. & Broda, S. Hydrologische Position mehrerer Ordnungen für Europa – eine Reihe von Funktionen für maschinelles Lernen und Analyse in der Hydrologie. Sci Data 9, 662 (2022). https://doi.org/10.1038/s41597-022-01787-4

Zitat herunterladen

Eingegangen: 22. August 2021

Angenommen: 14. Oktober 2022

Veröffentlicht: 29. Oktober 2022

DOI: https://doi.org/10.1038/s41597-022-01787-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt