In Geografischen Informationssystemen (GIS) versteht man unter Datenqualität die Güte von Geodaten. Damit wird also beschrieben, inwiefern Geodaten definierte Anforderungen erfüllen. Die Anforderungen und Kriterien werden in der Regel durch ein Qualitätsmodell bzw. Qualitätsstandard festgelegt und im Hinblick auf eine konkrete Fragestellung bewertet. Eines der bekanntesten Qualitätsmodelle ist die ISO 19157-Norm (ehemals ISO 19113) der Internationalen Organisation für Normung. Innerhalb des Qualitätsmodells beschreiben Qualitätsmerkmale, anhand welcher Ansätze die Qualität überprüft wird, die Qualitätsindikatoren legen dann fest, wie die Qualität konkret gemessen wird.
Soll also beispielsweise die Qualität von Geodaten anhand ihrer Vollständigkeit beschrieben werden, muss ein weiterer Qualitätsindikator festgelegt werden, der die Qualität konkret misst. Dies könnte etwa durch Messung der Länge im Falle eines Straßengraphen-Datensatz oder der Flächengröße im Falle eines Forstdatensatz geschehen. Im Folgenden werden die Qualitätsmerkmale nach ISO 19157 und ihre Submerkmale (also untergeordneten Merkmale) beschrieben.
Qualitätsmerkmale nach ISO 19157
Vollständigkeit (Completeness)
Die Vollständigkeit gibt an, wie groß die Wahrscheinlichkeit ist, dass für einen konkreten Anlassfall und zu einem konkreten Ort Daten vorhanden sind oder fehlen. Sind im Vergleich zur realen Welt oder für einen Anwendungsfall festgelegte Mindestanforderung zu wenig Informationen vorhanden, so fehlen Daten und man spricht von Datenmangel. Sind hingegen zu viele Informationen vorhanden, so handelt es sich um einen Überschuss.
Submerkmale:
- Datenüberschuss (commission): Datensatz enthält für die Fragestellung irrelevante Informationen
- Datenmangel (omission): Datensatz enthält weniger Daten als für die Fragestellung benötigt
Beispiel für die Vollständigkeit:
- Die Vollständigkeit eines Straßendatensatz kann bestimmt werden, indem die Gesamtlänge gemessen wird.
Positionsgenauigkeit (Positional Accuracy)
Die Positionsgenauigkeit gibt die Abweichung der Position der Geodaten vom wahren Wert an (oder wenn dieser nicht bekannt ist, vom Erwartungswert). Die Abweichung wird normalerweise in einer messbaren Einheit angegeben und aus einer statistischen Beurteilung ermittelt.
Bei der Positionsgenauigkeit kann man zwischen absoluter und relativer Genauigkeit unterscheiden. Die absolute Genauigkeit beschreibt die Abweichung von den tatsächlichen Koordinaten des Objektes während die relative Genauigkeit angibt wie exakt die Richtungen und Distanzen zwischen zwei Punkten abgebildet wurden.
Submerkmale:
- Absolute (äußere) Genauigkeit (absolute or external accuracy): Übereinstimmung festgestellter Koordinatenwerte mit wahren Koordinatenwerten
- Relative (innere) Genauigkeit (relative or internal accuracy): Übereinstimmung relativer Positionen von Objekten zueinander mit wahren relativen Positionen
- Rasterdatengenauigkeit (gridded data position accuracy): Übereinstimmung von Rasterdatenpositionswerten mit wahren Werten
Beispiel für die Positionsgenauigkeit:
- Die Genauigkeit von Punktkoordinaten eines Datensatzes kann durch genaue Vermessung, durch photogrammetrische Aufnahmen oder durch Vergleiche mit anderen Datensätzen (z. B. mittels Puffermethode oder Hausdorff-Distanz) quantifiziert werden. Diese Abweichung kann dann wiederum als mittlerer Lagefehler angegeben werden.
Attributsgenauigkeit (Thematic Accuracy)
Dieser Parameter bezieht sich auf die Ungenauigkeit der zugewiesenen Attribute. Er beschreibt also, wie korrekt die Attribute den entsprechenden Objekten in den Daten zugeordnet wurden. Diese Fehler können durch fehlerhafte Quelldateien, Fehlinterpretationen (menschliche Fehler) oder Datenbankfehler verursacht werden.
Submerkmale:
- Richtigkeit der Klassifikation (classification correctness): Stimmen Objekte, oder ihre Attribute mit den zugewiesenen Klassen überein
- Richtigkeit nichtquantitativer Attribute (non-quantitative attribute correctness): z. B. Nutzungsart von Grundstücken
- Genauigkeit quantitativer Attribute (quantitative attribute correctness): z. B. Flächengröße von Grundstücken
Beispiel für die Attributsgenauigkeit:
- Die Attributsgenauigkeit eines Datensatzes zur Landnutzung kann gemessen werden, indem überprüft wird ob die entsprechenden Flächen den richtigen Klassen zugeordnet wurden. Dies kann etwa mit einer Stichprobenuntersuchung und einer Konfusionsmatrix durchgeführt werden, welche die richtig und positiv eingeschätzten Landnutzungsklassen gegenüberstellt.
Zeitliche Genauigkeit (Temporal Quality)
Die zeitliche Genauigkeit beschreibt die Aktualität der Daten (zeitliche Gültigkeit), wie genau die Zeitangaben erfolgen und konsistent die Angaben erfolgen.
Submerkmale:
- Genauigkeit von Zeitmessungen (accuracy of a time measurement): Angabe zu einem Datensatz über die Präzision der zeitlichen Angabe, z. B. minutengenau, taggenau
- Zeitliche Konsistenz (temporal consistency): Richtigkeit der zeitlichen Ereignisse und Abfolgen, z. B. richtige Reihenfolge der Landnutzung
- Zeitliche Gültigkeit (temporal validity): Inwieweit stimmt der Datensatz in Bezug auf den geforderten Zeitpunkt, wie aktuell sind die Daten
Beispiel für die zeitliche Genauigkeit:
- Die Genauigkeit von Zeitangaben, beispielsweise im Kontext von GPS-Aufzeichnungen, kann durch die Aktualität der Daten sowie die Präzision der Zeitmessung (welche sich auf die Minute, die Stunde oder den Tag beziehen kann) gemessen werden.
Logische Konsistenz (Logical Consistency)
Die logische Konsistenz gibt an, inwiefern sich die Daten an vorher (in der Regel durch das Datenmodell) festgelegte Regeln hält. Hier wird insbesondere die topologische Konsistenz geprüft und ob die Beziehungen der Attribute und ihrer Werte untereinander stimmig sind.
Submerkmale:
- Konzeptuelle Konsistenz (conceptual consistency): Einhaltung des konzeptuellen Schemas
- Wertekonsistenz (domain consistency): Einhaltung des Wertebereichs, beispielsweise keine negativen Werte bei einer Bevölkerungskartierung
- Formatkonsistenz (format consistency): Übereinstimmung des Datensatzes mit der physikalischen Datenstruktur
- Topologische Konsistenz (topological consistency): Richtigkeit der kodierten topologischen Charakteristika, so sollten etwa Nachbarschaftsbeziehungen erhalten bleiben
Beispiel für die logische Konsistenz:
- Für Landnutzungsdaten kann die logische Konsistenz, genauer gesagt die topologische Konsistenz, bestimmt werden, indem geprüft wird, ob und wie viele Flächenpolygone nicht geschlossen sind. Ein Polygon erfordert nämlich immer, dass der erste Koordinatenpunkt gleich dem Endpunkt ist.
- Ebenfalls bei Landnutzungsdaten kann geprüft werden, ob die Attributhierarchie konsistent ist. Zum Beispiel, ob die Subattribute „See“, „Fluss“ und „Meer“ alle der Oberkategorie „Gewässer“ zugeordnet sind.
Nutzungsziel bei der Datenerfassung und Gebrauchstauglichkeit (Usability)
Dieses Qualitätsmerkmal beschreibt die Eignung eines Datensatzes für einen bestimmten Anwendungsfall (fitness for use), es kann dabei auch andere Qualitätsmerkmale berücksichtigen. Grundsätzlich sind die Anforderungen an die Datenqualität je nach Anwendungsfall sehr unterschiedlich, dieses Qualitätsmerkmal versucht diesen vielfältigen Anforderungen gerecht zu werden.
Beispiel für die Gebrauchstauglichkeit:
- Die Positionsgenauigkeit ist etwa bei globalen Abbildungen der Erde stark vernachlässigbar, bei Katasterdaten jedoch von großer Wichtigkeit.
Literatur
- Norbert Bartelme: Geoinformatik: Modelle, Strukturen, Funktionen. Springer, Berlin 2005, ISBN 3-540-20254-4
- International Organization for Standardization: ISO 19157. Geographic information – Data quality, 2013.