BluePink BluePink
XHost
Oferim servicii de instalare, configurare si monitorizare servere linux (router, firewall, dns, web, email, baze de date, aplicatii, server de backup, domain controller, share de retea) de la 50 eur / instalare. Pentru detalii accesati site-ul BluePink.

Cap. 9 ERORI SI PRECIZIE ÎN SIG

 


Continut

9.1 Importanța preciziei datelor și produselor SIG

9.2 Câteva definitii de bază

9.3 Tipuri de erori

9.4 Surse posibile de erori în SIG

9.5 Probleme ale propagării si cumulării erorilor

9.6 Falsa precizie

9.7 Pericolele datelor nedocumentate

9.8. Scurtă bibliografie


1. Importanța preciziei datelor și produselor SIG

Până în ultimii trei ani s-a acordat o mai mică importantă preciziei datelor SIG (G(S). Se stie că datele contin erori sistematice sau aleatoare, dar nu s-a accentuat asupra felului cum procedurile și solutiile SIG tin seama de aceste erori. O bună tratare a acestei probleme permite alegerea celor mai bune surse de date, alegerea celor mai corecte metode de culegere a datelor și alegerea celor mai corecte proceduri de prelucrare si de realizare a produselor finale. Dacă nu se tine seama de problemele de mai sus, multe proiecte SIG pot fi întrerupte. Se stie că în SIG sunt concatenate multe date discrete, de diferite tipuri, cele mai importante fiind datele de pozitie, deoarece la ele sunt referite toate celelalte tipuri de date.


2. Definitii de bază

Precizia se referă aici la gradul în care datele SIG iau valori acceptabile fată de valorile lor adevărate și caracterizează calitatea datelor, considerând valorile datelor ca având numai valori aleatoare, dar controlabile. Nu este omisă nici abordarea corectării datelor de eventualele erori sistematice. Având în vedere tipurile diverse de date și de proceduri de culegere, validare și prelucrare, se poate arăta că:

(a) datele au măsuri și metode diferite de apreciere a preciziei;

(b) nivelul necesar de precizie specific diferitelor tipuri de aplicații variază mult;

(c) precizia datelor este legată strict de metodele de culegere, de aparatura folosită, de sursele de date, de procedurile de prelucrare etc.;

(d) ca urmare a celor de mai sus, precizia datelor depinde și de costurile SIG și invers.
Calitatea datelor, în care intră și datele referitoare la precizie se arată în mod explicit și în documentația ce însoțește o bază de date SIG, respectiv prin metadate.


3. Tipuri de erori

Cu toate că datele de poziție au cea mai mare importanță în SIG, cele de mai jos se vor referi la toate tipurile de date întâlnite într-un proiect SIG.

3.1. Precizia pozițională

Precizia pozițională este diferită pentru datele culese prin metode geodezice, fotogrammetrice, topografice, cartografice etc. Dar în final, datele de poziție reunite (concatenate) nu vor avea precizia mai mare decât cea a datelor de cea mai slabă precizie. Sursa cea mai comună de date pentru SIG este harta topografică. În instrucțiunile de realizare a hărților se fac referiri la precizia pozițională a detaliilor reprezentate pe aceste hărți. Astfel, pentru hărțile topografice la scările 1:10 000 - 1:1 000 000, precizia detaliilor este de 0,4 mm la scara hărții, cu un nivel de încredere a=0,05 (probabilitatea de 0,95). Se poate concluziona că precizia depinde de scară, valoarea de mai sus reprezentând de exemplu 9 m în coordonate reale pentru scara 1:25 000. În S.U.A., standardele de precizie prevăd valorile de precizie a poziției orizontale la scara hărții de 1/30 inch (respectiv 0,86 mm) pentru hărțile topografice la scara 1:20 000 și mai mare, iar pentru scările mai mici de 1:20 000 de 1/50 inch (respectiv 0,5 mm), pentru un nivel de încredere a=0,10 (probabilitatea de 0,90) (vezi anexa F din Nitu, C., et all, 2002) ). Cele de mai sus trebuie avute în vedere la toate tipurile de detalii - punctuale, liniare sau areale. Precizia de mai sus este asigurată când la digitizare se folosesc originalele de editare pe film.
Trebuie arătat aici că operațiunile de mărire sau micșorare pe ecran (efectul de lupă "zoom in" și "zoom out") nu modifică precizia datelor. Mărirea imaginii dă o impresie falsă a îmbunătățirii preciziei datelor.
In figură puteti observa standardele de precizie pentru diferite scări ale hărtii . Se poate reprezenta grafic eroarea probabila a unui punct (care de fapt se afla intr-o zona) si a unei linii (element liniar)..

 

3.2. Precizia aributelor sau datelor temaice

Si datele nespatiale referite la cele pozitionale sunt caracterizate de indicatori de precizie care pot varia în limite foarte largi, având în vedere eterogenitatea acestor date. Fenomenele sunt descrise în detaliu de date cât mai precise. Preciziile datelor de mai sus pun probleme deosebite.

3.3. Precizia conceptuală

SIG depinde de abstractizarea si clasificarea fenomenelor lumii reale. Utilizatorii determină ce volum de informatii este folosit si cum este clasificat în diferite categorii. Uneori se folosesc categorii inadecvate sau informatii gresit clasificate. De exemplu, clasificând localitătile după numărul persoanelor cu drept de vot nu se pot trage concluzii cu privire la natalitate si mortalitate sau clasificând liniile electrice doar după voltaj se limitează eficienta SIG la managementul infrastructurii utilitătilor electrice. Chiar dacă sunt folosite categorii corecte, acestea pot fi de neutilizat pentru o anumită problemă.

3.4 Precizia logică

Precizia logică se referă la precizia datelor logice stocate în SIG. Datele stocate "logic" pot fi folosite inadecvat. De exemplu, poate fi dată aprobarea de constructie a unui cvartal într-o margine a unei localităti, fără a se analiza harta (planul) cu tipurile de sol sau cu deplasările posibile ale scoartei terestre. Sistemele SIG nu decid în locul utilizatorului si nu-l ajută cu nimic dacă analiza datelor este inadecvată sau dacă datele sunt imprecise sau incorecte. Câteva reguli de folosire pot fi introduse în SIG, care este proiectat astfel ca un "sistem expert", dar realizatorii SIG trebuie să se asigure că regulile folosite corespund caracteristicilor lumii reale pe care ei o modelează.
Este o greseală să se creadă că fiecare aplicatie SIG are nevoie de date de înaltă precizie. Necesitătile de precizie variază radical în functie de tipul de date si de rezolutiile necesare ale datelor pentru o anumită aplicatie. Precizia crescută excesiv nu numai că duce la mărirea costurilor, dar poate da detalieri care nu sunt necesare.


4. Surse de erori

Doar putine surse de erori pot fi identificate chiar de procedurile SIG. Cade în sarcina utilizatorului folosirea unor date neeronate. o atentie aparte trebuie acordată verificării preciziei datelor, deoarece procedurile SIG îl pot conduce pe utilizator într-o directie falsă a aprecierii preciziei. De exemplu, procedura de netezire a curbelor (smooth) duce la reprezentări elegante, dar incorecte. De fapt, unele detalii reprezentate astfel sunt "vagi, graduale sau fuzzy" (Burrough, 1986). Si asa există un anumit grad de imprecizie în cartografie, începând cu relatiile matematice si deformările diferitelor proiectii cartografice si continuând cu procesul de culegere si reprezentare a datelor în SIG.
Sursele de erori pot fi împărtite în trei grupe: (a) surse obisnuite de erori; (b) erori rezultate din variatii naturale sau din măsurătorile originale; (c) erori datorită prelucrării. De regulă, erorile din primele două grupe sunt mai usor de detectat decât cele ce apar prin procesare, care pot fi subtile si greu de identificat.

4.1 Surse obisnuite de erori

4.1.1. Vechimea datelor

Sursele de date, în afară de teren, pot avea un anumit grad de vechime, dată de modificările ce au avut loc asupra lumii reale de la data creerii acestor posibile surse. Unele sisteme chiar necesită date cu diferite rezolutii temporale pentru studiul variatiei în timp a unor fenomene si pentru eventuale prognoze. Pentru majoritatea sistemelor sunt necesare cele mai noi date, culese de pe hărtile de ultimă editie si completate cu date obtinute pe cale aerofotogrammetrică sau cu ajutorul satelitilor artificiali ai pământului (de teledetectie). Vechimea datelor de pe aceste ultime înregistrări este dată de data realizării imaginilor.
Trebuie avut în vedere faptul că unele hărti tematice s-au realizat după realizarea hărtilor topografice de o anumită editie si gradul de precizie a datelor tematice nu este arătat nicăieri, asa cum este arătat pentru hărtile topografice.

4.1.2. Acoperirea areală

Datele corespunzătoare unui domeniu areal pot lipsi complet sau sunt disponibile doar anumite straturi de date. De exemplu, hărtile tematice pentru vegetatie si pentru soluri pot fi incomplete în zonele de frontieră si pentru unele perioade de tranzitie si în momentul de fată nu mai reprezintă fidel realitatea. O acoperire uniformă este imposibil de obtinut pentru toate tipurile de date si utilizatorul trebuie să decidă ce nivel de generalizare este necesar sau dacă mai este necesară culegerea folosind si alte surse de date.

4.1.3. Scara geoimaginii sursă

Geoimaginile au o anumită scară, de care depind gradul de detaliere si precizia datelor. Scara restrânge tipul, cantitatea si calitatea (aici intrând si precizia) datelor SIG (Nisu, C., Nitu,C.D. 1992a si 1992b). Trebuie alese geoimaginile sursă de scări care să asigure caracteristicile de rezolutie si precizie corespunzătoare celor mai pretentioase aplicatii ale SIG (cel mai f1n detaliu). Mărirea unei hărti la scară mică nu duce la îmbunătătirea indicatorilor de precizie sau la mărirea gradului de detaliere, asa cum consideră unii utilizatori de formatie diferită de cea geodezică.

4.1.4. Densitatea observatiilor

Rezolutiile specifice datelor si complexitatea detaliilor dintr-o anumită zonă geografică determină numărul de observatii pe unitatea de suprafată sau densitatea observatiilor. Aceasta trebuie inclusă în metadate si trebuie cunoscută de către utilizator.Analiza geografică necesită date de rezolutii specificate. De exemplu, realizarea hărtilor cu izolinii (izohipse, izobare, izoterme, izocline etc.), cu o anumită echidistantă, necesită o anumită densitate a punctelor dispuse neregulat cu valori z=f(x,y) cunoscute, o rezolutie spatială plană a punctelor cu valori z dispuse într-o grilă regulată etc

4.1.5. Relevanta datelor

Adesea nu se pot obtine anumite date asupra unei zone si în locul acestora se utilizează date obtinute indirect, respectiv date de înlocuire. Între datele de înlocuire si fenomenul ce trebuie analizat trebuie să existe o anumită relatie. În statistică sunt multe exemple de determinare indirectă a unor mărimi necunoscând prea multe date, ci doar unele esantioane dintr-o populatie, concluziile extrapolându-se la întreaga populatie.
De asemenea, alt exemplu este cel de urmărire a stadiilor succesive ale culturilor, care se poate face prin urmărire directă la teren sau prin date de teledetectie. Tot prin teledetectie se pot analiza pentru o zonă tipurile de soluri, probabilitatea de eroziune etc.
Relevanta datelor este acea caracteristică ce exprimă că o multime de date corespunde cu un anumit nivel de încredere (de regulă cuprins între 0,05 si 0,10) scopului în care sunt utilizate. Si această valoare trebuie specificată în metadate.

4.1.6. Formatul

Metodele de formatare a informatiei digitale pentru transmitere, memorare si procesare pot introduce erori in data. Transformarile scarii, proiectiei, din formatul raster in vector si marimwa rezolutiei pixelilor sunt exemple de cauze posibile ale erorilor datorita formatului. Conversiile multiple dintr-un format in altul pot crea o cumulare a erorilor. De aici rezulta necesitatea standardelor de formate.

4.1.7. Accesibilitatea

Accesibilitatea la date nu este aceeasi pentru toate organizatiile si toate tipurile de date. Accesul la unele date poate fi restrictionat, aceste date avand niveluri diferite de clasificare. Restrictii exista pentru unele date folosite de militari, pentru date folosite de unele firme de stat sau particulare etc. Pot fi restrictionate doar datele de o anumita precizie si densitate.

4.1.8. Costul

Culegerea datelor costa circa 75 - 80 % din costul intregului sistem. Uneori e mai bine sa cumperi date, decat sa digitizezi sau sa faci determinari fotogrammetrice si geodezice. Exista o legatura directa intre precizie si cost.

4.2. Erori rezultate din variatia naturală sau din măsurătorile originale

Sursele acestor erori pot fi cele obisnuite, cunoscute din literatura de specialitate, sau unele ce urmează a se determina. Nu vor fi descrise decât acele tipuri pentru care au fost identificate procedurile de culegere si validare a datelor tratate în prezenta lucrare.

4.2.1. Precizia pozitională

PPrecizia pozitională este măsura variantei pozitiei detaliilor fată de pozitia lor reală. Aceasta depinde de tipul datelor folosite sau măsurate. Precizia caracterizează punctele rezultate din discretizarea detaliilor punctuale , liniare si areale (erori de digitizare a hartii). Indicatorii de precizie sunt prevăzuti în metadate si sunt stabiliti pe baza metodelor statistice pentru un nivel de încredere dat (de regulă a=0,05), pentru metoda cea mai imprecisă de determinare a pozitiei. Unele detalii, în special cele reprezentate pe hărtile topografice au un nivel mai mare de precizie. Unele detalii tematice, precum zonele climatice, zonele corespunzătoare tipurilor de sol etc. sunt cu frontiere interpretabile (imagini generalizate) .

4.2.2. Precizia continutului

Precizia continutului se referă la atribuirea corectă a codurilor de identificare în urma aplicării unei clasificări la conversia datelor în formă numerică (la digitizarea vectorială a hărtilor, la interpretarea asistată de calculator a imaginilor etc.). Anumite detalii pot fi de asemenea omise la această conversie. Alte erori privind precizia cantitativă pot fi prezente datorită necalibrării instrumentelor de măsurare pentru mărimi precum altitudinea de zbor, pH-ul solului sau atmosferei, continutului în gaze a atmosferei etc. Unele erori sau greseli de acest tip rezultate în laboratore sau în teren sunt nedetectabile.
O măsură a preciziei de identificare este coeficientul Kappa (K) al lui Cohen. Pentru o zonă dată, se construieste o matrice de nX.n elemente, n fiind numărul de tipuri de detalii ale SIG. Pe coloane se reprezintă tipurile de detalii ale clasificării reale, iar pe linii tipurile de detalii din baza de date. Dacă cele două tipuri de clasificări coincid, matricea va avea termeni diferiti de 0 numai pe diagonala principală, o valoare fiind egală cu numărul de aparitii ale elementului cu un cod dat. În afara diagonalei principale, un termen ri,j al matricei R arată de câte ori a fost interpretat eronat detaliul i ca un detaliu j. Coeficientul K se determină cu formula

K=(d-q)/(N-q) ..............................................................................................(3.17)

unde d este suma elementelor de pe diagohala principală sau numărul de clasificări corecte

d=Sirii, i=1,n ................................................................................................(3.18)

N este suma tuturor elementelor matricei sau numărul total de clasificări, iar q este determinat cu relatia

q=(Suma(i)ri,j+1.ri+1,j)/N, i=1,n, j=i .....................................................................(3.19)

unde ri,j+1 este suma elementelor liniei i, iar ri+1,j este suma elemenzelor de pe coloana j. Când există numai clasificări corecte valoarea coeficientului este egală cu 1. În anexa F(e) este arătat un exemplu de clasificare incorectă a unor detalii si este calculat coeficientul K. În cazul dat valoarea obtinută este K=0,66. Cu cât K este mai apropiat de 1, cu atât clasificarea este mai precisă.

4.2.3. Surse ale variatiei în date

Variatiile în date apar datorită erorilor de măsurare ale metodei, celor specifice operatorului si datorită necalibrării sau calibrării inadecvate a instrumentelor de măsură. De exemplu un scaner fotogrammetric are o rezolutie radiometrică mai mare decât un scaner cartografic si ca atare si o precizie mai mare. Precizia fiecărui scaner poate fi alterată după o perioadă mare de utilizare si datorită necalibrării corecte. De remarcat că vânzătorii de scanere nu furnizează si programele de calibrare. Un alt exemplu se poate da pentru datele tematice. O calibrare incorectă a instrumentului de măsurare a oxigenului dizolvat în apă va duce la date incorecte privind concentratia de oxigen în apele unui lac, unui râu sau ale unui golf.
Poate exista si o variatie naturală în valorile datelor (în datele) culese. De exemplu, salinitatea apelor unui golf sau ale unui estuar variază în cursul unui an si depinde de influxul de apă din fluvii si râuri si de evaporare. Dacă nu se tine seama de aceste variatii naturale se pot trage concluzii gresite si se pot lua decizii eronate, respectiv să se introducă erori în SIG. În orice caz, dacă erorile nu duc la rezultate neasteptate, detectarea lor poate fi extrem de dificilă

4.3. Erori ce apar prin procesare

Erorile datorită procesării sunt cele mai greu de detectat de utilizatorii SIG, trebuie căutate cu metode specifice si necesită cunostinte suplimentare. Sunt erori subtile care apar în moduri diferite si pot apare în structuri multiple de date gestionate în SIG.

4.3.1. Erori numerice

Calculatoarele diferite pot să nu aibe aceeasi capabilitate de realizare a operatiunilor matematice complexe si se pot obtine diferente semnificative ale rezultatelor aceluiasi algoritm. Testarea se poate face în mod simplu prin ridicări succesive la pătrat, apoi prin extragerea succesivă a rădăcini pătrate, când ar trebui să se ajungă la numărul de la care s-a plecat.
Altă sursă de erori poate fi chiar defectiunile calculatorului, respectiv ale cipului de bază al acestuia. Un asemenea caz a apărut la o serie de calculatoare Pentium (tm) ale firmei Intel.
O altă sursă de erori este cea legată de conversia analog-digital (A-D), Deoarece calculatoarele trebuie să manipuleze datele în format digital, erorile numerice în procesare pot conduce la rezultate imprecise. În orice caz, erorile numerice de procesare se detectează greu si presupun o anumită sofisticare care nu e prezentă la utilizatorii SIG de formatie negeodezică.

4.3.2. Erori în analiza topologică

Erorile logice pot duce la manipulări incorecte ale datelor si la analize topologice incorecte (Nitu, C., Nitu, C.D. 1992a). Se recunoaste că datele sunt eterogene si sunt susceptibile de variatii. Suprapunerea straturilor poate duce la probleme ca poligoane aschie (pană, aschie), neracordări , goluri etc. (depasiri, neracordari). Variatia preciziei straturilor diferite poate fi ascunsă pe timpul prelucrării, ducând la crearea de "date virtuale care pot fi greu de detectat din datele reale" (Sample, 1994). În anexele F si C sunt arătate câteva cazuri ce duc la eronarea datelor si a produselor derivate din date (Nitu, C., Nitu, C.D., 1992a si 1992b).

4.3.3. Problemele clasificării si generalizării

Pentru mintea umană, pentru a întelege marele volum de date, acestea trebuie clasificate si în unele cazuri generalizate. Chiar clasificarea este o etapă a generalizării. Referiri la clasificarea în SIG sunt prezentate în acest capitol Cazul ideal presupune sapte subclase ale unei clase, pentru a fi memorate de om pe termen scurt. Datele sunt manipulate si afisate mai usor în mici grupe de date. Clasificarea si
generalizarea atributelor sau datelor tematice ale SIG duc la erori de interpolare si pot introduce neregularităti în date care pot fi detectate greu. O măsură a corectitudinii clasificării este calculul coeficientului Kappa. Aprecierea generalizării poate fi făcută, asa cum s-a arătat, cu metode ale analizei informationale.

4.3.4. Erori de digitizare si geocodare

Erorile de prelucrare, erorile surselor si ale metodelor de culegere apar în procesul de culegere si validare a datelor, respectiv digitizare cartografică, exploatare fotogrammetrică la aparatele clasice, analitice si digitale, la geocodare etc., la suprapunerea straturilor la intersectările obiectelor liniare, la intersectările contururilor obiectelor areale, vectorizarea datelor raster, rasterizarea datelor vectoriale etc. Erorile datorate operatorului pot duce la aparitia unor scurburi suplimentare, intoarceri, noduri poligonale , bucle etc. Erorile surselor (geoimaginilor) sunt tratate pe larg în disciplinele de specialitate.
Un caz aparte este problema georeferentierii, întâlnită la aducerea coordonatelor geoimaginilor în sistemul de coordonate al proiectiei cartografice, respectiv în coordonatele bazei de date a SIG. Pentru transformare se pot folosi diferite functii de aproximare, printre care cele ale rototranslatiei, transformărilor afină si proiectivă etc.


5. Probleme ale propagarii si cumularii erorilor

Datele provin din multe surse si sufera mai multe conversii sau transformari. Exista mai multe straturi, care trebuie combinate intre ele. O eroare a unei date se propaga la alte date care sunt functie de acea data.

 

5.1. Propagarea

Propagarea apare cand o eroare a unei date duce la eroarea altei date. De exemplu, daca un punct al harti care serveste pentru registratie a fost digitizat eronat intr-un strat si este folosit apoi pentru orientarea pe un alt strat, eroarea se va propaga in produsul final. In acest mod, o singura eroare poate duce la altele.

5.2. Cumularea

Cumularea apare de la mai multe date eronate si de la mai multe transformari si combinari. Efectele cumularii pot fi foarte greu de prezis si de detectat. Cumularea poate fi aditiva sau multiplicativa si poate varia in functie de modul de combinare a datelor. Datele initiale trebuie testate si validate.


6. Falsa precizie

Nu va bazati pe date gratuite sau cu preturi modice, ca se poate ca acestea sa fie eronate. Gasiti intotdeauna alte metode de trestare si validare. Comparati-le cu datele din alte surse mai precise. Piata datelor geografice este abia in formare.


7. Pericolele datelor nedocumentate

Datele trebuie documentate prin metadate si prin certificate de calitate

7.1. Atentie la procurarea sau cumpararea datelor

Datele trebuie sa se incadreze in standardde de precizie prestabilite, care sunt disponibile public, tiparite sau in forma digitala (metadate)..

7.2. Pregateste un certificat de calitate pentru setul tau de date

Certificatul are forme diferitete, in functie de institutia elaboratoare.

7.3. In absenta certificatului de calitate

Fiti atenti la:.

7.4. Standarde de date si metadate

Faceti click pe FGDC pentru a invata mai multe despre problemele de mai sus, pentru prevederile din SUA.


8. Scurtă bibliografie

Antenucci, J.C., Brown, K., Croswell, P.L., Kevany, M. and Archer, H. 1991. Geographic Information Systems: a guide to the technology. Chapman and Hall. New York.

Burrough, P.A. and R.A. McDonnel. 1997. Principles of Geographical Information Systems for Land Resource Assessment. Clarendon Press. Oxford.

Koeln, G.T., Cowardin, L.M., and Strong, L.L. 1994. "Geographic Information Systems". P. 540 in T.A. Bookhout ed. Research and Management Techniques for Wildlife and Habitat. The Wildlife Society. Bethesda.

Muehrcke, P.C. 1986. Map Use: Reading, Analysis, and Interpretation. 2d Ed. JP Publications, Madison.

Nitu, C., Nitu, C. D., Tudose, C., Visan, M. 2002. Sisteme informationale geografice si cartografie computerizata (Roumanian), University of Bucharest Publishing House, 278 p.

Sample, V.A. (Ed). 1994. Remote Sensing and GIS in Ecosystem Management. Island Press. Washington, D.C.

Star, J. and Estes, J. 1990. Geographic Information Systems: an Introduction. Prentice Hall. Englewood Cliffs.

Tufte, E.R. 1990. Envisioning Information. Graphics Press, Cheshire, Conn.



BACK FORWARD

Cu punctare si clic pe săgeata către dreapta se trece la capitolul următor, iar pe săgeata către stânga la capitolul anterior.


Trimite comentarii si sugestii la: cnitu@personal.ro