.: Centra wiedzy :. Aktywuj swój bezpłatny dostęp!   .: Computerworld.pl :.
     w 
Zaloguj się
Zarejestruj się
 
KATALOG TEMATYCZNY
 
 
IDG.pl
PC World Komputer
CEO
CIO
CFO
CMO
CSO
NetWorld
Macworld
Playlista
Digit
Kino Domowe - DVD
Tips & Tricks
Gamestar
IT Partner
Internet Standard
Job Universe
ZOOM
Fotografia
Cyber
CyberJoy
Digital Life


 
FELIETONY
Nie ma jak identyfikator (2003.06.09)
Problemy kojarzenia danych mają obecnie nieporównywalnie większe znaczenie, aniżeli miało to miejsce przed wiekami. Może wynikać to z faktu, że teraz zajmujemy się gromadzeniem wszelkiej maści danych, próbując w razie potrzeby dokonać na ich podstawie niezbędnych analiz. Dysponujemy technologią oferującą składowanie i przeszukiwanie ogromnych ilości informacji - czym różnią się czasy obecne od niezbyt odległej przeszłości, kiedy to nawet nie podejmowano się wykonywania pewnych analiz z racji braków warsztatowo-narzędziowych. Być może technologia jest dzisiaj wystarczająca, natomiast ciągle zależna od ludzkiej logiki postępowania, a kojarzenie pewnych informacji może okazać się w dalszym ciągu niemożliwe ze względu na brak wyznaczników określających możliwości sprzężeń pomiędzy zbiorami.

Całkiem niedawno kierowałem projektem integrującym trzy niezależne bazy danych osobowych w jedną całość. Każda z baz zawierała dane podstawowe, czyli imię, nazwisko oraz adres zamieszkania, co w zasadzie na zdrowy rozsądek powinno wystarczyć, aby zidentyfikować osobnika w każdej z nich w sposób jednoznaczny, tym bardziej że wszystkie kojarzone zbiory danych dotyczyły tych samych klientów jednej firmy. Okazało się jednak, że nazwisko nie zawsze równe jest nazwisku, a z adresem zamieszkania to bywa już całkiem różnie. W każdym z dwóch przypadków spajania baz (dwa zbiory dopasowywano do trzeciego) stopień udanej, tzn. jednoznacznej identyfikacji wahał się w okolicach 80%, co oznaczało, że dla 20% klientów nie znaleziono punktów wspólnych jeśli chodzi o imię, nazwisko i miejscowość zamieszkania. Wpływ na to ma wiele czynników, wydawać by się mogło natury prozaicznej. Po pierwsze literówki - wystarczy, że w jednej z baz danych w nazwisku bądź imieniu pominięta zostanie litera lub chociażby zgubiony ogonek w "ą" czy "ę", żeby nie wspominać o jakże ciągle jeszcze nagminnym wpisywaniu "ż" zamiast "ź" (część operatorów komputerów ciągle jeszcze nie wie, że litery te są rozróżnialne).

Okrawanie danych z polskich znaków diakrytycznych do celów porównawczych nie wydaje się dobrym pomysłem na osiągnięcie niewątpliwej pewności identyfikacyjnej, zwłaszcza w przypadku nazwisk. Stosowanie dodatkowych mechanizmów weryfikacji, na przykład adresu zamieszkania może być tylko częściowo pomocne, a to szczególnie w przypadku osób o powtarzających się imionach i nazwiskach. Stopień powodzenia zależy w głównej mierze od aktualności danych adresowych w spajanych bazach oraz ich jednolitości, która może być zachwiana wskutek niedopatrzeń natury projektowej, gdyż często (co nie jest najszczęśliwszym wyborem) ulicę wraz z numerem domu i mieszkania zapisuje się jako jedno pole informacyjne, co wynika tylko i wyłącznie z lenistwa, braku roztropności projektantów i przysparza wielu problemów przy dalszym przetwarzaniu tego typu danych, że o generowaniu bardziej wysublimowanych raportów nie wspomnę.

Muszę powiedzieć, że byłem zaskoczony, gdy po kilku miesiącach przerwy postanowiłem wznowić prenumeratę Computerworlda, korzystając tym razem z internetowego kiosku IDG, zamiast wysyłać papierowy druk zamówienia, co czyniłem do tej pory. Zapisałem się więc jako nowy klient, nie dysponując żadnym nadanym wcześniej identyfikatorem. Ku mojemu zdumieniu okazało się, że system mnie "wyłapał", pokazując historię moich wcześniejszych prenumerat. Gdy zacząłem dociekać, na jakiej podstawie wiedział, że ja to ja, doszedłem do wniosku, że jednak chyba NIP był moim demaskatorem. Jak widać, w informatyce, dziedzinie ścisłej, najwygodniej posługiwać się wszelkiego rodzaju jednoznacznymi identyfikatorami i nie ma wówczas najmniejszych problemów. O ile dla człowieka Jan Nowak i Janowi Nowakowi oznacza tę samą osobę, o tyle dla komputera bez kawałka niezłego oprogramowania sprawa jest zupełnie niezrozumiała.


 
 
Zobacz też:
Artykuły



RAPORT
Płace w IT
  • Niedobór czy nadmiar?
    Na rynku pracy dla specjalistów IT mamy dziś specyficzną sytuację. Z jednej strony, od kilku lat do polskich firm trafiają kolejne, liczne roczniki absolwentów studiów informatycznych. Nie ma zatem problemu ze znalezieniem młodych wykształconych kadr. Z drugiej jednak strony, znalezienie doświadczonego informatyka nadal pozostaje nie lada wyzwaniem.
  • Wygrać o włos
    Z dr. Tomaszem Rostkowskim, wykładowcą Szkoły Głównej Handlowej i współpracownikiem Institute of Advanced Managment oraz Jackiem Nowackim z Institute of Advanced Managment rozmawia Antoni Bielewicz.
  • Warszawa - miasto dla menedżera
    Kraków i Wrocław zdetronizowały Warszawę w rankingach najbardziej atrakcyjnych miejsc do inwestycji technologicznych. Stolica nadal jednak pozostaje atrakcyjnym miejscem pracy dla informatyków. Zwłaszcza zainteresowanych karierą menedżerską.
  • Gdańsk - dobre zarobki tylko w IT
    Gdańsk wraz z całym Trójmiastem znalazły się daleko w tyle jeśli chodzi o wynagrodzenia dla specjalistów IT. Informatyk ma jednak szansę na dobrą pensję przede wszystkim w renomowanych firmach technologicznych.



 
Wiadomości     Wywiady     Badania i analizy     Case Study     Felietony     Archiwum     Raporty     Programy     White Papers
O nas | Kontakt | Redakcja | Regulamin | Reklama | Ochrona prywatności
Zasoby premium - nie masz uprawnień dostępu: zapłać SMSem, zarejestruj się
Zasoby premium - dostęp przyznany
Copyright 1999 - 2008 IDG Poland SA. Wszelkie prawa zastrzeżone. Publikacja całości lub części zamieszczonych materiałów w jakiejkolwiek formie bez pisemnej zgody IDG Poland SA jest zabroniona. Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.

Korzystanie z serwisu Computerworld Online jest jednoznaczne z wyrażeniem zgody na następujące warunki obsługi. Serwis realizuje wytyczne ASME oraz uzupełnienia IDG dotyczące zasad publikacji w mediach elektronicznych. Prosimy też o zapoznanie się z ochroną prywatności.


Computerworld na świecie: Niemcy: Computerwoche | USA: Computerworld |