Kontakt:
Ten adres e-mail jest ukrywany przed spamerami, włącz obsługę JavaScript w przeglądarce, by go zobaczyć
telefon: +48 22 847 97 17
StatDQ - aplikacja do zarządzania jakością danych (Data Quality)

StatDQ stanowi kluczowe narzędzie przy realizacji:

  • projektów czyszczenia danych
  • procesów zarządzania jakością danych.

Jest to produkt dostosowany do polskich warunków, pracujący m.in. na danych demograficznych (pola takie jak imię, adres, telefon, e-mail), przetestowany na dużych bazach danych.

Zakres funkcjonalności tej aplikacji umożliwia między innymi:

  • profilowanie danych,
  • czyszczenie danych (w tym parsing, deduplikacja, standaryzacja),
  • wzbogacanie danych,
  • wdrożenie automatycznych procesów jakości danych.

Aplikacja może być używana do wykrywania, monitorowania i rozwiązywania problemów w źródłach danych.

 deduplikacja danych

Zastosowania StatDQ

Profilowanie

Aplikacja umożliwia profilowanie, czyli eksplorację danych pod kątem wykrywania zjawisk wpływających na niską jakość danych.

Zawiera zestaw interaktywnych narzędzi wspomagających wyszukiwanie problemów. Pozwala także na weryfikację jakości danych pod kątem poprawności technicznej i biznesowej. Umożliwia analizę statystyczną i wizualizację danych.

Czyszczenie danych

W ramach czyszczenia danych, aplikacja StatDQ pozwala na wykonanie takich operacji jak:

  • parsowanie - umożliwia rozbicie jednego złożonego pola na wiele pól w oparciu o znaczenie danych i kontekst (na przykład imię i nazwisko, kod i miejscowość itp.),
  • standaryzację - umożliwia zamianę wielu różnych wystąpień tej samej wartości zmiennej jedną wartością. Przykładowo, wartości: „Warszawa” i „Wa-wa” zostaną zidentyfikowane jako ta sama wartość i zastąpione jedną, zdefiniowaną wartością.
    Aplikacja umożliwia skorzystanie z wbudowanych słowników standaryzacji lub utworzenie własnych słowników na podstawie danych klienta.
  • deduplikację - narzędzia StatDQ pozwalają na wykrycie powtórzonych rekordów i ich konsolidację.

Wzbogacanie danych

  • Łączenie zewnętrznych źródeł - aplikacja posiada rozbudowane możliwości powiązania wierszy między źródłami danych - dopasowywania (Matching), umożliwiając łączenie różnych źródeł danych. Funkcjonalność dopasowywania probabilistycznego pozwala na łączenie nawet wówczas, gdy źródła danych mają różnie zdefiniowane pola służące do identyfikacji wiersza. Przykładowo, umożliwia powiązanie osoby z dwóch źródeł:

    Źródło 1

    Jan Kowalski, ur. 1975/01/27

    01-515

    al. Solidarności

    -

    Czy to ta sama osoba?

    Źródło 2

    Kowalski J.

    Warszawa

    SOLIDARNOSCI

    1 styczeń 1975r.

     

  • Nowe informacje ze słowników - StatDQ umożliwia dodanie nowych informacji do danych za pomocą słowników. W aplikację wbudowany jest zestaw polskich słowników, m.in. słownik imion, słownik kodów pocztowych.
  • Wykrywanie gospodarstw domowych (Householding) - umożliwia ustalenie relacji pomiędzy klientami, na przykład identyfikację gospodarstw domowych lub firm, na podstawie informacji o klientach w bazie danych.

Wdrożenie automatycznych procesów jakości danych

Funkcjonalność aplikacji umożliwia osiągnięcie i utrzymywanie określonego poziomu jakości danych w dłuższym okresie czasu. Jest to realizowane przez zautomatyzowanie wybranych procesów Data Quality i ich cykliczne uruchamianie.

Oprócz automatyzacji, aplikacja umożliwia kontrolowanie działania wdrożonego procesu czyszczenia danych przez jego automatyczne raportowanie i monitorowanie.

Aplikacja StatDQ pozwala również na cykliczną kontrolę jakości danych za pomocą:

  • walidacji reguł biznesowych,
  • analizy wskaźników jakości danych w czasie,
  • analizy stabilności zmiennych w czasie.

Cechy StatDQ

Aplikacja StatDQ jest autorskim rozwiązaniem firmy StatConsulting. Dzięki temu możliwe jest dostosowanie oferowanego rozwiązania do indywidualnych potrzeb klienta oraz późniejsze utrzymanie i rozwój dedykowanych wersji oprogramowania.

Cechy aplikacji obejmują m.in.:

  • skalowalność - aplikacja została sprawdzona w projektach, w których ilość wierszy danych demograficznych przekraczała 3 miliony rekordów,
  • przystosowanie do polskich warunków - w aplikacji przygotowane zostały specjalne gotowe reguły i algorytmy przystosowane do specyfiki danych występujących w Polsce,
  • możliwość dostosowywania - reguły i algorytmy używane w procesie czyszczenia danych mogą być dowolnie modyfikowane i definiowane przez użytkownika,
  • import/eksport danych - StatDQ umożliwia import danych z różnych systemów relacyjnych baz danych. Ponadto, istnieje możliwość wczytywania danych z plików tekstowych przy wykorzystaniu standardu CSV, XML oraz z arkuszy kalkulacyjnych. Aplikacja oferuje przeglądanie, wczytywanie oraz edycję tabel i ich zawartości,
  • raportowanie - w aplikacji StatDQ możliwe jest tworzenie cyklicznych raportów zawierających pożądane ilości zestawień i statystyk. Zawiera ona funkcjonalność modyfikowanych przez użytkownika szablonów. Aplikacja jest zintegrowana z pakietami biurowymi MS Office oraz OpenOffice.

Zobacz także:

 

© Copyright by StatConsulting 2008 - All rights reserved