Przejdź do treści
← Powrót do Insights
AI w praktyce
daneAI w praktycedata qualityenterprise AI

"Mamy dane" — największe kłamstwo w projektach AI

"Mamy dane" to zdanie, które słyszę na początku prawie każdego projektu AI. I prawie za każdym razem okazuje się, że to nieprawda — dane są w czterech systemach, niespójne, niekompletne i bez dokumentacji.

"Mamy dane". To zdanie słyszę na pierwszym spotkaniu w niemal każdym projekcie AI. Mówi je zwykle ktoś z zarządu albo dyrektor IT. Mówi je z przekonaniem. I prawie za każdym razem okazuje się, że to nieprawda.

Nie dlatego, że kłamie. Dlatego, że "mamy dane" w rozumieniu organizacji oznacza coś zupełnie innego niż "mamy dane gotowe do wykorzystania przez AI".

Cztery systemy, zero spójności

Typowy scenariusz, który widzę w polskich firmach średniej i dużej wielkości, wygląda tak: dane o klientach są w CRM-ie, dane operacyjne w ERP, dane finansowe w osobnym systemie, a raporty tworzone są w Excelu na podstawie eksportów z tych trzech źródeł. Nikt nigdy nie siedział nad tym, żeby te dane ze sobą pogodzić. Każdy system ma swoją logikę, swoje formaty, swoje definicje pól.

Kiedy prosisz o zestawienie tych danych w jednym miejscu, okazuje się, że:

  • Ten sam klient ma trzy różne identyfikatory w trzech systemach.
  • Dane adresowe są w różnych formatach i różnym stopniu aktualności.
  • Część pól jest wypełniona, część nie — i nikt nie wie, dlaczego.
  • Dokumentacji struktury danych nie ma, albo jest z 2019 roku i nie odpowiada stanowi faktycznemu.

To nie jest wyjątek. To jest norma.

Prawda wychodzi, gdy człowiek siada do danych

Moment, w którym iluzja "mamy dane" pęka, jest zawsze ten sam: kiedy ktoś — człowiek, nie maszyna — siada i próbuje na tych danych wykonać konkretne zadanie. Nie raport. Nie dashboard. Konkretne zadanie biznesowe, które miało być zautomatyzowane przez AI.

I wtedy zaczyna się seria pytań: "Skąd wziąć tę wartość?", "Dlaczego tu jest puste pole?", "To jest aktualne, czy historyczne?", "Kto jest właścicielem tych danych?". Na większość tych pytań nikt nie zna odpowiedzi — bo nikt nigdy ich nie zadawał. Dane były, systemy działały, ludzie jakoś sobie radzili, robiąc workaround za workaroundem.

AI nie robi workaroundów. AI potrzebuje spójnych, kompletnych danych z jasną strukturą. I tu zaczyna się problem. To zresztą ten sam mechanizm, który zabija piloty: „udany" pilot AI nie przechodzi do produkcji między innymi dlatego, że demo dane były wyselekcjonowane, a produkcyjne nie istnieją w gotowej formie.

"Mamy dane" a "dane są gotowe"

To są dwa fundamentalnie różne zdania. "Mamy dane" oznacza: gdzieś w organizacji istnieją zapisy cyfrowe dotyczące naszej działalności. "Dane są gotowe" oznacza: te zapisy są spójne, kompletne, udokumentowane, dostępne w jednym miejscu i nadają się do wykorzystania w konkretnym celu.

Między jednym a drugim jest przepaść. I ta przepaść kosztuje. Widziałem projekty, w których 70% budżetu na "wdrożenie AI" poszło na porządkowanie danych. Nie na model, nie na integrację, nie na UX — na to, żeby w ogóle mieć z czego korzystać.

To nie jest zły scenariusz. To jest uczciwy scenariusz. Zły scenariusz to taki, w którym nikt nie sprawdza danych, buduje proof of concept na demo danych, a potem dziwi się, że na produkcji nic nie działa.

Dlaczego firmy się okłamują

Bo prawda jest niewygodna. Powiedzieć zarządowi "nie mamy danych gotowych do AI" to powiedzieć, że lata inwestycji w systemy IT nie dały fundamentu, którego potrzebujemy. To jest trudna rozmowa. Dużo łatwiej powiedzieć "mamy dane" i przejść do kolejnego slajdu z harmonogramem wdrożenia. To dokładnie ten sam paradoks, w którym Zarząd chce AI, ale nie chce zmieniać procesów: życzenie wyniku bez kosztu fundamentu.

Ale ta łatwość kończy się przy pierwszej próbie użycia tych danych w praktyce. I wtedy projekt albo się zatrzymuje (co jest kosztowne, ale uczciwe), albo — co gorsze — jedzie dalej na siłę, produkując wyniki, które wyglądają dobrze, ale nie mają pokrycia w rzeczywistości.

Co zrobić zamiast tego

Zanim zaczniesz jakikolwiek projekt AI, zrób audyt gotowości danych. Nie audyt IT. Nie przegląd systemów. Audyt, który odpowie na proste pytania:

  1. Gdzie są dane potrzebne do tego konkretnego zadania? Nie "jakie dane mamy" — bo to pytanie prowadzi donikąd. Pytanie brzmi: jakie dane potrzebujemy do tego jednego, konkretnego zastosowania i gdzie one są.

  2. Czy te dane są spójne między systemami? Czy klient X w CRM-ie to ten sam klient X w ERP? Czy wartości się zgadzają? Czy formaty są kompatybilne?

  3. Czy jest dokumentacja? Nie "ogólna dokumentacja systemu", lecz opis: co oznacza każde pole, kto je wypełnia, jak często jest aktualizowane, jakie są dozwolone wartości. Bez tego nie ruszysz też pomiaru AI w firmie — nie zmierzysz tego, czego nie zdefiniujesz.

  4. Kto jest właścicielem danych? Kto odpowiada za ich jakość? Kto decyduje o zmianach? Jeśli odpowiedź brzmi "nikt" — to jest pierwsza rzecz do naprawienia.

  5. Czy człowiek potrafi na tych danych wykonać zadanie? To test, o którym pisałem w poprzednim artykule. Jeśli ekspert nie umie, AI nie zrobi cudu.

Uczciwe podejście jest tańsze

Wiem, że to nie jest to, co chce usłyszeć zarząd na kick-offie projektu AI. Ale uczciwa ocena stanu danych na początku jest wielokrotnie tańsza niż odkrycie prawdy w połowie projektu. Projekty, w których poświęcam z klientem pierwszy miesiąc na rzetelną diagnozę danych, kończą się sukcesem znacznie częściej niż te, w których od razu budujemy model "bo dane mamy".

Branża AI kocha historie sukcesu. Nikt nie opowiada o projektach, które umarły, bo dane okazały się nieprzydatne. A tych projektów jest zdecydowana większość.

Następnym razem, gdy ktoś na spotkaniu powie "mamy dane" — zapytaj: "Pokaż mi. Na czym konkretnie ma pracować AI? Skąd weźmiemy te dane? Kto za nie odpowiada?". Jeśli odpowiedzi nie przyjdą szybko i konkretnie — to sygnał, że trzeba zacząć od fundamentów, nie od modelu.

Jeśli chcesz rzetelnie ocenić, czy dane w Twojej organizacji są gotowe na projekt AI, zapraszam do rozmowy. Punktem startu zwykle jest audyt dojrzałości organizacji do AI lub strategia AI dla firm. Leszek Giza.

Najczęściej zadawane pytania

Dlaczego firmy mówią „mamy dane" gdy realnie ich nie mają?

Bo dane są — w czterech różnych systemach, niespójne, niekompletne, bez dokumentacji. Z perspektywy prezesa „mamy dane" znaczy „dane istnieją gdzieś w organizacji". Z perspektywy AI projektu znaczy „dane są usable do trenowania modelu lub feedingu RAG". To dwie różne rzeczy.

Co znaczy że dane są „gotowe" do projektu AI?

Cztery warunki jednocześnie: 1) są w jednym systemie lub łatwym do połączenia formacie, 2) są spójne (te same definicje, jednostki, formaty), 3) są kompletne dla problemu który rozwiązujemy (nie 100%, ale 80%+ relevant fields wypełnione), 4) mają dokumentację (kto utrzymuje, jak są zbierane, gdzie są edge cases).

Co to jest „test eksperta domenowego" dla danych AI?

Sprawdzenie czy ekspert (człowiek) potrafi z danych które masz wykonać zadanie, które ma robić AI. Jeśli ekspert nie potrafi — bo dane są zbyt niespójne, niepełne lub niejednoznaczne — to AI też nie zrobi cudu. Ten test wykonuję na początku każdego projektu, oszczędza miesiące porażki.

Ile czasu typowo zajmuje przygotowanie danych do AI w polskiej firmie?

W prawie każdym enterprise AI projekcie pierwsze 3-6 tygodni to „data archeology" — odkopywanie, czyszczenie, dokumentowanie. To nie jest awaria projektu — to standard. Firmy które tego nie planują, dopisują 2-3 mies opóźnienia w połowie projektu.

Co zrobić jeśli dane firmy nie nadają się do AI?

Trzy opcje: 1) zmienić scope problemu (znaleźć gdzie dane są gotowe), 2) zacząć od projektu data quality (3-6 mies) zanim ruszą piloty AI, 3) zacząć od AI projektów które działają na dokumentach/tekście (mniej wrażliwe na strukturę). Najgorsze: udawać że dane są OK i ruszyć z AI — gwarantowana porażka.

Zainteresowany konsultingiem AI?

30-minutowa bezpłatna konsultacja — umów się.

Umów rozmowę →+48 516 210 516

Powiązane artykuły