Utvärdering data science verktyg: Tamr

 Ntamrär man talar om verktygsstöd för data scientists är det lätt hänt att sätta likhetstecken till analysplattformar så som R, SAS, SPSS etc. Men behovet av bra verktygsstöd i hela analysprocessen får en större tyngd i data scientist-perspektivet än om man tänker renodlat på statistisk analys. En nyckelfaktor är förmågan att kunna inkludera, förstå och kombinera datakällor att lägga till de man redan har, tex i sitt DW.

Egentligen inget nytt, men det får allt mer fokus. Varför? Dels i och med BigData där förmågan att inkludera och kombinera olika typer av datakällor i sin analys är en viktig hörnpelare (Data Variety). Dels börjar det nu dyka upp helt nya spelare kring data governance, data management, data blending, data visualization. Ändrade behov och fler möjligheter alltså.

Vi valde nyligen ut några aktörer som vi är nyfikna på för att titta mer på under vår senaste R&D-dag. Här lite avrapportering i korthet:

Kort sammanfattning av vår test av Tamr

Tamr marknadsförs som en mycket smart plattform för att katalogisera och koppla samman olika datamängder med hjälp av avancerad machine learning. Detta baseras främst på en machine-learning-komponent som kombineras med manuella expert-beslut för att tvätta och kombinera data på ett väldigt snyggt sätt. Det var dock inte det vi ville utvärdera just denna gång.

En annan komponent hos Tamr Catalog, för katalogisering av data, vilket var det vi ville utvärdera just i detta fall. Vi ville testa om Tamr är ett bra stöd för data lake governance. Dvs verktygsstöd för att klä på nya datakällor metadata och följa en data qualification model vi satt samman tidigare. Catalog en fristående gratis produkt och hanterar bara metadata, ej innehåll. Mappa upp datakällor, och klä på med taggning och klassificering i ett enkelt gränssnitt. Precis det man vill ha som stöd för att behålla kontrollen i en agil datahantering i sin data lake.

Funkar det? Nja. Just Catalog är inte Tamr:s kärnplattform, och inte det man lagt mest fokus på. Det som ligger ute är en betaversion. Snygg, men för tunn för att vara direkt användbar. Tex kan man tagga och skapa egna kategorier för datakällor, men du kan inte göra något direkt med den informationen sedan.

Vi hade ett telemöte med Tamr där vi fick bra information och ärliga svar på våra frågor. Data governance är inte en viktig del i Tamr:s produktutveckling. De fokuserar på att koppla samman datakällor på ett intelligent sätt, och att paketera detta för några specifika usecases där detta löpande är en kritisk framångsfaktor, tex inköpsanalys för stora organisationer. Dessa delar har vi inte utvärderat än. För en väldigt bra genomlysning av Tamr, registrera upp som en follower på Boulder BI Brain Trust, http://www.bbbt.us/ och titta igenom filmen om Tamr från jan 2016. BBBT är en väldigt bra tjänst baserad på oberoende expertis, om man vill få inblick i nya BI-relaterade produkter utan att behöva basera all info på säljmaterial.