Geen opslag, geen gehuil: de barrière voor gegevensopslag zinken

Sluit je aan bij CEO’s in San Francisco van 11-12 juli om te leren hoe leiders AI-investeringen integreren en optimaliseren voor succes.. kom meer te weten


In dit informatietijdperk grote gegevens Het wordt steeds meer gezien als de levensader van elke organisatie. Omdat data echter zo groot en divers zijn geworden, blijft het goed analyseren ervan een grote uitdaging voor organisaties.

Als zodanig worden de zakelijke inzichten die deze onderliggende gegevens zouden moeten kunnen bereiken in plaats daarvan ofwel te moeilijk, tijdrovend of kostbaar.

Een grote uitdaging is de interactie tussen opslag- en analyseoplossingen en of ze deze datablokken aankunnen – of is er een manier om de opslagbarrière volledig te omzeilen?

Formaten voor gegevensopslag: datum

De tijdlijn van deze big data-explosie kan in drie verschillende periodes worden verdeeld.

Het gebeurde

Transformeer 2023

Bezoek ons ​​op 11 en 12 juli in San Francisco, waar senior executives zullen delen hoe AI-investeringen kunnen worden geïntegreerd en geoptimaliseerd voor succes en om veelvoorkomende valkuilen te vermijden.

Registreer nu

Eerst was er eenvoudige opslag van tekstbestanden (TXT), gevolgd door relationele databasebeheersystemen (RDBMS), die eenvoudige monitoring en interactie met grotere datasets mogelijk maakten.

De derde fase – moderne open source-formaten zoals Parquet en Iceberg, die gecomprimeerde bestanden effectiever compileren – vloeide voort uit het feit dat de capaciteit van deze databases werd overtroffen door de gegevens die ze moesten verzamelen en analyseren.

Toen kwam het stadium dat databasebedrijven hun eigen opslagmethoden ontwikkelden in de vorm van Datawarehouses. Deze op maat gemaakte formaten voor gegevensopslag bieden betere prestaties en stellen gegevensgestuurde bedrijven in staat hun gegevens op te slaan op manieren die ze effectiever kunnen opvragen en manipuleren.

Dus waarom blijft data-analyse achter?

De kosten van datawarehouses

Ondanks het maatwerk dat ze bieden, hebben opslagformaten voor datawarehouses een groot aantal nadelen.

Voor deze opslagplaatsen zijn opnameprotocollen vereist Bedrijfsgegevens ondergaan een voorbewerking voordat ze het magazijn binnenkomen, dus vragen lopen vertraging op. Er is ook geen enkele bron van “waarheid”, aangezien het synchronisatieproces tussen de oorspronkelijke opslaglocatie (waar de gegevens worden gegenereerd, nog steeds in het onbewerkte formaat) en het datawarehouse complex is en datasets scheef kan trekken.

Vergrendeling van leveranciers is een ander probleem, aangezien opvraagbare gegevens van elk opslagformaat vaak zijn vergrendeld voor slechts één applicatie en daarom niet altijd compatibel zijn met de verschillende tools die nodig zijn voor gegevensanalyse. Elke keer dat een afdeling zijn gegevens wil analyseren, moeten de gegevensbronnen worden gedupliceerd, wat kan leiden tot complexe en soms onmogelijke gegevensuitwisseling tussen verschillende datawarehouses.

Naarmate deze tekortkomingen steeds duidelijker worden en grotere uitdagingen vormen voor datagestuurde organisaties, ontvouwt zich het vierde hoofdstuk van de datawarehousing-saga.

Ingang “gegevens meer. ”

Duik in Data Lake

In tegenstelling tot een datawarehouse (en de beperkte, ommuurde aard die de naam aangeeft), is een datameer vloeiend, diep en wijd open. Voor het eerst kunnen bedrijven van elke omvang relevante gegevens, van afbeeldingen tot video’s tot tekst, opslaan op een gecentraliseerde, schaalbare en breed toegankelijke opslaglocatie.

Omdat deze oplossingen, met hun ins en outs en de flexibele aard van hun opslagformaten, niet alleen zijn ontworpen voor gegevensopslag, maar ook met het delen en synchroniseren van gegevens in het achterhoofd, worden datameren niet verzand door leveranciersbeperkingen, uitdagingen op het gebied van gegevensredundantie of een enkele bron. van waarheidscomplicaties.

Gecombineerd met open source-indelingen zoals Apache Parquet-bestanden – die krachtig genoeg zijn om analytische behoeften in verschillende silo’s binnen een organisatie te beheren – hebben deze unieke opslagsystemen organisaties in staat gesteld succesvol binnen een cluster te opereren. gegevens meer Architectuur en geniet van de voordelen van zijn prestaties.

Het huis aan het meer

Hoewel datalakes een veelbelovende opslag- en analyseoplossing zijn, zijn ze nog relatief nieuw. Dienovereenkomstig onderzoeken branche-experts nog steeds de potentiële kansen en valkuilen die cloud computing-mogelijkheden kunnen hebben in hun opslagoplossingen.

Een poging om de huidige tekortkomingen te verhelpen, is het combineren van de mogelijkheden van een datameer, datawarehouse-organisatie en cloud computing – genaamd “gegevens meerEen datawarehouse drijvend op een datameer.

Houd er rekening mee dat een data lake slechts een verzameling bestanden in mappen is: eenvoudig en gebruiksvriendelijk, maar niet in staat om effectief gegevens op te halen zonder een centrale database. Zelfs nadat datawarehouses een manier hadden ontwikkeld om open source-bestandsindelingen te lezen, bleven de uitdagingen van ingest-vertraging, vendor lock en single source of truth bestaan.

Data lake-huizen daarentegen stellen organisaties in staat om een ​​vergelijkbare databaseverwerkingsengine en semantische laag te gebruiken om al hun gegevens op te vragen zoals ze zijn, zonder buitensporige transformaties en kopieën, terwijl de voordelen van beide methoden behouden blijven.

Het succes van deze gecombineerde benadering van datawarehousing en analyse is inderdaad bemoedigend. Ventana vice-president voor onderzoek en onderzoeksdirecteur Matt Aslett Verwachten dat tegen 2024 meer dan driekwart van de data lake-gebruikers zal investeren in data lake-technologieën om de bedrijfswaarde van hun data-achterstand te verbeteren.

Bedrijven kunnen nu genieten van de analytische voordelen van SQL-databases plus de flexibele, goedkope opslagmogelijkheden van een datameer in de cloud, terwijl ze nog steeds eigenaar zijn van hun eigen gegevens en afzonderlijke analyseomgevingen onderhouden voor elk domein.

Hoe diep gaat dit meer?

Naarmate databedrijven steeds vaker datawarehouses in de cloud gebruiken, steeds meer Organisaties kunnen zich concentreren op een van de belangrijkste bedrijfsmiddelen van vandaag: complexe analyses op grote datasets. In plaats van hun gegevens op te halen bij hosting-engines, halen bedrijven alle gegevens die analyse nodig hebben op hoger niveau-engines.

Met de lage toetredingsdrempels van clouddatalakecentra, waar hardware-aanpassing met slechts een paar klikken kan worden bereikt, beschikken organisaties over gemakkelijk toegankelijke gegevens voor elke denkbare use-case.

Leveranciers van datalakes zullen hun vermogen blijven testen om met grotere datasets om te gaan zonder hun computerresources automatisch voor onbepaalde tijd uit te breiden. Maar zelfs als de technologie voortschrijdt, zal de data lake-methode consistent blijven in haar vermogen om data-onafhankelijkheid mogelijk te maken en gebruikers de voordelen van datawarehouses en data lakes te bieden.

De wateren van een datameer lijken misschien ongetest, maar het wordt steeds duidelijker dat verkopers en bedrijven die niet het initiatief nemen, het potentieel van hun data niet zullen realiseren.

Matan Libis is de vice-president van Product gaas.

Besluitvormers

Welkom bij de VentureBeat-community!

DataDecisionMakers is waar experts, inclusief de technische mensen die datawerk doen, datagerelateerde inzichten en innovaties kunnen delen.

Als u wilt lezen over geavanceerde ideeën, bijgewerkte informatie, best practices en de toekomst van data en datatechnologie, sluit u dan aan bij DataDecisionMakers.

Je kunt zelfs denken Draag een artikel bij Je eigen!

Lees meer van DataDecisionMakers