Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over onze toonaangevende AI-dekking. Hij leert meer
Het verplaatsen van gegevens van de plek waar ze zijn gemaakt naar de plek waar ze effectief kunnen worden gebruikt in data-analyse en AI verloopt niet altijd in een rechte lijn. Het is de taak van data-orkestratietechnologie zoals het open source Apache Airflow-project om de datapijplijn mogelijk te maken die data verplaatst naar de plek waar deze moet zijn.
Vandaag Apache-luchtstroom Het project zal naar verwachting update 2.10 uitbrengen, wat de eerste grote update voor het project sindsdien is Luchtstroomversie 2.9 In april introduceerde Airflow 2.10 een hybride implementatie, waarmee organisaties de toewijzing van middelen aan verschillende workloads kunnen optimaliseren, van eenvoudige SQL-query's tot rekenintensieve machine learning (ML)-taken. Verbeterde serialisatiemogelijkheden zorgen voor beter inzicht in gegevensstromen, wat van cruciaal belang is voor governance en compliance.
Nog een stap verder gaan, Astronoomde toonaangevende commerciële leverancier achter Apache Airflow, werkt zijn Astro-platform bij om open source dbt-core (data builder) technologie te integreren om data-orkestratie en transformatieworkflows op één platform te verenigen.
Gezamenlijk zijn de verbeteringen bedoeld om databewerkingen te vereenvoudigen en de kloof te overbruggen tussen traditionele dataworkflows en opkomende AI-toepassingen. De updates bieden organisaties een flexibelere aanpak voor het organiseren van data, waarbij uitdagingen worden aangepakt bij het beheren van diverse data-omgevingen en AI-operaties.
“Als je bedenkt waarom je orkestratie vanaf het begin omarmt, is het dat je de zaken in de hele data supply chain wilt coördineren, en dat je een centraal vision board wilt”, zegt Julian LaNeve, Chief Technology Officer bij Astronoom Hij vertelde VentureBeat.
Hoe Airflow 2.10 de gegevensopmaak verbetert met behulp van hybride implementatie
Een van de grote updates in Airflow 2.10 is de introductie van een mogelijkheid die hybride uitvoering wordt genoemd.
Vóór deze update moesten Airflow-gebruikers één enkele uitvoeringsmodus selecteren voor hun gehele implementatie. Deze implementatie had kunnen plaatsvinden door een Kubernetes-cluster te kiezen of de Celery-uitvoerder van Airflow te gebruiken. Kubernetes is beter geschikt voor zwaardere rekentaken waarvoor meer gedetailleerde controle op individueel taakniveau vereist is. De Celery daarentegen is lichter en efficiënter voor eenvoudigere taken.
Zoals LaNeve heeft uitgelegd, bevatten datapijplijnen in de echte wereld echter vaak een mix van soorten werklasten. Houd er bijvoorbeeld rekening mee dat een organisatie binnen een luchtstroomimplementatie mogelijk alleen maar ergens een eenvoudige SQL-query hoeft uit te voeren om de gegevens op te halen. De machine learning-workflow kan ook verbinding maken met dezelfde datapijplijn, waardoor een zwaardere Kubernetes-implementatie vereist is. Dit is nu mogelijk met hybride implementatie.
De hybride implementatiemogelijkheden verschillen aanzienlijk van eerdere Airflow-releases, waardoor gebruikers moesten kiezen voor een one-size-fits-all keuze voor hun gehele implementatie. Nu kunnen ze elk onderdeel van hun datapijplijn optimaliseren om het juiste niveau aan reken- en controlebronnen te verkrijgen.
“Ik denk dat de mogelijkheid om te kiezen op pijplijn- en taakniveau, in plaats van dat alles dezelfde uitvoeringsmodus gebruikt, echt een geheel nieuw niveau van flexibiliteit en efficiëntie opent voor Airflow-gebruikers”, aldus LaNeve.
Waarom is serialisatie van gegevens in gegevensformaat belangrijk voor kunstmatige intelligentie?
Het begrijpen van de gegevensbron is het vakgebied van dataserialisatie. Het is een cruciale mogelijkheid voor zowel traditionele data-analyse als voor opkomende AI-workloads waarbij organisaties moeten begrijpen waar de data vandaan komen.
Vóór de release van Airflow 2.10 waren er enkele beperkingen bij het volgen van gegevensreeksen. Met de nieuwe functies voor datareeksen kan Airflow de afhankelijkheden en datastromen binnen pipelines beter vastleggen, zelfs voor aangepaste Python-code, aldus LaNeve. Deze verbeterde tracking van de dataketen is van cruciaal belang voor AI- en machine learning-workflows, waarbij de kwaliteit en herkomst van de gegevens van cruciaal belang zijn.
“Het belangrijkste ingrediënt van elke AI-toepassing die mensen vandaag de dag bouwen is vertrouwen”, zegt LaNeve.
Als een AI-systeem onjuiste of onbetrouwbare resultaten oplevert, zullen gebruikers er dus niet op blijven vertrouwen. Robuuste spanningsinformatie helpt dit probleem aan te pakken door een duidelijk, controleerbaar pad te bieden naar hoe ingenieurs de gegevens hebben verzameld, getransformeerd en gebruikt om het model te trainen. Bovendien maken krachtige lineage-mogelijkheden uitgebreidere gegevensbeheer- en beveiligingscontroles mogelijk rond gevoelige informatie die in AI-toepassingen wordt gebruikt.
Ik kijk uit naar Airflow 3.0
“Databeheer, beveiliging en privacy zijn belangrijker dan ooit, omdat je er zeker van wilt zijn dat je volledige controle hebt over hoe je gegevens worden gebruikt”, aldus LaNeve.
Hoewel de release van Airflow 2.10 een aantal opmerkelijke verbeteringen met zich meebrengt, kijkt LaNeve nu al uit naar Airflow 3.0.
Volgens LaNeve is het doel van Airflow 3.0 om de technologie te moderniseren voor het tijdperk van kunstmatige intelligentie. Belangrijke prioriteiten voor Airflow 3.0 zijn onder meer het taalneutraal maken van het platform, waardoor gebruikers taken in elke taal kunnen schrijven, en het databewuster maken van Airflow, waardoor de focus verschuift van het organiseren van processen naar het beheren van datastromen.
“We willen ervoor zorgen dat Airflow de komende tien tot vijftien jaar de standaard is voor coördinatie”, zei hij.