Episode 226 : Starlake.AI avec Hayssam Saleh

20/02/2026    interview datalake cloud 

Vincent Heuschling reçoit Hayssam Saleh, créateur de Starlake, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L’épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies.

Starlake se distingue par une approche entièrement déclarative (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L’outil s’appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks).

Parmi les fonctionnalités marquantes : le data branching (branches de données à la manière de Git), l’inférence automatique de schémas YAML à partir de fichiers sources, un transpiler SQL multi-plateformes, et l’extraction du lineage depuis du SQL brut sans annotation. L’intégration récente de DuckLake ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud).

Le modèle économique repose sur le support, la formation, et le consulting : Starlake s’installe dans le cloud du client, avec mise à jour automatique gérée par l’équipe, sans accès aux données.

Chapitres

  • 00:27 Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l’épisode
  • 03:13 Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018)
  • 09:51 Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja)
  • 00:18:18 Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source
  • 00:22:20 Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click)
  • 00:36:35 Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine
  • 00:43:42 DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer

Le BigdataHebdo

Le BigdataHebdo est le podcast Francophone de la Data et de l’IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q

Animateurs

Sponsors

Cette publication est sponsorisée par DataTask et CerenIT.

CerenIT vous accompagne pour concevoir, industrialiser ou automatiser vos plateformes mais aussi pour faire parler vos données temporelles. Ecrivez nous à contact@cerenit.fr et retrouvez-nous aussi au Time Series France.

Affini-Tech vous accompagne dans tous vos projets Cloud et Data, pour Imaginer, Expérimenter et Executer vos services ! Datatask)

Le générique a été composé et réalisé par Maxence Lecointe

Nuage de tags

bigdata cloud ai aws news interview postgresql kubernetes azure cassandra databricks snowflake timeseries spark kafka france warp10 dbt python apache google sql grafana hadoop llm microsoft ovhcloud bigquery docker nosql pulsar trino data-science ia mongodb duckdb flink foundationdb influxdb timescale clickhouse genai googlecloud redis rust terraform elastic gcp scaleway arm datalake datastax java mysql s3 sqlite confluent data database ml nvidia quickwit rgpd serverless github influxdata iot lakehouse machine-learning mlops clever-cloud databases datawarehouse europe superset vscode cdc cloudera cnil cockroach dossier facebook hashicorp machine_learning opensource prometheus search spanner sécurité arrow aurora catalog cockroachdb datascience dataviz delta gdpr haskell huggingface jupyter meta notebook openai oss pandas parquet pinot redshift souveraineté streaming yugabyte airbyte airflow apple architecture cloud-souverain cncf copilot couchbase data-mesh delta-lake devoxxfr docker-compose etcd etl feature-store gaia-x gke golang jetbrains kestra metabase nocode palantir powerbi pycaret raft redpanda scikit-learn senx agpl aiven beam bi bookkeeper chatgpt cloudflare compose data-engineering datacontract dataiku datamesh datatask dynamodb eks elasticsearch firebolt french gitpod gpu ibm iceberg jepsen kernel lambda lucene mesos mimir netapp netflix opensearch pgsql postgres privacy pytorch questdb r raspberrypi rds scylla storage streamlit talend timescaledb traefik vector zookeeper algolia amd analytics analytique anthos api atlassian biglake blockchain bloom-filter consul containerd covid19 cve dagger dagster datadog dataflow dataquality datastack delta-live delta-sharing discovery doctolib dremio ebpf ec2 elixir elt excel exoscale fabric flows git google-analytics helm hudi istio json linux live log4j maif malloy mapr mistral mqtt neo4j nlp nomad oracle orchestration ovh phoenix presto prestosql privacy-shield prophet quantique rabbitmq risc-v salesforce shell slack sncf sqlmesh ssd synapse tableau tikv time-series 2019 accord aks alertes amazon astradb atos automl azure-ml babelfish benchmark bintray cabourotte centos chine citus cloud-de-confiance collibra cookie cosmosdb couchdb cube dash data-catalog data-engineer data-quality datageek datagouv dataops dataplex dataproc datarobot deep-fake deep-learning deltalake deployment dhakira druid emr euclidia event faq fastapi faunadb flask frenchtech gaiax gartner gitlab gladia gpt gpt-3 health-data-hub hive iam ibis indexima ingestion inria instacluster instaclustr intellij ipv6 jcenter jdk jfrog julia k8ssandra kapacitor knative kotlin langchain licence log log4shell lsf m3db machinelearning memcached memsql metaverse micro-service microservice microsoft-sql-server minio mirabelle mlflow n8n nft nodejs noel npm nrtsearch okta openjdk openmetadata operator orange pandera paxos planetscale podman prestodb prompt qemu qovery r2 radar registryops reverse-etl rlang rocksdb rook sagemaker scalabilité scylladb secnumcloud sigfox small-data smalldata solr spring sql-server ssh stack-overflow starburst starbust stargate state statefulset streamnative système-distribué tabular telegraf tempo test thales thematique timestream uber usa vault vectordb velero vitess voltron warpstudio wasm wifi zig 2017 accenture actors actu acv adoptium adoptopenjdk aerospike aeure agents agi agrocd akami akhp akka alerts alibaba alloydb allydb almalinux amado analyse android angular anniversaire anomalie anomaly-detection anthropic apache-arrow apache-druid apache-pinot apache-yunikorn apachespark arcadedb archive archlinux argo-cd articdb assembly astria astro astronomer atlas audacity augly aurads auth0 authentication authorization authz automatisation automerge autopilot avanade aws-summit back-market backblaze backup ballisa bash berkeleydb bert bgp biais biscuit bitcoin bleu bnp bodywork bootstrap bpi bpifrance broadcom business calcite calvin cap-theorem carbondata carrefour castordoc cdn celery ceph ceresdb cgroups chaosdb chiffrement cicd classification clevercloud cli clockhouse cloudact cluster-api clusterset cobol code-whisperer codecov codeurs-en-seine collecte colossus comptabilité conduktor conference conseil consensus consul-connect container conteneurs cookies cortex coscreen course-au-large covid-19 cpu craftsmanship criteo crux crypto cryptomonnaie csi csv cuda cue culture cybersécurité d1 dall-e dalle dashboard dask data-discovery data-gouvernance data-ops data-platform data-prep data-vault data-wrangling datacatalog datacenter dataform dataframes datafusion datagouvernance datahub datakin datalakehouse datamodeling dataops.rocks datapreparation datasearch datasketches dbscan ddos debezium delos demo devfest-lille dewitt diagram diagrams digital direct distinct distributed distributed-systems django dlt docker-desktop dockershim documentdb dolt dragonfly drift driftctl drill ebs echantillonage echart ecs egress entreprise entreprise4.0 epyc erlang eurybia evidence exadata expert-comptable explicabilité exploration falco faster fb feast feature finalizer fintech fiscal flaml flight forecast foundationndb fourier francais freebsd freenode french-tech ftp fugue fundings futur gafam gc geopandas geospatial gil github-actions gitlab-ci gitops glitchtip glue gobblin google-ads google-app-engine google-appengine google-font gourvernance gouvernance gp3 gpg graph graphql graviton gravitron gunicorn hamilton hashicorrp hasicorp haskel hbase hdd hdh hex hfactory hfiles hibernate hop http husky image impala imply incident indexes industrie industrie-4.0 inflation influx infomaniak internet interopérabilité iops iouring iox ipo ipv4 jedi jespen jinja jpa jquery jvm k-means k6 k8s k8saandra kaggle kalman-filter kappa kapsule kata-container kensu kibana kinesis komodor ksqldb kubecon kubectx kubeflow kubens kuma kyutai lake-formation leap-second ledger lens letsencrypt letsencrypy license lighton ligthdash lineage linkbynet linkedin linky linode linter litestream llama lobe logica logiciel-libre loki low-code lowcode lru lsm-tree légal m1 maestro mangodb manticore-search mapie markov mathématiques matillion matrix medusa memcache memorydb messaging metadata metrics meuse microsoft-build microsoftazure mirantis mmap modeling moderndatastack modèle-relationnel modélisation monolith monolithe motherduck mpp msgpack msgspec multi-cloud musk méthodologie namespace netgear network newsletter newsql nicegui nifi no-code nodb notebooks nsa ntp numérique nvme object-storage observability observabilitycon ocaml olap onehouse onetable opacus open-policy-agent opendata opendatasoft openlineage opensourcesoftware p99conf paas pagnol partitionning password pcie performance pex pgcon pgrest pi pinterest pixie pixley plateforme pluralith podcast poetry polardb polars pony popsink posgresql pranadb predictions process processeur prolog prospective psp pub-sub pubsub pulumi pushmetrics pyre pyscript qlik qualité quantmetry quasardb query querybook quic quorum r2devops radix ram rancher rapport-gauvain re-invent readme readyset reapder recommendation redash redhat reed-salomon reinvent replibyte retention-policy revue rhel ribbon-filter riscv roblox rockset rockylinux rondb rpgd rppd rsync rtc rust-vmm salaire salon santé satellite scikitlearn scrapping security.txt segmentation select server-less service service-mesh servicediscovery servicemesh shapash shapsh shard shards shotover simulation singer slideshare snapash snapshot snoflake snowpark software souveraineté-numérique sowflake splunk spot sre srecon stable starlight startree startup statistiques steamsets streams sudo suisse supply-chain-attack suse syntec sysdig tanzu tar tdengine teads tech terality tesla text2speech the-last-pickle theseus thoughtworks thématique tiered-storage tigerbeetle tigergraph tigris tika tla+ tls tomcat tpc transformation trasnformers trifacta trinot tsfr twitter u-sql ua-parser-js ubeeko udap udf ui unikernel union-européenne upsert usage usb vc vectodb vectorized vertex vie-privée vm vmware voile voilà voix warehouse warp.dev wasi web web-components webassembly webassmelby wikimedia workflow ydb yelp youtube zanzibar zeenea zepl zeppelin zevent zstd éthique

Syndication

Restez informé(s) de notre actualité en vous abonnant au flux des épisodes, des brèves ou abonnez-vous au podcast dans votre application favorite

Le podcast est sponsorisé par Affini-Tech et CérénIT

À compter de l'épisode 104, le générique a été composé et réalisé par Maxence Lecointe

© 2014-2023 | Contenus sous licence Creative Commons BY-SA