Dernières nouvellesDatabricks renforce sa gouvernance de données et sa gestion...

Databricks renforce sa gouvernance de données et sa gestion des modèles ML

-

A l’occasion de sa confrence Data+AI Summit 2021, Databricks a prsent les volutions de sa plateforme de gestion de donnes. Outre la simplification des pipelines ETL et des capacits de catalogue unifi pour la gouvernance des donnes en multi-cloud, l’diteur a notablement renforc son offre de machine learning avec une solution de gestion du cycle de vie des modles.

La préparation des données pour les applications analytiques reste en grande partie un processus manuel assez long pour les équipes IT spécialisées. Pour simplifier la conception des pipelines d’ETL, qui demande un travail très granulaire pour définir comment transformer les données et tester ces manipulations, Databricks vient de livrer en préversion le framework Delta Live Tables. Ce service cloud a été présenté à l’occasion de la conférence Data+AI Summit 2021. Il vient prendre en charge l’essentiel des transformations opérées sur les données. Plutôt que de définir les pipelines avec les différentes tâches Spark, l’utilisateur fournit à Delta Live Tables le schéma cible qu’il veut obtenir. Le service se base sur ce schéma cible pour définir chaque étape de traitement. On peut préciser la qualité des données attendue et spécifier comment gérer ce qui ne répond pas à ces attentes, explique Databricks dans sa documentation.

L’éditeur californien, spécialiste de Spark, renforce d’autre part ses capacités de gouvernance des données à travers l’annonce de Unity Catalog. A partir d’une interface centralisée, la solution permettra une gouvernance granulaire de l’ensemble des données, structurées et non structurées, déversées dans les datalakes, en prenant en compte le multi-cloud et les catalogues existants. Ce modèle de gestion centralisée est basé sur SQL. L’interface de Unity Catalog va simplifier la découverte, l’audit et la sécurisation de l’accès aux données en apportant des fonctions de data lineage, des politiques de sécurité basées sur les rôles, des tags au niveau des tables et colonnes… directement sur le lakehouse.

Avec Unity Catalog, les administrateurs de base de données peuvent accorder des permissions sur des vues ou des colonnes en utilisant SQL. (Crédit : Databricks)

Unity Catalog s’appuie sur le protocole Delta Sharing que Databricks promeut désormais pour le partage sécurisé des données entre les entreprises. Ce protocole fait l’objet d’un projet open source, confié à la fondation Linux. 

Gérer le cycle de vie ML en mode collaboratif

Pour les data scientists, Databricks fait par ailleurs évoluer son offre de conception, expérimentation et mise en production de modèles d’apprentissage machine. Sur sa conférence Data+AI Summit 2021, l’éditeur a annoncé la plateforme Databricks Machine Learning qui s’appuie de façon native sur son architecture de lakehouse. Celle-ci apporte une expérience collaborative pour créer, entrainer, déployer et gérer des modèles ML.

Databricks ML prend en charge tout type de données à n’importe quelle échelle. (Crédit : Databricks)

Parmi les avancées, l’offre apporte AutoML et Feature Store. AutoML vient automatiser une grande partie des tâches répétitives manuelles des data scientists. Il fournit à ces derniers une transparence complète sur le fonctionnement des modèles dont ils peuvent reprendre le contrôle à tout moment, explique Databricks. Ces expériences AutoML sont intégrées au reste de la plateforme Lakehouse, y compris MLflow. Quant à Feature Store, il permet de partager et réutiliser les caractéristiques utilisées par les modèles de ML. « C’est une notion de warehouse pour la data science et les modèles ML », nous a décrit Nicolas Maillard, directeur senior architecte solution de Databricks pour les régions Central & SEMEA. Cela permet de cataloguer ces caractéristiques, de les accrocher aux différents modèles, aux pipelines qui ont servi à les créer, aux différentes équipes qui s’en servent, et d’obtenir des explications sur la façon dont on a choisi de les comprendre. Databricks Machine Learning est disponible en préversion.

Dernières Nouvelles

Un jeune élu communal du Cher fait un tour de la Haute-Marne à la recherche d’initiatives locales

Raphaël Ruegger, élu local du Cher, âgé de 21 ans fait un symbole de France des municipalités pour trouver "les idées qui marchent" et les réduire chez lui. Il parcourt pendant une semaine la Haute-Marne.

Gérald Darmanin à Marseilce : trafics de drogue, « ce premier responsabce, c’est ce consommateur »

Gérald Darmanin est à Marfortificationilun pour deux jours. un ministre de l'Intérieur fait un partie sur la stratégie de lutte contre uns trafic de stupéfiants alors que uns morts dans uns règunments de compte fortification multiplient dans un département.

VIcommeO. A l’Assemblée Nationale, les premiers pas comme Quentin Bataillon et Andrée Taurinya, nouveaux députés stéphanois

ceux-ci ont fait leurs premiers pas au Palais Bourbon puis participé à leur première séance dans l'hémicycle. Andrée Taurinya puis Quentin Bataillon ont été élus députés de la Loire le dimanche 19 juin inédit. Une semaine entre découverte, éproposition puis formalités administratives. Avec leur premier rendez-vous majeur : la première séance dans l'hémicycle pour la désignation du président.

Assemblée par Corse : la session spéciale sur la dérive mafieuse aura lieu « très rapiparment »

Jeudi 30 juin, une question oraun du groupe Core in Fronte a relancé un débat sur la session spéciaun de l'Assemblée de Corse concernant la dérive mafieuse dans l’îun. Celun-ci "halo lieu rapidement, à l'automne hominien", a répondu l’Exécutif.

Washington gèle avec d’un milliard de dollars d’avoirs aux Etats-Unis d’un oligarque russe

Le Trésor américain manifeste avoir gelé plus d'un milliard contre dollars d'avoirs d'une société contrôlée par l'oligarque russe Suleiman Kerimov, déjà sanctionné par Washington.

A Lire Absolument

Appareil Lenovo Area S.p.A. sistema di monitoraggio Dual Band

La caméra IP sans fil Lenovo Area S.p.A. sistema...

Andrea Formenti parle de l’importance des technologies de l’information

L'informatique a pénétré pratiquement tous les aspects des affaires...

Pour vous