DJ Patil, l’actuel Chef scientifique des donnรฉes des รtats-Unis et prรฉcรฉdemment responsable des produits de donnรฉes chez Linkedin, est celui qui a inventรฉ le premier le terme ยซย science des donnรฉesย ยป.
DJ estime que ยซย le trait dominant chez les scientifiques des donnรฉes est une curiositรฉ intense, un dรฉsir d’aller sous la surface d’un problรจme, de trouver les questions qui en sont au cลur et de les distiller en un ensemble trรจs clair d’hypothรจses qui peuvent รชtre testรฉes.ย ยป Il n’est pas question ici d’une dรฉfinition stricte de la science des donnรฉes, ni d’un profil qui doit y correspondre.
Doug Cutting, l’un des ingรฉnieurs de donnรฉes les plus cรฉlรจbres au monde et le crรฉateur du cadre Hadoop, qui a contribuรฉ ร propulser la science des donnรฉes dans le courant dominant, a obtenu un baccalaurรฉat en linguistique. Tim O’Reilly, aujourd’hui connu comme le fondateur de O’Reilly Media, et le conservateur de milliers de donnรฉes et de ressources de programmation, a obtenu un diplรดme en lettres classiques.
Le trait le plus important chez les scientifiques des donnรฉes ne sont pas les diplรดmes techniques, ou le temps passรฉ ร l’รฉcole. C’est la curiositรฉ qui les attire vers des problรจmes difficiles et qui tire des solutions et de nouvelles perspectives de vieux ensembles de donnรฉes.
Vous pouvez vous lancer dans la science des donnรฉes ร partir d’une formation non technique et faire la mรชme chose. Springboard a rรฉcemment construit un parcours de carriรจre en science des donnรฉes pour vous aider ร le faire. Voici quelques conseils pratiques de leur part.
1. Montez en compรฉtences avec un Curriculum organisรฉ !
L’une des meilleures choses qu’un diplรดme en science des donnรฉes vous donnerait serait un programme d’รฉtudes structurรฉ avec beaucoup de retours et de pratique sous la forme d’examens et de devoirs. La structure est particuliรจrement importante รฉtant donnรฉ l’ampleur de la science des donnรฉes. La recherche des ressources dont vous avez besoin pour rรฉussir prendrait beaucoup de temps, surtout si vous ne savez pas du tout par oรน commencer. Springboard propose un parcours d’apprentissage curรฉ qui peut servir de programme d’รฉtudes.
2. Faites des projets rรฉels
Une fois que vous avez fini d’apprendre les diffรฉrentes compรฉtences et outils, il n’y a rien de mieux que de s’exercer sur des situations rรฉelles. Bien souvent, la meilleure faรงon de compenser le manque de connaissances techniques dรฉmontrรฉes qu’apporte un diplรดme est la crรฉation de projets rรฉels qui ont un impact. Un portefeuille de vos projets peut contribuer ร vous faire remarquer et ร renforcer vos rรฉfรฉrences en tant que scientifique des donnรฉes en herbe. Vous apprendrez รฉgalement ร appliquer vos compรฉtences et ร les amรฉliorer ร un rythme beaucoup plus rapide. Vous voudrez vous attaquer ร un problรจme de fond et voir si vous pouvez trouver une solution basรฉe sur des informations cachรฉes dans des quantitรฉs de donnรฉes. Est-il possible de prรฉdire les rรฉsultats รฉlectoraux ร partir des tendances de la participation ? Est-il possible de retracer les performances d’un joueur de basket-ball grรขce ร des tweets le montrant en train de faire la fรชte la veille ? Le monde est votre toile ici : vous pouvez prendre n’importe quel ensemble de donnรฉes et lui apporter une nouvelle perspective grรขce ร vos nouvelles compรฉtences. Si vous ne trouvez pas d’ensemble de donnรฉes, consultez cette liste de 19 ensembles de donnรฉes publics gratuits ou utilisez un moteur de recherche d’ensembles de donnรฉes tel que Quandl. Si vous ne trouvez rien ร faire, des plateformes comme Kaggle, Datakind et Datadriven vous permettent de travailler sur des problรจmes rรฉels d’entreprise ou de sociรฉtรฉ. En utilisant vos compรฉtences en science des donnรฉes, vous pouvez montrer votre capacitรฉ ร faire la diffรฉrence et crรฉer l’actif de portefeuille le plus solide de tous : un parti-pris dรฉmontrรฉ pour l’action.
3. Rejoignez les communautรฉs de science des donnรฉes
Inรฉvitablement, vous allez vouloir vous ramifier et rechercher des communautรฉs de science des donnรฉes pour obtenir les derniรจres nouvelles et discuter des problรจmes que vous pourriez rencontrer. Vous commencerez รฉgalement ร voir comment les scientifiques des donnรฉes interagissent entre eux. Si vous souhaitez obtenir le meilleur et le plus rรฉcent contenu sur la science des donnรฉes, vous pouvez consulter KDNuggets ou Datatau. Datatau est un agrรฉgateur de contenu de science des donnรฉes oรน les gens peuvent voter pour la meilleure sรฉlection de contenu de science des donnรฉes. Vous pouvez รฉgalement suivre des scientifiques sur Twitter et รฉcouter diffรฉrents podcasts sur la science des donnรฉes. Nous avons une liste des meilleurs comptes et podcasts ร suivre.
4. Assistez ร des รฉvรฉnements de science des donnรฉes
Pour vraiment vous immerger dans la communautรฉ de la science des donnรฉes, vous devrez assister ร des รฉvรฉnements physiques. Heureusement, il y en a beaucoup : des confรฉrences ร grande รฉchelle aux rencontres plus petites. Les trois plus grandes confรฉrences sont la Strata Conference, le KDD (Knowledge Discovery in Data Science) et le NIPS (Neural Information Processing Systems). Elles rassemblent gรฉnรฉralement des centaines, voire des milliers de professionnels du secteur et proposent souvent des tutoriels techniques et des confรฉrences qui vous permettront d’acquรฉrir une nouvelle perspective de la science des donnรฉes. Strata a tendance ร รชtre orientรฉ vers les derniรจres tendances de l’industrie, des startups passionnantes aux gรฉants รฉtablis. KDD est plus axรฉ sur la thรฉorie et les connaissances de la science des donnรฉes, et NIPS est plus axรฉ sur les avancรฉes universitaires dans ce domaine. Vous n’รชtes pas obligรฉ de vous rendre ร ces confรฉrences pour avoir un aperรงu de ce qui se passe lorsque vous interagissez en personne avec les communautรฉs de la science des donnรฉes. Vous pouvez participer ร des rencontres de science des donnรฉes plus modestes qui ont lieu dans le monde entier. La rรฉgion de la baie de San Francisco a tendance ร accueillir le plus grand nombre de rรฉunions sur les donnรฉes, mais il y en a gรฉnรฉralement une dans chaque grande ville amรฉricaine. Vous pouvez rechercher les rรฉunions sur la science des donnรฉes prรจs de chez vous sur Meetup.com. Certains des plus grands meetups de science des donnรฉes, avec plus de 4 000 membres, sont SF Data Mining, Data Science DC, Data Science London et le Bay Area R User Group.
5. Obtenez un mentor dans le domaine
Il peut รชtre difficile de naviguer dans la science des donnรฉes, surtout si vous venez d’un milieu non-technique. Vous n’aurez pas accรจs aux rรฉseaux qui parcourent la Silicon Valley en fonction du diplรดme. Une fois que vous sentez que vous รชtes sur une base solide, il est plus important que jamais que vous vous mettiez en relation avec quelqu’un qui est dans le secteur afin qu’il puisse vous donner un retour sur ce que vous devez amรฉliorer et, surtout, un contact interne et une rรฉfรฉrence lorsque vous en avez besoin. Une grande partie de l’embauche dans le domaine de la science des donnรฉes, comme dans tout autre domaine, nรฉcessite souvent un rรฉseautage. La plupart des emplois ne sont pas affichรฉs ouvertement, ils sont discutรฉs au sein de rรฉseaux de contacts. Assurez-vous d’รชtre impliquรฉ dans la communautรฉ et d’avoir quelqu’un qui se bat pour vous. Cela peut faire la diffรฉrence entre essayer de trouver un emploi et travailler votre premier jour en tant que scientifique des donnรฉes. Vous pouvez รฉgalement utiliser une solution telle que le parcours de carriรจre en science des donnรฉes avec mentorat de Springboard pour faire progresser votre carriรจre en science des donnรฉes.
6. Prรฉparez-vous ร l’entretien
Si vous venez d’un milieu non-technique, un entretien en science des donnรฉes peut รชtre particuliรจrement intimidant, car il enveloppe les questions d’ingรฉnierie logicielle de statistiques et de mathรฉmatiques. Pour avoir un aperรงu de ce qui vous attend, consultez le manuel d’entretien en science des donnรฉes, qui contient 120 exemples de questions. L’entretien en science des donnรฉes est une bรชte trรจs รฉtrange. On vous demandera ce que vous savez sur l’entreprise et le secteur, ainsi que sur vos expรฉriences passรฉes, comme dans tout entretien classique. Vous serez รฉgalement interrogรฉ sur vos compรฉtences en ingรฉnierie des donnรฉes et, ร bien des รฉgards, certains aspects de l’entretien ressembleront ร des entretiens d’ingรฉnierie logicielle, avec un peu de statistiques et de thรฉorie de la science des donnรฉes. Assurez-vous d’รชtre prรฉparรฉ ร tout ce qui pourrait survenir.
7. Ne cessez jamais d’apprendre
Pour perfectionner chaque compรฉtence que la science des donnรฉes requiert, il faudrait passer plusieurs vies sur le sujet. Vous n’aurez jamais fini d’apprendre, et vous devriez toujours garder l’esprit de curiositรฉ intellectuelle qui vous a amenรฉ ร la science des donnรฉes en premier lieu.
Paul Kalanithi, un chirurgien de Stanford qui a dรป faire face ร une mortalitรฉ prรฉcoce, a รฉcrit de faรงon poรฉtique sa vision de la vie dans ses mรฉmoires, When Breath Becomes Air : ยซย On ne peut jamais atteindre la perfection, mais on peut croire en une asymptote vers laquelle on tend sans cesse.ย ยป
Vous devrez adopter cette mentalitรฉ si vous voulez vous lancer dans la science des donnรฉes et poursuivre votre carriรจre. Peut-รชtre qu’un jour, vous deviendrez vous-mรชme un mentor, enseignant au fur et ร mesure que vous apprenez, et complรฉtant le cycle de la science des donnรฉes !