Intelligence artificielle : les algorithmes de recommandation pour le streaming

Daniel MER
8 min readMay 7, 2021

--

Big Data, Intelligence artificielle, Machine Learning… Ces mots, vous les voyez partout. Ce sont les buzzwords du moment. Une nouvelle ère de l’informatique est née et elle transforme profondément notre quotidien : de la montre connectée qui relève le nombre de vos pas à la publicité ciblée qui influencera votre prochain achat.

Le Big Data est un concept permettant de traiter d’importantes quantité de données de manière efficace. Concrètement, la science que l’on appelle “Big Data” comporte tous les volets du traitement de données sauf la collecte :

  • Acquisition de données : aller chercher avec des requêtes aussi optimisées que possible des informations variées sur des banques de données créées par l’entreprise ou disponibles librement.
  • Mise en forme : préparation des données, s’assurer de la nature des données, de leur intégrité et éventuellement les modifier en conséquence.
  • Traitement : exploiter les données pour établir des tendances, rechercher des similitudes, ou quelconque information utile économiquement et stratégiquement. C’est ici que l’intelligence artificielle entre en jeu.
  • Exploitation : communiquer ces données d’une manière intelligible et capitaliser sur les résultats du traitement pour être créateur de valeur ajoutée.

Pourquoi parle-ton de Big Data ? Nous allons nous intéresser à un domaine particulier dans lequel le Big Data est en plein essor : le streaming.

Streaming Technique de diffusion et de lecture en ligne et en continu de données multimédias, qui évite le téléchargement des données et permet la diffusion en direct (ou en léger différé). — Le Robert

Le streaming s’est vastement développé en 20 ans et est devenu partie intégrante de notre vie quotidienne. Les plateformes de streaming Youtube, Spotify, ou encore Netflix comptent parmi les sites Internet les plus visités du Web. La vague de dématérialisation qui a eu lieu à la fin des années 2000 a été la rampe de lancement du streaming : les disparitions du CD et de la cassette se sont faites au profit du fichier MP3 et du fichier AVI. Couplé à la croissance exponentielle d’Internet, on comprend aisément pourquoi ce phénomène est à l’origine de la croissance des données disponibles en ligne.

Selon Youtube, 2 milliards d’utilisateurs connectés visitent la plateforme chaque mois et les internautes regardent plus d’un milliard d’heures de vidéo et génèrent des milliards de vues chaque jour. Ainsi, ce ne sont pas uniquement les données multimédia qui grandissent mais aussi les données utilisateurs :

  • Quel âge à l’utilisateur ?
  • De quel région vient l’utilisateur ?
  • Quels types de contenu consomme-t-il ?
  • Qui sont les autres utilisateurs avec qui il interagit ?
  • Quelles sont ses horaires de connexion ?

Les géants du streaming sont en mesure de collecter d’innombrables informations sur les utilisateurs pour pouvoir enrichir leur connaissance du public. A partir de celles-ci, il peuvent développer leur plateforme pour satisfaire leur stratégie marketing :

  • Comment fidéliser les consommateurs ?
  • Comment assurer la croissance du nombre de nos clients ?
  • Comment proposer du contenu qui plaira à l’utilisateur ?

C’est dans cette conjoncture que la notion de personnalisation prend tout son sens. Si une plateforme de streaming capitalise sur les données en sa possession et parvient à personnaliser le contenu pour chacun de ses clients, elle s’assure une longueur d’avance sur les autres. Pour ce faire, les plateformes développent des algorithmes de recommandation.

L’intelligence artificielle (IA) consiste à mettre en œuvre un certain nombre de techniques visant à permettre aux machines d’imiter une forme d’intelligence réelle. — Futura Sciences

Quelle technologie est impliquée derrière les algorithmes de recommandation ?

Comme je le disais précédemment, c’est l’intelligence artificielle qui a permis la personnalisation du contenu à travers les algorithmes de recommandation. Plus précisément, ce sont des méthodes de Machine Learning qui sont implémentées dans les algorithmes de recommandation.

Machine Learning Science moderne permettant de découvrir des patterns et d’effectuer des prédictions à partir de données en se basant sur des statistiques, sur du forage de données, sur la reconnaissances de patterns et sur les analyses prédictives. — Le Big Data

Ici, il s’agit de découvrir les similarités au sein des utilisateurs de la plateforme mais aussi au sein du contenu en lui même pour prédire les attentes des utilisateurs. Pour ce faire, la plupart des programmes développés par les géants du streaming repose sur le clustering.

Le clustering est une méthode d’analyse statistique utilisée pour organiser des données brutes en clusters (i.e. groupes) homogènes. Chaque groupe partagent des caractéristiques communes. L’enjeu est de trouver une métrique de mesure qui minimise la proximité entre chaque élément à partir des critères définis au sein d’un groupe mais qui maximise la distance des groupes entre eux.

L’un des algorithme les plus répandus de clustering est une méthode centroïde : le K-means.

A partir des descripteurs disponibles pour chaque donnée, on définit une mesure de distance pour définir le taux de similarité entre deux données. Ainsi on dit que de deux données sont similaires si leurs descripteurs sont proches. Le but de l’algorithme est de trouver K données de référence autour desquelles les autres données peuvent être regroupées : ce sont les centroïdes.

En pratique, après avoir initialisé K centroïdes, la construction des clusters se fait en associant à chaque donnée le centroïde le plus proche. Une fois les clusters constitués, le calcul de la moyenne des descripteurs des données d’un cluster permet de déterminer la nouvelle position du centroïde. On opère plusieurs itérations de ces opérations (exceptées l’initialisation) jusqu’à obtenir des clusters stables dont la composition ne changerait plus si on relançait l’algorithme.

Clusters obtenus par l’algorithme K-means

Il existe un grand nombre de méthodes de clustering différentes. L’ambition n’est pas de toutes les étudier dans ce court article mais plutôt d’analyser leurs applications dans le cas des algorithmes de recommandation. Ceux-ci reposent sur 2 grands mécanismes : le collaborative filtering et le content-based filtering.

Prenons l’exemple des services de streaming de l’industrie musicale.

Le collaborative filtering consiste à comparer les goûts des utilisateurs pour repérer les profils similaires. Par exemple, si 2 utilisateurs écoutent tous les deux les mêmes chansons, on peut déduire que leurs profils sont similaires. Ainsi, si un des 2 utilisateurs écoute un nouveau morceau, on pourra le recommander au second. Le nombre d’utilisateurs étant important et croissant, l’enjeu pour la plateforme est d’optimiser ses algorithmes pour obtenir des résultats assez rapidement.

Ainsi on crée des clusters d’utilisateurs qui ont une culture musicale commune. Si on ajoute à cela, les informations personnelles des utilisateurs (e.g. : âge, région, langue parlée, langue écoutée, etc.), on parvient à définir des clusters très fins qui serviront à fidéliser de nouveaux utilisateurs. En effet, à partir des données personnelles d’un nouvel utilisateur et de ses quelques données d’écoute, il peut être associé à un cluster et avoir des recommandations personnalisées de nouveaux titre à écouter sur la plateforme.

Contrairement au collaborative filtering, le content-based filtering analyse les données liées à la musique. En particulier, les données sonores et le contenu textuel associé aux artistes et morceaux. Il s’agit d’établir les similarités entre morceaux.

En analysant les caractéristiques des morceaux, on extrait des données telles que le tempo, l’intensité sonore ou encore le niveau de basse qui deviennent alors les descripteurs de notre algorithme de clustering. On cherche à établir des clusters de morceaux. A partir de ses écoutes précédentes, la plateforme est en mesure de proposer des morceaux aux caractéristiques similaires à l’utilisateur.

En plus des données sonores, les données liées aux morceaux disponibles sur internet sont récoltées par caractériser les morceaux et les artistes grâce à des algorithmes de traitement automatique des langues. On peut alors pondérer chaque contenu (artiste, morceau, album) avec des tags qui permettent encore la recommandation de contenu similaire.

Pour répondre à leurs attentes de personnalisation, les plateformes de streaming font la combinaison de ces deux mécanismes pour proposer des recommandations toujours plus pertinentes à leurs utilisateurs.

Quelles sont les applications pratiques des algorithmes de recommandation dans le streaming ?

On considère que Spotify est la première plateforme de streaming qui a fait usage de l’intelligence artificielle pour implémenter la personnalisation de ses services. Le succès de Spotify est étroitement lié à sa stratégie marketing data-driven qui repose sur l’IA. Spotify excelle en particulier dans l’art

des recommandations. Ainsi, chaque jour sont proposés plusieurs “Daily Mix” regroupant par styles des morceaux associés à nos goûts. Chaque semaine est aussi proposée une playlist “Découverte de la semaine”. Chaque morceau est recommandé sur mesure en fonction des goûts de l’utilisateur.

Il en va de même pour Netflix qui, en plus d’organiser son interface pour proposer en premier lieu des contenus plus susceptibles de plaire à l’utilisateur (i.e. contenus visionnées par des utilisateurs similaires ou contenus similaires à son historique de visionnage), réalise de la production de contenu en fonction des audiences sur les films et séries disponibles sur la plateforme. Il s’agit de déceler la naissance de clusters émergents pour leur recommander du contenu adéquat. C’est ainsi que Netflix a décidé en septembre 2020 de produire plus de contenus dans la catégorie “Comédies romantiques” aux vues de la forte hause de consommation pendant l’été 2020.

La recommandation pour le streaming a un bel avenir devant soi et les possibilités de développement sont infinies. Tant que les plateformes de streaming répondent aux attentes de leurs utilisateurs, et même, tentent de les anticiper, et que la quantité de données utilisateurs continuera de croître la recherche sur les algorithmes de recommandation continuera de fleurir. Jusqu’où ira-t-elle ? Les problématiques de surexploitation des données personnelles semblent être un un nuage à l’horizon.

--

--

No responses yet