Cinemetrics est une création visuelle unique d’un designer et programmeur créatif, Frederic Brodbeck. Ce travail constitue son projet de fin d’études à l’Académie royale des arts de La Haye, dont il est diplômé depuis peu.
Comme Frederic l’explique, l’idée derrière Cinemetrics est de mesurer et de visualiser des données concernant un film pour révéler une « empreinte » visuelle de ses caractéristiques, permettant ainsi de l’explorer et de le comparer avec d’autres productions du même genre, des remakes ou des films du même réalisateur.
Cliquer ici pour voir la vidéo.
Des informations telles que la structure du film, l’équilibre et la proéminence des couleurs, les mouvements et les éléments de discours sont extraites, analysées et transformées en représentations graphiques rythmées et utilisant une présentation radiale. Les graphiques sont divisés en segments, chacun représentant 10 plans du film. Les utilisateurs peuvent interagir avec l’œuvre et révéler les photos des scènes associées à la visualisation à tout moment du film. La vidéo explique le projet plus en détails.
Il est intéressant de voir des bribes d’exemples où Frederic a étendu les caractéristiques de Cinemetrics pour les appliquer à d’autres archétypes, en utilisant des données de programmes télé ou sportifs, comme les Simpsons.
La complexité du projet ne réside pas seulement dans l’objet visuel fini, mais il a aussi requis le développement d’un logiciel complexe pour faciliter l’exploitation et l’extraction des données de la vidéo depuis les films.
Une deuxième vidéo détaille les procédés de design, expliquant d’où viennent les données, quelles techniques ont été utilisées pour les analyser et les traiter, et montrant à quoi un film ressemble lorsqu’il est généré par cinemetrics.
Cliquer ici pour voir la vidéo.
Outre sa nature de projet de fin d’études, le produit de ce travail prend aussi la forme d’un livre qui détaille le projet dans sa globalité et d’une série de posters qui peuvent être achetés, commandés et personnalisés. Vous pouvez voir le portfolio de Frederic Brodbeck sur son site personnel.
Billet initialement publié en anglais sur le site Information Aesthetics sous le titre “Cinemetrics: Visualizing Movies”`
Traduction par Marie Telling
Aujourd’hui, les éditeurs nous bombardent de bestsellers. De leur côté, les libraires éclairés et les blogueurs liseurs nous conseillent quelques lectures hors des sentiers battus. Dans un monde de plus en plus numérique, à côté de cette prescription humaine, les outils de datamining (analyse de ce que vous lisez, des articles que vous consultez, comparaison avec ceux qui effectuent les mêmes actions que vous… ) proposent déjà des filtres de prescription (lisez ce que vos amis lisent). Par affinités électives, des ouvrages en relation avec ceux que nous lisons nous sont proposés, pour nous faire descendre vers les bas-fonds de la longue traîne. Excepté quelques auteurs stars, tous les autres dépendent de plus en plus d’algorithmes que seuls des géants peuvent mettre en œuvre (car eux seuls disposent de suffisamment de données). Il y a de la place pour Apple, Amazon, Google… Je ne vois même pas la Fnac s’en tirer.
Se pose la question pour les petits éditeurs et les auteurs indépendants de faire connaître leur production. On parle toujours de la nécessité d’avoir un blog et une plate-forme propriétaire mais elle ne permettra pas de faire du datamining, faute d’un nombre de transactions suffisamment élevé. Il sera impossible dans un petit écosystème d’amener les textes vers les rares lecteurs qui, quelque part, existent et qui pourraient les apprécier. Cette tâche semble dès lors dévolue aux seules grosses machines.
Un site est un bon endroit de fidélisation mais pas un lieu à partir duquel gagner de nouveaux lecteurs, sinon par un lent grappillage (qui n’est pas nécessairement compatible avec la forme blog). Je ne fais que mettre en évidence un piège qui est en train de se refermer : nous avons cru à l’indépendance en ligne, nous risquons d’y être plus que jamais dépendants de la distribution.
Il n’existe guère qu’une solution pour conserver notre liberté : l’interconnexion des auteurs et des éditeurs selon une logique win-win. Mettre en œuvre un datamining humain. C’est ce que je théorise dans L’alternative nomade. Mais je me demande si les auteurs réussiront à pratiquer cette stratégie du lien, tant pour la plupart nous ne pensons qu’à pousser nos propres textes au détriment de ceux des autres. Si cette mentalité se maintenait, ce serait notre perte, nous serions définitivement dépendants de la distribution.
Pour avoir une chance de ne pas nous emprisonner, il faudrait au minimum que nous puissions vendre en direct nos œuvres au prix que nous souhaitons, donc moins cher que la grande distribution. C’est ce que je tente avec La tune dans le caniveau.
C’est pourquoi le prix unique du livre électronique serait pour les auteurs et les éditeurs une catastrophe. En nous interdisant de vendre en direct à un prix avantageux, il donnerait une raison de moins pour les lecteurs de venir sur nos sites personnels ou ceux de nos éditeurs. Ces lecteurs auraient une chance de moins d’être en contact d’un datamining humain, un datamining de la passion et non uniquement celui d’élections algorithmiques ou promotionnelles.
Si nous réussissons à proposer chez nous nos œuvres à un prix avantageux, chaque fois qu’un lecteur trouvera un livre sur une grosse plateforme, il saura qu’avec un petit effort il trouvera le texte moins cher à la source. Le plus souvent, il ne s’y rendra pas, par commodité, mais il saura que cette porte est toujours ouverte et qu’elle offre d’autres itinéraires de lecture.
-Un blog d’auteur avec des articles relativement courts n’est pas nécessairement un vecteur adapté pour propulser des textes longs.
-Un auteur sur son blog peut se propulser mais pas se prescrire.
-Tous les auteurs et tous les éditeurs peuvent s’interconnecter pour créer un datamining humain.
-On peut imaginer un protocole open data pour interconnecter tous les vendeurs directs de livres et proposer des algorithmes de prescription décentralisés qui viendraient rivaliser avec ceux des plateformes géantes.
-Nous devons nous opposer au prix unique du livre pour pousser nos lecteurs à venir acheter chez nous. Le prix unique ferait le jeu des grandes plateformes.
-Le prix unique du livre papier devait protéger les petites librairies. Le prix non unique du livre électronique s’impose pour protéger les auteurs et les éditeurs. Un choix inverse s’impose parce que nous avons les moyens de vendre moins cher chez nous, en direct, puisque nous sommes les producteurs.
- N’oublions pas que sur un réseau the winner takes all. Nous devons empêcher cette perte de diversité et surtout pas la favoriser par une loi sur le prix unique. Notre seule chance sera de proposer nos textes moins chers chez nous.
-Au temps du papier, les éditeurs ne pouvaient pas vendre en direct puisque tout le monde achetait en librairie. La loi sur le prix unique tentait de mettre tous les distributeurs, petits ou grands, à égalité.
-Il s’agit aujourd’hui de ne pas obliger les éditeurs-vendeurs en direct via leur site à se soumettre aux gros distributeurs.
—
Billet initialement publié sur le blog de Thierry Crouzet
]]>Facebook a annoncé hier soir sa nouvelle messagerie « sociale » qui a pour but d’agréger l’intégralité des échanges entre deux personnes, qu’ils soient issus d’un chat, de SMS ou de courriels.
À ce titre, même si Facebook se défend de vouloir tuer l’e-mail (dont les poids lourds sont Hotmail et Yahoo aux États-Unis avec à eux deux presque autant de comptes que Facebook !), il est clair que la société du petit Mark essaye de réinventer un outil vieillissant mais toujours très utilisé.
Il essaye surtout d’éviter l’écueil rencontré par Google et Wave : en clair, on vous rend d’abord service en agrégeant les conversations, et en vous donnant un outil intelligent vous permettant de trier entre messages importants (ses amis proches) et moins importants (les messages d’invitation à des groupes, des soirées, des contacts moins récurrents).
Et seulement si vous le voulez, s’ouvrir sur sa messagerie actuelle en échangeant avec les personnes qui n’ont pas Facebook.
Cliquer ici pour voir la vidéo.
C’est là que la mécanique virale de type « stratégie du dealer » entre en jeu : en se connectant à des personnes qui n’ont pas Facebook mais qui ont un courriel, Facebook les intègre dans sa base.
Outre grossir artificiellement le nombre d’utilisateurs potentiels, le réseau de Mark Zuckerberg va peu à peu devenir l’outil indispensable pour les deux parties (l’utilisateur de Facebook et celui de courriel), poussant l’utilisateur de courriel à aller vers Facebook car finalement « s’il était membre de cette communauté il pourrait avoir accès à bien plus sur ses amis » : photos, invitations, statuts, etc. Ce que ne manquera pas de lui faire remarquer son amis facebookien (je suis en train de faire cela avec ma petite sœur, c’est vous dire si je vois très bien la mécanique se mettre en place).
Conclusion : Facebook Mail ne veut pas tuer le mail, et c’est vrai. C’est au contraire un formidable outil de recrutement et d’évangélisation basé sur des usages de chaque côté de la barrière : « le mail c’est limité regarde tout ce que tu peux faire avec Facebook. » / « Finalement ma boite mail elle est limitée et j’y reçois des tonnes de spam, sur Facebook il n’y a que mes amis qui me parlent et tout est agrégé simplement. »
Sans oublier que c’est un nouveau levier pour augmenter la captation de temps passé sur le réseau et afficher plus de pub. D’ailleurs, rien ne dit que Facebook ne va pas screener les messages à la mode Gmail pour associer des annonces de marques ou bien proposer des rapports d’usages à des marques présentes sur la plateforme.
Côté Gmail, Google a d’abord proposé Buzz, pour agréger les flux sociaux de type « statut » (Twitter, Friendfeed…), puis a sorti assez discrètement en septembre 2010 une boite aux lettres « intelligente », basée sur la fréquence d’utilisation et de réponse à certains messages, et triant automatiquement les messages importants ou pas pour l’utilisateur.
Cliquer ici pour voir la vidéo.
Mais le tri reste basé sur le contenu, pas sur les interactions sociales. C’est là qu’intervient Facebook et la force de son “social graph”, qui devient l’outil d’analyse pour classer l’information non pas en fonction de sa teneur mais de son émetteur et de sa proximité sociale.
Facebook ne veut donc pas tuer le mail mais le ré-inventer en douceur, toujours en s’appuyant sur sa force première : les usages sociaux de sa communauté de plusieurs centaines de millions de membres.
Tout en posant les incontournables questions de confidentialité des échanges, et de marchandisation de ceux-ci, Facebook ainsi en sa possession une formidable base de données qui comporte à la fois les profils des membres, les actions de ceux-ci en temps réel (statuts) ou différé (photos…), leurs goûts (I Like), leurs envies (invitations, pages de fans), et maintenant une vision précise de qui échange fortement avec qui y compris en dehors de la plate-forme (avec, à la clé, l’affinage du graphe social, la base de l’algorithme du site).
Une mine d’or pour les marques, une datamining hallucinant, et, il faut le reconnaitre, une addiction toujours plus forte des utilisateurs qui voient leurs usages placés au centre du mécanisme. Superbe piège.
—
Billet initialement publié sur Stan et Dam
Image CC Flickr smlions12
]]>Harris est un artiste des données. Du haut de ses 31 ans, il a déjà à son actif une vingtaine de projets visibles sur son site, number27. Alors qu’il travaillait sur un projet de visualisation de l’actualité, 10×10, il croisé Upendra Shardanand, CEO de Daylife, une plateforme de publication pour sites d’actu. Shardanand dit de lui très justement:
Harris comprend le web intuitivement. Il l’utilise comme un sculpteur utilise l’argile.
Sa technique tient dans le code (il maîtrise PHP, ActionScript, Java et C++), son inspiration reste la même : comment raconter des histoires sur le web, et comment raconter les histoires du web. Il est fasciné par l’art de raconter des histoires et de transmettre un message à travers elles.
Il a donné une présentation à la conférence de l’ONA, le 30 octobre dernier, largement saluée comme la meilleure du week-end. La vidéo est un enregistrement du livestream. Harris a participé à une conférence TED il y a deux ans, produisant une vidéo de meilleure facture placée au pied de la page.
We Feel Fine est un ‘aspirateur’ cherchant, sur les blogs, toutes les phrases contenant les mots I feel ou I am feeling. Il mouline les phrases avec de puissants algorithmes qui mettent en forme des millions de sentiments publiés sur le web. Cette somme de pensées est agrégée dans un applet Java, où Harris a tenté de reproduire les mouvements humains. Si vous laissez l’applet ouvert, les sentiments s’agglomèrent. A l’inverse, si vous cliquez au hasard, ils s’enfuient loin du danger que représente le curseur. Les statistiques produites par l’outil sont également impressionnantes. Harris arrive par exemple à montrer que le sentiment de joie augmente régulièrement jusqu’à 60 ans, période où le sentiment de solitude reprend le dessus.
Harris a donné une présentation TED sur le sujet il y a 3 ans.
En mai 2007, Harris part observer les pêcheurs de baleine en Alaska. Plutôt que d’en ramener un reportage ou même un webdoc, il réinvente complètement le mode de récit sur le web.
Pour produire Whale Hunt, Harris a pris une photo toutes les 5 minutes pendant une semaine. La fréquence des photos était fonction de son rythme cardiaque: plus il augmente, plus il prend de photos. Le résultat est une mosaïque de photos où l’on peut suivre, minute par minute, le voyage de Harris. Il nous plonge au plus près de son expérience, sans aucun recul.
Avec I want you to want me, Harris répondait à une demande du musée d’art moderne de New-York. Il a agrégé les profils trouvés sur les sites de rencontre pour montrer comment les internautes se présentent, cherchent à plaire et trouver compagne ou compagnon.
Illustration CC FlickR Andy Polaine
]]>Le sésame pour aller voter
Il est très difficile de connaître l’emplacement de tous les bureaux de vote. Nous nous en sommes aperçus lors de notre travail sur l’étude du redécoupage électoral. Le ministère de l’intérieur ne centralise pas ces données. Il s’agit pourtant d’informations nécessaires à notre travail citoyen. Le seul moyen de les obtenir : contacter les 36 000 mairies ou les 100 préfectures départementales. Nous avions donc décroché nos téléphones, et contacté une quarantaine de villes et préfectures pour obtenir les adresses des 1 400 bureaux de vote impliqués dans le redécoupage.
Une fois le bon interlocuteur identifié, le défi consiste à obtenir le document recensant les adresses des différents bureaux de vote. De la liste manuscrite dictée par téléphone au document scanné de travers, les cas de figure sont nombreux ! Et il faut ensuite tirer des documents ainsi obtenus les données utiles dans un format structuré : extraire les adresses et les identifiants, positionner les adresses sur une carte, et associer les bureaux de vote aux résultats électoraux.
En parlant de ce travail, nous avons découvert que des acteurs comme 22mars, La Netscouade ou BureauDeVote.fr rencontraient les mêmes problèmes. Parmi eux, Nicolas Kayser-Bril de 22mars avait déjà contacté toutes les préfectures. Plutôt que de travailler chacun seul dans son coin, nous avons décidé d’unir nos forces pour reconstituer ces informations qui devraient être accessible à tous.
Grâce au travail de NKB de 22mars, 88% des documents ont été réunis. Seules quelques préfectures ne nous ont toujours pas fait parvenir les documents définissant leurs bureaux de vote, et la poursuite des efforts de chacun finira certainement par payer.
Mais le travail n’est pas fini ! Il reste désormais à convertir l’ensemble de ces documents en données exploitables. Là encore nous tentons d’innover : reconnaissance de texte OCR, conversion automatique de PDF, conversion de tableurs, … Parfois avec succès, souvent beaucoup plus difficilement. La dernière expérience en date est une application de crowdsourcing permettant de faciliter et décentraliser la partie manuelle du travail. Grâce à cette plateforme participative, quiconque ayant ne serait-ce que 5 minutes pour nous aider peut participer à libérer ces informations.
Parce que nous estimons que l’accès à ces données est essentiel au bon fonctionnement de la démocratie et qu’elles devraient appartenir à tous les citoyens, nous avons décidé d’ouvrir également une plateforme de partage afin que chacun puisse s’approprier au fur et à mesure de notre avancement les documents et les données produits jusqu’à présent. N’hésitez donc pas à participer vous aussi à cette aventure ! Appelez les préfectures récalcitrantes ; téléchargez nos données et les documents préfectoraux, corrigez et complétez les ; participez à la transcription communautaire grace à l’interface de crowdsourcing ! Toutes les contributions sont les bienvenues pour illustrer les usages innovants qui peuvent émerger de données aussi centrales à notre démocratie.
Rendez-vous donc très vite sur http://elections.regardscitoyens.org/ !
—
]]>Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).
L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.
Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.
Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).
La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.
Exemple imaginaire :
Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »
Donnée structurée :
Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.
La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».
Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.
Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).
Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).
—
» Article initialement publié sur Databasejournalism
Des réponses intéressantes aux questions soulevées par l’auteur ont été ajoutées en commentaires /-)
]]>Cliquer ici pour voir la vidéo.
Le genre journalistique a fait ses preuves aux Etats-Unis et aussi outre-Manche. Quelques exemples :
- Data & Taxes 2010, par WallStats.com (site de Jess Bachman, 28 ans). Répartition du buget fédéral américain, révélant les véritables « priorités » de l’administration US.
- EveryBlock, du journaliste Adrian Holovaty, qui vous permet de connaître les crimes et comportements antisociaux qui ont eu lieu près de chez vous (on peut apprécier l’outil et réprouver les fins, of course)
- Crime Mapper, une moulinette de la britannique National Policing Improvement Agency (!!) , pâle copie de la précédente.
- Stock Ticker Orbital Comparizon, qui utilise la métaphore d’un système planétaire pour représenter les valeurs de l’indice S&P500.
(Bon, il y en a des centaines d’autres…)
Ce que ces outils très différents ont en commun c’est qu’ils nous permettent à vous et moi d’apprécier des bases de données plutôt mastoc grâce à une interface ludique, pratique ou simplement agréable à regarder. Avec en plus un côté interactif qui en fait tout l’intérêt par rapport à un simple graphique en deux dimensions.
En France pourtant (quelle surprise), ce type de documents interactifs a bien du mal à convaincre les sites des grands journaux et même les site d’infos « pure players » sur le web. Je n’en connais qu’un : la Carte de la crise sociale de Mediapart, en fait un simple « mashup » de GoogleMaps, renseigné par la rédaction et régulièrement mis à jour.
Et qui c’est d’après-vous qui se trouve derrière ce classement des députés cumulards sur Le Monde/Le Post ? Un certain NicolasKB…
Si vous connaissez d’autres exemples de dataJ français, je suis preneuse!
Pour faire connaître son boulot, Nicolas a donc créé son propre blog, Windows on The Media. Il publie aussi sur le site d’Owni et a quelques projets en cours, notamment pour le Monde.fr.
Ce petit gars aurait-il 10 ans d’avance ? Manifestement les promoteurs ne se bousculent pas au portillon. Quelques contacts sont en vue, mais rien de très consistant pour le moment. Le data-journalisme ne nourrit pas encore son homme.
Pour le contacter sur Twitter : @nicolasKB
—
» Interview réalisée par Tatiana Kalouguine pour son blog La Voix du Dodo