spampaint

04/05/08

Le spam comme intelligence artificielle

Categorie(s) : Pensée brute
+ Réagir (2 Comments) +

L’offensive de spam de blog et sa contre-offensive par les captchas est une saga plus passionnante qu’il n’y paraît.

Le robot spammeur de mails – ces scripts qui génèrent des mails tombant dans nos boîtes électroniques tel des prospectus wibra à l’approche de paques – a dans le fond peu de jugeotte. Il doit réussir à rentrer coûte que coûte dans nos mails « sains », et pour ça il doit travailler en deux temps. D’abord trouver votre adresse, en analysant des pages web, en les composant au hasard (dans le fond, n’importe quoi @yahoo.fr doit être une adresse mail valide) ou en les volant dans d’autres sites, ou même en l’achetant, chuchotent les conspirationnistes. Ensuite envoyer un mail que votre navigateur mail ne reconnaitra pas comme spam. En mettant des espaces entre les lettres de viagra, en vous mettant vous même comme expéditeur, en écrivant « bigger penis » dans une image avec des couleurs différentes, les tratégies sont assez grossières. Elles rappellent celles du démarcheur de rue ou du marketting par téléphone. Le spam mail a inventé le pied dans la porte éléctronique, ou l’art de se faire passer pendant quelques secondes pour ce qu’on est pas, dans l’espoir de vous vendre quelque chose.

Son frère le spammeur de blog, par contre, retiendra notre attention. Son terrain de chasse est moins nébuleux et sa stratégie plus oblique. En effet, la plupart du temps, il n’espère pas vous vendre quelque chose à vous, ou à vos lecteurs. Il courtise les moteurs de recherche, et ce qu’il veut n’est pas votre apporbation mais du ranking, monter vers les premières places des réponses de moteur de recherche… C’est pourquoi il ne prend pas la peine de se traduire, de vous proposer un produit que vous pourriez consommer. Une assurance de bagnole américaine, un site érotique tout en chinois ? Il s’en fout si vous ne pigez pas les signes kilométriques qui s’affichent à l’écran, car ce n’est pas à vous qu’il s’adresse. Ce point déjà est vertigineux de conséquences conceptuelles.
Mais pour arriver à ses fins il doit réussir à passer les mailles de l’antispam. Ce qui fait la différence avec son frère le spammeur de mail, c’est la guerre des captchas, ces scripts installés sur les blogs pour traquer leurs spams. Comme l’analyse simple, celle des contenus, adresses, titre, ne suffit pas, la plupart des blogs intègrent des champs à remplir ou a laisser vide, qui sont autant de pièges tendus aux robots. S’engage alors une lutte entre robots, à une vitesse qui n’est plus de notre dimension, comme dans les films catastrophe des années 80′.

Les robot de spam deviennent de plus en plus intelligent. Il sont capables aujourd’hui de nombreuses stratégies :

– Certains blogs place un champ de texte, qu’il vous demandent de laisser vide. Certains robots les remplissent, car ils remplissent tous les champs mis à disposition. Mais certains robots sont capable de les identifier, et contrôlent leur pulsion de remplissage.

– Certains blogs proposent une série de lettre dans une image. Au départ, c’était suffisant, mais rapidement les robots ont intègré des logiciels OCR (de reconnaissance de caractère). On a alors déformée l’image, on lui a mis des couleurs, des jolies lignes et plein de points. Les logiciels OCR se sont juste renforcés. Le cerveau humain identifie les lettres, et le robot pas normalement, mais aujourd’hui les lettres sont parfois tellement illisibles que les humains ne les reconnaissent pas.

– D’autres vous postent un commentaire innocent et flatteur « nice website ! », que vous validez par flagronnerie, et qui lui permet ensuite de vous inonder d’assurances de voitures américaines parce qu’il est reconnu comme intervenant valide.
Ce matin, sur le site shorpy.com, excellent site plein de photographies fameuses de la première moitié du XXeme siècle, j’ai vu que l’on me demande, pour poster un commentaire, de résoudre une simple addition. Combien font 7 + 1, me demande-t-on. Etrange, car s’il est bien quelque chose qui calcule bien et de manière infaillible, ce sont bien les scripts. C’est évidemment dans l’analyse de la phrase que ce nouveau captcha espère gagner sur les robots. Mais comme le principe de cette guerre est que tout ce qui est produit par un robot est identifiable par un robot, on peut s’attendre à une nouvelle évolution, qui pourrait amener nos robots de blog au niveau des réplicants de Blade runner. A quand la question « si je vois une petite fille avec une poupée cassée, qu’est-ce que je ressent ? » auquel le robot, faisant appel à des moteurs d’analyse, répondra « tristesse »?

Le rapprochement n’est pas fortuit, puisque le captcha est en fait un forme de test de Turing (ce test est une série de question/réponses par lequel on tente d’identifier une machine, et donc de tester en fait les capacités de la machine à se comporter comme un humain), un test de turing partiellement à l’envers puisqu’ici une machine essaie d’identifier une autre machine, pour détruire ce qu’elle a produit, ce qui fait frémir.
Le captcha devient donc un espèce de Blade runner. Là, dans une dimension hors de la notre, qui se mesure en nanosecondes, des robots se livrent bataillent, certains se faisant plus humains qu’humains, d’autres les traquant. L’industrie du porno a largement contribué à la mise en place d’internet tel qu’on le connaît mais on ignorait jusqu’ici que les assurances de voitures feraient avancer l’intelligence artificielle.

Définition du captchaDéfinition du test de Turing

Illustration: spampaint de Sebastian Schmieg

2 réponses à “Le spam comme intelligence artificielle”

  1. yhancik dit :

    Oui ça fait longtemps que je pense au test de Voight-Kampff quand je vois un captcha.
    (et se souvenir de « Have you ever retired a human by mistake? » « in your position that is a risk » quand on tombe sur un illisible).

    Sinon quelques liens (en espérant que la quantité de lien ne me fasse pas tomber dans la catégorie « spam potentiel » :p)

    http://ocr-research.org.ua/ : un type qui s’amuse justement à « cracker » les captcha (pour en démontrer les faiblesses évidemment)

    http://recaptcha.net/ : un projet qui utilise les captcha pour aider à la numérisation de livre, ou comment faire d’une pierre deux coups

    http://research.microsoft.com/asirra/ : Microsoft propose d’utiliser des chats et des chiens (on en revient à P.K. Dick)

    http://www.labnol.org/internet/favorites/cats-inside-rapidshare-captcha-images/3064/ et une version intermédiaire.. toujours avec des chats et chien 😉

  2. stephane.noel.stock dit :

    Tu ne penses pas si bien dire, j’ai du valider ce post, considéré comme douteux. Toujours aussi vif et pointu, Yannick, content de te lire. A bientôt lors d’une de tes expos ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *