Cas Pratique d'OSINT : enquêter sur un site web - ivg.net

/!\ Cet article parle d’avortement / Interruption Volontaire de Grossesse

Il y a eu un développement assez impressionnant ces dernières années de l’OSINT (Open Source Intelligence, c’est à dire des investigations à partir de données accessibles publiquement en ligne) dans des enquêtes journalistiques ou sur des abus de droits humains. Il faut bien sur citer l’excellent travail de Bellingcat qui a ouvert de nouvelles perspectives pour les journalistes suivi ensuite par des médias comme chez Mediapart ou BBC Africa pour n’en citer que deux. Mais également le développement de l’OSINT pour documenter des abus de droits humains, comme par exemple le travail fait par le Citizen Evidence Lab d’Amnesty International ou la publication du récent Berkeley Protocol on Open Source Investigations. Même s’il faut réfléchir aux potentiels effets nocifs de ce développement (je pense notamment aux questions éthiques vis-à-vis du doxing, ou au fait d’avoir moins d’investigateurs-trices sur le terrain), je suis convaincu qu’ils vont avoir des effets positives dans ces deux domaines, et nous devons essayer de fournir plus de contenus accessibles à des journalistes et/ou chercheur-euses sur les droits humains.

Dans la lignée du guide d’OSINT que j’ai publié il y a deux ans, j’ai participé l’été dernier au début d’un guide d’OSINT en français à destination de journalistes avec Nothing2Hide. Je republie ici (un peu réécrit) un cas pratique sur l’investigation d’infrastructure d’un site web, en l’occurrence ivg.net.

IVG POINT NET#

ivg.net est un site web assez ancien et très problématique : sous une apparence de site d’information sur l’interruption volontaire de grossesse, il s’agit en réalité d’un site anti-avortement maintenu par un groupe de militants catholiques qui tente de dissuader des femmes d’interrompre leur grossesse. Au fil des années, il est parvenu à être très bien référencé par les moteurs de recherche et a même mis en place un numéro d’appel gratuit.

Il s’est retrouvé sous le feu des projecteurs en 2017 après plusieurs enquêtes de journalistes basés sur des témoignages de femmes qui ont été en contact avec cette organisation. Le gouvernement français a fini par mettre en place un délit d’entrave à l’interruption volontaire de grossesse sur Internet ainsi qu’un portail officiel d’information sur les méthodes d’interruption volontaire de grossesse et un numéro vert national (le 0 800 08 11 11). Le Monde avait alors fait une analyse des personnes derrière ce site en utilisant les données Whois. Je propose ici de reprendre cet exemple pour pousser un peu plus cette enquête, en utilisant principalement la plateforme RiskIQ.

Données techniques sur un site web (en bref)#

Il existe plusieurs façons pour trouver des informations sur un site web :

  • Bien évidemment, consulter le site, regarder les mentions légales, analyser le contenu etc. (nous n’allons pas nous attarder là dessus dans cet article car cela varie fortement d’un site à l’autre).
  • Consulter les données Whois, il s’agit d’informations obligatoires lors de l’enregistrement d’un nom de domaine. Depuis la mise en oeuvre du RGPD, elles sont très souvent masquées, mais elles peuvent être une source intéressante de données pour des sites enregistrés il y a longtemps.
  • Consulter des bases de passive DNS (historiques DNS en français même si le terme anglais est le plus souvent utilisé), il s’agit de bases faisant un historique de liens entre des noms de domaines et des adresses IPs. Cela permet de trouver des domaines hébergés sur un même serveur et donc potentiellement utilisés par les mêmes personnes.
  • Identifier des liens entre des sites webs partageant des identifiants d’analytics ou de pubs comme Google Analytics ou Google AdSense.

Pour plus d’informations sur les données Whois ou les historiques DNS, vous pouvez lire ce tutoriel que j’ai publié l’été dernier sur le site du Citizen Evidence Lab d’Amnesty (en anglais). Sur les identifiants de publicité ou d’analytics, vous pouvez voir cet excellent article de Bellingcat (en anglais également).

Beaucoup de plateformes offrent à la fois un historique DNS et des données Whois même si la plupart d’entre elles sont payantes. En voici une liste des principales plateformes (probablement incomplète) :

  • RiskIQ : plateforme payante combinant données Whois, historiques DNS, scans de serveurs et identifiants de pubs ou d’analytics. Elle offre un accès gratuit qui est depuis récemment limité dans l’historique (voir ci dessous)
  • Farsight DNS DB : plateforme payante qui offre un accès gratuit pour tester pendant 30 jours
  • Zetalytics : plateforme commerciale
  • DomainTools : plateforme commerciale
  • Robtex : service gratuit mais assez limité
  • Security Trails : plateforme commerciale proposant un accès gratuit et limité en nombre de requêtes.
  • Domain Big Data : plateforme gratuite mais limitée

Pendant longtemps, j’ai conseillé d’utiliser l’accès gratuit de RiskIQ pour des investigations parce que leur base de données est très complète et ils proposaient un accès gratuit de 25 requêtes par jour. RiskIQ a récemment limité l’historique des données pour les comptes gratuits, le rendant nettement moins utile sans accès professionnel. Ce tutoriel est basé sur l’accès professionnel à RiskIQ (les données datent d’Août 2020), mais je conseille aujourd’hui plutôt d’utiliser les plateformes Domain Big Data, Security Trails ou Farsight DNS Db si vous ne possédez pas d’accès professionnel à ces plateformes.

Données Passive DNS#

Commençons par chercher ivg.net dans RiskIQ, et regarder les données passive DNS :

On voit que le domaine est hébergé sur un serveur OVH 213.186.33.19 depuis 2009, et a été hébergé sur un autre serveur OVH 46.105.174.38 entre 2015 et 2016.

Regardons plus précisément quels domaines sont hébergés sur ces serveurs, d’abord sur 46.105.174.38 :

On voit que ce serveur a hébergé au moins 249 domaines différents, qui ne semblent pas en rapport avec ivg.net. Il s’agit probablement d’un hébergement sur un serveur partagé entre plusieurs clients, peut-être fourni par OVH directement. Même en cherchant dans les domaines hébergés en 2015 et 2016, rien ne semble relié à ivg.net.

Regardons le second serveur, 213.186.33.19 :

Même chose ici, plus de 1000 domaines sur ce serveur, rien ne semble en rapport en regardant rapidement. Donc rien de très intéressant côté passive DNS.

Données Whois#

Regardons maintenant les données Whois :

Comme prévu les informations récentes sont masquées par le fournisseur de domaine, mais on voit que le domaine a été créé en 1997, et que RiskIQ possède 6 enregistrements des données Whois depuis 2011, donc il est probable que nous allons trouver des informations intéressantes dans les données whois plus anciennes. Regardons la plus ancienne de 2011 :

(Par respect pour la vie privée plus que pour les gens derrière ivg.net, j’ai masqué les noms de famille des personnes impliquées, mais vous pouvez lire l’article du Monde qui fournit plus de détails)

Bingo, on tombe sur le nom de la créatrice, Marie, mentionnée dans l’article du Monde, ainsi que de son numéro de téléphone. Faire une recherche dans RiskIQ sur ce numéro de téléphone donne plus de 1000 sites apparemment sans rapport avec ivg.net. Il s’agit sans doute du numéro de téléphone d’une autre personne impliquée dans la création du site web. Une recherche sur le nom dans les whois, ne donne rien. Regardons donc les coordonnées whois de 2014 :

On voit qu’entre 2011 et 2014, l’association SOS Détresse (également mentionnée par le Monde) devient propriétaire du domaine en plus de Marie sa créatrice. Cela nous donne plusieurs informations sur lesquelles pivoter, le nom de l’association, mais aussi l’adresse ainsi que deux nouveaux numéros de téléphone. Commençons par regarder les autres domains enregistrés par SOS Détresse :

On voit plusieurs domaines en rapport avec l’IVG, comme ivg-paris.com ou ivg-par-aspiration.net, mais également deux domaines qui imitent clairement un site gouvernemental ivg-gouv.com et ivg-gouv.net. Ces domaines n’ont jamais été utilisés à ma connaissance, mais le fait de les avoir enregistré pose beaucoup de questions éthiques et légales.

Le premier numéro de téléphone nous renvoi à une liste de plusieurs milliers de domaines, mais le second semble bien être rattaché à SOS Détresse, et nous donne une liste plus étendue des domaines utilisés à ce moment là :

On voit un troisième site imitant un site gouvernemental ivg-gouv.org. Voici la liste complète des domaines identifiés :

ravif.re    	        2018-09-20	2019-11-01
ivg-75.com	        2014-04-11	2018-06-30
ivg-gouv.net	        2018-06-30	2018-06-30
ivg-paris.net	        2014-08-10	2018-06-29
ivg-par-aspiration.net	2014-07-15	2018-06-29
ivg-gouv.com	        2014-07-27	2018-06-29
ivg-medicamenteuse.com	2014-07-26	2018-06-16
ivg-infos.net	        2014-08-10	2018-04-01
avortement.net	        2014-08-05	2017-10-13
methode-billings.net	2014-08-05	2017-10-12
sos-ivg.com	        2014-08-11	2017-09-26
ivg-infos.com	        2014-07-26	2017-09-25
ivg-lyon.com	        2014-07-24	2017-03-29
ivg-paris.com	        2014-08-12	2016-04-23
ivg-par-aspiration.com  2014-07-24	2015-01-09
ivg-par-aspiration.info	2014-02-26	2015-02-26
ivg-par-aspiration.biz	2014-02-26	2015-02-25
ivg-par-aspiration.org	2014-02-26	2015-02-26
ivg-gouv.org	        2014-04-27	2014-04-27
ivg-paris.org	        2014-04-26	2016-03-30
ivg-paris.info	        2014-04-21	2020-07-24
methode-billings.fr	1970-01-01	2020-11-19
ivg-paris.biz	        2014-04-17	2018-05-01
avortement.tel	        2016-03-28	2017-12-13
avortement.pro	        2014-04-17	2017-11-01
methode-billings.biz	2014-04-18	2017-10-27
ivg-infos.biz	        2014-04-17	2017-10-27
methode-billings.org	2014-04-26	2017-10-19
ivg-infos.org	        2014-04-25	2017-10-19
ivg-infos.info	        2014-04-21	2017-10-17

Une enquête exhaustive demanderait de regarder un par un tous ces domaines, les données whois ainsi que les données passive DNS pour avoir une vue exhaustive des activités de cette association, ainsi que potentiellement d’autres personnes derrière elle.

Identifiants de publicité ou d’analytics#

Une dernière étape intéressante est de regarder les traqueurs (type publicités ou analytics) présents sur le site et voir s’ils sont partagés. Une visite sur le site et une recherche dans le code source de la page nous montre l’identifiant Google Analytics : UA-5670446

Nous pouvons maintenant utiliser plusieurs moteurs de recherche pour trouver des sites utilisant ce même identifiant Google Analytics, comme RiskIQ, SpyOnWeb (un peu vieux et mal maintenu à jour), NerdyData ou encore DNSLytics.

Une vérification sur RiskIQ montre qu’a priori seul cet identifiant a été utilisé sur le site :

Idem sur SpyOnWeb :

Ainsi que sur DNSLytics :

Rien non plus de côté.

C’est tout pour moi, merci#

On a vu rapidement avec cet exemple comment investiguer sur l’infrastructure technique derrière un site web. N’hésitez pas à me contacter par email ou sur Twitter si vous avez des questions ou suggestions d’améliorations pour cet article. Si vous êtes journalistes et avez des questions sur l’OSINT, n’hésitez pas à me contacter, je serai ravi d’essayer d’y répondre.