Framavox
Sat 21 Sep 2024 7:04AM

Les moteurs de recherche

F François Public Seen by 11

Indispensables pour trouver son chemin sur Internet … mais très utiles (aux géants du Net) pour nous suivre dans nos intérêts.

Les traces que nous y laissons sont précieuses pour les firmes qui veulent faire de l'argent avec en prédisant nos comportements futurs !

F

François Sat 21 Sep 2024 7:36AM

Des moteurs de recherche de tous les types…

Les “classiques”

Google Search, Bing, Yahoo…

Ils indexent le web pour nous donner les adresses des pages qui correspondent à notre demande … et aux réponses que eux jugent le plus opportun de nous fournir.

Les métamoteurs

DuckDuckGo, Startpage
Ils n'indexent pas le web eux-mêmes, mais relaient notre question à d'autres moteurs et nous présentent un résumé des réponses obtenues.

Les moteurs interrogés ne savent pas d'où vient la question de départ, ce qui nous permet de faire des recherches sans être tracés. (Attention : tout repose malgré tout sur l'opérateur du métamoteur, qui pourrait nous cacher ses intentions.)

SearXNG, un métamoteur particulier

SearXNG est un logiciel libre que n'importe qui a le droit d'installer sur son serveur. C'est un métamoteur de recherche dont on peut être absolument sûr qu'il n'exploite pas les profils des utilisatrices et des utilisateurs si on gère le serveur.

Il en existe beaucoup d'instances gratuites.

Indexer le web demande un sacré travail…

Qwant est un moteur de recherche européen et part à ce titre avec un avantage sur les classiques : ne pas appartenir à la sphère des “Big Techs”. Mais il y a malgré tout pas mal de choses à lire pour savoir comment ils utilisent nos données.

De toute façon bien mieux que Google !

Presearch contourne la mauvaise volonté des Big Tech à se laisser indexer par les nouveaux venus (Google laisse indexer YouTube par Bing et peut, en échange, indexer LinkedIn, qui appartient à Microsoft, mais envoie balader les acteurs alternatifs) en utilisant un grand nombre d'ordinateurs pour interroger les sites. Ainsi les requêtes ne viennent pas toutes de la même adresse IP et les sites ne détectent pas d'“attaque”.

Wikipédia tient une liste des moteurs de recherche principaux et reste un point de départ essentiel (dans la mesure où Wikipédia nous donne les sources d'origine pour vérifier ce que l'on veut).

C

Célo Sat 6 Jun 2026 12:55PM

Des recherches garanties sans IA ?

De son impact énergétique à son impact sur l'emploi, en passant par son fonctionnement opaque et ses productions d'une qualité discutable, l'usage croissant de l'IA pose question.

DuckDuckGo propose depuis quelques mois une adresse pour effectuer vos recherches sans IA, mais aussi en excluant certains contenus produits par l'IA générative. À découvrir ici : https://noai.duckduckgo.com

F

François Sat 21 Sep 2024 7:52AM

Éviter de se faire profiler … et filtrer

La bulle filtrante des moteurs de recherche grand public choisit les réponses à notre place !



1. Ça donne l'impression que “Google est plus efficace”.

Peut-être, mais ce n'est possible que parce que Google nous a profilé, sait ce qui nous intéresse et choisit ainsi les réponses que lui trouve opportun de nous soumettre.
Un garagiste cherchant carter trouvera des carters de moteur, alors que…

un chroniqueur politique trouvera Jimmy Carter.
1. Faire filtrer les réponses par quelqu'un d'autre, ce n'est sans doute pas le meilleur moyen de cultiver son ouverture d'esprit…

Que le garagiste sache qu'il y a eu un président des USA qui s'appelait Jimmy Carter et qu'un journaliste politique sache qu'il y a un truc en dessous de sa voiture qui empêche l'huile de son moteur de tomber sur la route, ce n'est peut-être pas vital dans leur métier, mais…

C

Célo Sat 6 Jun 2026 12:31PM

Et l'IA ?

Aujourd'hui, un moteur de recherche comme Google intègre par défaut l'intelligence artificielle aux recherches effectuées. Cela accentue le problème de la bulle de filtre, d'une part parce que l'IA sélectionne pour nous des éléments de réponse parmi les contenus publiés sur internet, d'autre part parce qu'elle nous dispense de parcourir le web.

Alors que les moteurs de recherches présentaient des liens menant vers des pages web, l'IA nous invite à interagir avec elle uniquement au travers une interface - celle de Google dans le cas de Google search. Ainsi, on ne "quitte" plus vraiment Google pour se rendre sur les sites internet où se trouve l'information. Ceci nous rend captif·ve·s et renforce la position de monopole de Google. C'est un peu comme si pour consulter un ouvrage dans une bibliothèque, on n'avait accès qu'au bureau d'accueil où un·e bibliothécaire qui lisait l'ouvrage pour nous et nous restituerait son contenu, sans nous offrir la possibilité d'en feuilleter les pages...

Dans une telle situation, comment vérifier que l'information est correcte ou que toutes les sources ont été consultées ?

F

François Sat 21 Sep 2024 9:01AM

Puisqu'il faut filtrer soi-même…

Apprenons à construire nous-même les requêtes les plus pertinentes possibles.
Ça demandera de (petits) efforts de mémoire, mais ça pourra amuser les personnes qui aiment les jeux de logique.

Voyons ça…


Les guillemets pour définir une séquence :

  • "les amis de la terre" ne trouvera que les pages où ces mots se suivent exactement comme ça, alors que…
  • les amis de la terre fournira les pages qui contiennent “les”, “amis”, “de”, “la” et “terre”.

(Bon, dans ce cas-ci, ça ne change pas grand-chose…)


Les guillemets pour trouver une orthographe exacte :

Les moteurs de recherche savent conjuguer, changer le genre des mots et mettre au pluriel. Ils le font pour nous aider, mais c'est parfois ennuyeux.
- La recherche vacance va fournir beaucoup de réponses où figure “vacance*s”.
- "vacance" ne devrait fournir que des pages sans le “s” à la fin du mot (et où l'autre orthographe est peut-être *aussi
).


Le signe “-” pour rejeter les pages contenant un élément

  • carter fournira toutes les pages avec “carter”.
  • carter -jimmy éliminera des résultats les pages qui contiennent “jimmy”.

Filter sur les noms de domaines avec “site:

  • vacance va fournir beaucoup de résultats dans des langues étrangères, où cette orthographe est habituelle.
  • vacance site:fr ne donnera que les pages dont l'adresse se termine par “.fr”.

De la même façon, la recherche "InformÉthique" site:amisdelaterre.be trouveras les pages des Amis de la Terre où le mot “InformÉthique” (épelé comme ça grâce aux guillemets) figure.

C'est bien pratique, parce que ça permet de faire des recherches dans certains sites sans se faire espionner par Google !

Par exemple comptable site:leforem.be évite que Google sache ce que l'on fait !

Comment Google le sait-il ? Parce que c'est lui, le moteur de recherche du Forem !
Vous pouvez le vérifier en cliquant droit sur les résultats de recherche fournis sur le site du Forem, puis choisir Copier le lien et coller ce lien dans un éditeur de texte. Vous verrez que le lien ne renvoie pas vers leforem.be, mais passe par google.com. Le Forem a fait l'économie d'installer son propre moteur de recherche et fait payer leur propre facilité en exposant la vie privée de ses utilisateurs et utilisatrices. Merci pour ce “service” public !


:dart: Jamais d'espace autour des “:”, sinon ça ne marche pas !


filetype:”, “inurl:” ou “url:”, “intitle:” ou “title:”…

Il y en a beaucoup.

- “filetype:” filtre sur base du type de fichier recherché : "Informatique" filetype:pdf.

- On utilise “inurl:” ou “url:” pour qu'on mot fasse partie de l'URL : "Informatique" inurl:formations.

- “intitle:” ou “title:” filtre sur base d'un mot dans le titre de la page.


OR”, “AND” et les parenthèses permettent beaucoup de combinaisons

À tester, moteur de recherche par moteur de recherche, parce qu'ils n'interprètent pas tous ces commandes de la même façon.



Exercices :

Trouver les documents PDF où figure le mot “InformÉthique”, mais PAS sur le site des Amis de la Terre !

Trouver les pages sur Paul Belmondo en prenant soin de ne pas en avoir plein sur son papa, Jean-Paul Belmondo.

Trouver des feuilles de calcul de remboursement de prêt (“loan”, en anglais), que l'on pourra adapter à ses propres besoins.

↓ ↓ ↓ ↓ — Solutions — ↓ ↓ ↓ ↓


Trouver les documents PDF où figure le mot “InformÉthique”, mais PAS sur le site des Amis de la Terre !

  • filetype:pdf pour ne chercher que les fichiers PDF
  • +"InformÉthique" pour chercher ce mot tel quel et pas une variante orthographique
  • +-site:amisdelaterre.be pour ÉLIMINER (-) les pages venant du nom de domaine des Amis de la Terre (que vous aurez dû chercher auparavant pour pouvoir le fournir sans erreur !)

"InformÉthique" filetype:pdf -site:amisdelaterre.be


Trouver les pages sur Paul Belmondo en prenant soin de ne pas en avoir plein sur son papa, Jean-Paul Belmondo.

Plusieurs solutions possibles, la plupart du temps pas nécessaire parce que le moteur de recherche, de plus en plus intelligent (même si c'est artificiel :slight_smile:) comprendra déjà ce que vous voulez avec des recherches moins pointues. En voici une :
- "Paul Belmondo" pour trouver “Paul Belmondo”

(mais qui trouvera théoriquement aussi les “Jean-Paul Belmondo”)
- +-intitle:"Jean-Paul" pour que les pages où “Jean-Paul” figure dans le titre soient éliminées. Éliminer les pages contenant “Jean-Paul” avec le filtre -"Jean-Paul" élimineraient beaucoup de pages valables, simplement parce qu'on y dit quelque part que Jean-Paul Belmondo est le père de Paul Belmondo ; par contre si “Jean-Paul” est dans le titre, c'est que la page le concerne.

"Paul Belmondo" -intitle:"Jean-Paul"


Trouver des feuilles de calcul de remboursement de prêt (“loan”, en anglais), que l'on pourra adapter à ses propres besoins.

Plusieurs possibilités :
- loan filetype:xls suffit chez DuckDuckGo, qui nous ramènera autant des fichiers .xls que des .xlsx. Même chose chez Presearch
- Chez Startpage, la précédente recherche ne donne aucun résultat de type .xlsx et il faudrait donc lancer la recherche plus explicite loan (filetype:xlsx OR filetype:xls), mais on voir que celle-ci ne donne QUE des résultats de type .xlsx… (Et loan (filetype:xls OR filetype:xlsx), de nouveau que des .xls.)

On voit que la logique a ses limites et qu'il faut donc faire des essais, parce que les moteurs de recherche interprètent nos demandes… un peu chacun à se façon.

Les formats des logiciels libres progressent !

Il y a quelques années, la recherche qui suit (remplacer .xls(x) par .ods) n'était même pas “comprise” par les moteurs de recherche. Ici aussi on voit que Startpage interprète la demande de manière plus stricte que DuckDuckGo et Presearch, qui donnent aussi des résultats au formats .xls(x).
- Startpage : loan filetype:ods
- DuckDuckGo : loan filetype:ods
- Presearch : loan filetype:ods