HtDig

Besoin d’un moteur de recherche pour votre site web, HtDig est là !!!

Installation

Il faut au préalable installer apache, sous une ubuntu 6.10:

apt-get install apache2

puis installer htdig:

apt-get install htdig

htdig a partir d’une url va suivre tout les liens (image, pdf, html, ...) et indexer chaque éléments.

Création du repository

Il faut ensuite créer l’index de la base de recherche. Pour cela il faut d’abord modifier le fichier de config /etc/htdig/htdig.conf. Les principaux paramètres sont:

  • database_dir: lieu de stockage de l’index
  • start_url: le site a indexer
  • limit_urls_to
  • common_url_parts
  • exclude_urls: les urls non indexer
  • bad_extensions: les liens a ne pas suivre

Puis il faut lancer l’indexation:

sudo rundig

Recherche

La recherche se fait via une page web http://monsite.com/cgi-bin/htsearch ou en rajoutant dans une de ces pages le formulaire suivant:

<form method="get" action="/cgi-bin/htsearch">
<font size="-1">
<input type="hidden" name="config" value="">
<input type="hidden" name="restrict" value="">
<input type="hidden" name="exclude" value="">
Match: <select name="method">
<option value="and" selected>All
<option value="or">Any
<option value="boolean">Boolean
</select>
Format: <select name="format">
<option value="builtin-long">Long
<option value="builtin-short">Short
</select>
Sort by: <select name="sort">
<option value="score" selected>Score
<option value="time">Time
<option value="title">Title
<option value="revscore">Reverse Score
<option value="revtime">Reverse Time
<option value="revtitle">Reverse Title
</select>
<br>
Refine search:
<input type="text" size="30" name="words" value="">
<input type="submit" value="Search">
</font>
</form>

Note

penser à copier le répertoire /var/www/htdig dans le home de votre site web

Personnalisation

Vous pouvez également personnaliser les fichiers suivants afin d’afficher des informations spécifiques à votre site :

/etc/htdig/header.html Cette page s’affichera en haut de tous les résultats de recherche.

/etc/htdig/footer.html Cette page s’affichera en haut de tous les résultats de recherche.

/etc/htdig/nomatch.html Cette page s’affichera lorsqu’une recherche n’aura donné aucun résultat.

/etc/htdig/syntax.html Cette page s’affichera en cas d’erreur de syntaxe dans une expression booléenne.

Vous pouvez trouver ici le repertoire htdig a placer à la racine de votre site web et la le repertoire /etc/htdig modifié afin de présenter une page de recherche http://monsite.com/htdig/index.html à la mode Management Note. Les fichiers modifiés sont header.html , footer.html, syntax.html et nomatch.html