Web-Indexierer

Index-Erzeugung für einen HTML-Dokumentenbaum

HTML-Index
Ein Programm, das zu einem Hypertext-Dokumentenbaum einen Index aufbaut, wie er auch bei guten Fachbüchern üblich ist.
Programmiersprache
100% Java, JDK 1.5 oder neuer
Umgebung
Benutzung und Aufruf
Das Programm soll über ein XML-Dokument konfigurierbar sein. In der Konfiguration soll angegeben werden können, für welche Dokumente ein Index aufgebaut werden soll. Die Auswahl dieser URLs soll mit regulären Ausdrücken flexibel gestaltet werden können. Außedem soll konfiguriert werden können, welche Teile einer Seite für den Index relevant sind. Dieses kann über XPath Ausdrücke geschehen.

Außderdem soll über diese Konfigurationsdatei die Menge der Stichwörter konfiguriert werden können. Weiter sollen Wörter mit gleichem Wortstamm nur einmal in den Index aufgenommen werden. Für diese Aufgaben kann die Website Snowball hilfreich sein.

Die Ausgabe soll eine einzige XML-Datei sein, in der der Index abgespeichert ist. Hierzu ist eine einfache geeignete DTD zu entwickeln. Außerdem soll eine einfache HTML-Ausgabe möglich sein.

Ähnliche Projekte
Die Modularisierung ist ähnlich der des URL-Checkers zu entwickeln.
Werkzeuge
JDK 1.5 oder neuer, geeignete Parser für auch nicht valides und nicht wohlgeformtes HTML

Hauptnavigation