HTML Indexer

Verschlagwortung von HTML-Dokumenten

HTML Indexer
Ein Programm, das die Textteile von HTML-Dokumenten verschlagwortet und eine einfache Freitextsuche ermöglicht.
Funktionalität
Dokumente verschlagworten einschließlich URL und Position im Text,
Stoplisten verwalten,
Dokumente löschen,
Index persistent speichern,
Suche von einfachen Worten, UND und ODER Verknüpfung, Präfix-Suche und Suche von Wortlisten.
Programmiersprache
100% Java, JDK 1.1 oder Java 2 (JDK 1.2)
Umgebung
stand alone
Das Programm soll als Kommandozeilen-Anwendung aufrufbar sein: Eingabe über Kommandozeilenparameter und Konfigurationsdatei, Ausgabe über die Standardausgabekanäle.
server
Arbeitsweise als server: das Programm soll im Hintergrund als einfacher HTTP server laufen und über das "normale" HTTP-Protokoll mit einem client arbeiten. Hierfür ist natürlich nur eine sehr kleine Teilmenge des HTTP-Protokolls zu implementieren.
Werkzeuge
JDK 1.1 oder JDK 1.2

Hauptnavigation