HTML Foundation Class

Eine Klassenbibliothek zur Verarbeitung von HTML

HTML Foundation Class
Erstellung einer Klassenbibliothek zum Scannen, Parsen, Überprüfen und Transformieren von HTML Dokumenten. Diese Bibliothek soll allgemeine wiederverwendbare Funktionen zur Verarbeitung von HTML bereitstellen.

Dabei soll ein HTML Text in eine interne hierarchische Struktur transformiert werden - scannen und parsen von HTML - und es sollen Zugriffs- und Traversierungs-Funktionen erstellt werden, zum Beispiel zum einfachen Zugriff auf bestimmte Dokumententeile, wie Titel, Überschriften, Autor, ..., zur Extraktion des reinen Textes, zum Suchen und zum Überprüfen des verwendeten tags.

Programmiersprachen und Werkzeuge
100% Java, JDK 1.1 oder Java 2 (JDK 1.2)
für das Analysieren: ein Java Parser Generator, z.B. CUP
Umgebung
ein Java Paket
Tests und Beispiele
für den Test und Demo-Anwendungen sind eine Reihen von kleinen Java-Beispielen zu entwickeln.

Hauptnavigation