TextGrab - Software für das Herunterladen von Internetsites

letzte Änderung: 17. Januar 2014

NEU: Demoversion von Textgrab für MS-Windows

Die Demoversion von TextGrab funktioniert nur mit einer Website, und die Ausgabedatei kann mit TextQuest nur im Zeilen- oder Absatzformat eingelesen werden. Es werden nur *.txt und *.htm Dateien heruntergeladen.

TextGrab (Text Grabbing) ist ein Werkzeug für die Inhaltsanalyse von Internetsites. Es kopiert Textdateien (Dateitypen: *.txt *.htm, *.php, *.xml, *.cfm) einer Internetsite auf die lokale Festplatte und bereitet die Daten so auf, dass sie mit Software für Inhaltsanalyse analysiert werden können. Zu TextGrab gehört auch RTags (Remove Tags), dieses Programm entfernt die HTML-tags, übersetzt aber Sonderzeichen in den entsprechenden Zeichensatz.

TextGrab ist ein spezieller Offline-Reader (oder Webspider). Von der angegebenen Internetsite werden alle HTML-Dateien gelesen und in eine Ausgabedatei geschrieben. Zwischen die jeweiligen Dateien wird eine Kontrollsequenz geschrieben, so dass man erkennen kann, wo eine neue Datei beginnt. Diese Kontrollsequenz ist kompatibel zu TextQuest und Intext und erlaubt somit eine sofortige Weiterverarbeitung mit diesen Programmen zur Textanalyse.

Das Programm läuft unter Win9x oder besser, Redhat Linux und HP-UX. Versionen für andere Betriebssysteme mit einem C++-Compiler können auf Wunsch erstellt werden.

TextGrab ist ein Kommandozeilenprogramm und hat keine Windows-Oberfläche. Folgende Optionen sind zur Zeit implementiert:

-h = nur document header herunterladen
-l = Datei mit allen Links herunterladen
-r = Datei herunterladen und allen Links rekursiv folgen
-s = nur die angegebene Datei herunterladen (Voreinstellung)
Format = Ausgabeformat 1= TextQuest/Intext
2 = LIWC

andere Formate werden in Kürze implementiert.

Vorteile von TextGrab

Alle Arbeiten, die TextGrab macht, kann man auch selbst machen, aber das wird erheblich länger dauern, ist fehleranfällig und wird daher auch mehr kosten. Folgendes muss getan werden:

  1. kopieren der Textdateien von der Internetsite auf die lokale Festplatte des Computers. Das kann man mit fast jedem Browser machen. Eine Alternative sind Offline-Reader, die ganze Internetsites herunterladen, und einige davon gibt es kostenlos oder als Shareware. Allerdings wird die Dateistruktur der Internetsite beibehalten, damit man ohne Internetverbindung die Seiten anschauen kann, aber mit dieser Dateistruktur können die meisten Textanalyseprogramme nichts anfangen.
  2. jede Datei einzeln editieren und Kontrollsequenzen einfügen. Vor jeder Textanalyse müssen die Texte segmentiert werden und demnach Kontrollsequenzen eingefügt werden, die die Werte für externe Variablen steuern (z.B. Name, Website, Datum). Dies muss mit jeder Datei gemacht werden, und selbst geübte Benutzer brauchen etwa 1 Minute pro Datei. Und diese Arbeit ist sehr fehleranfällig.
  3. alle Dateien in eine grosse Datei zusammenkopieren. Da diese Dateien über mehrere Verzeichnisse verstreut sein können, muss man sorgfältig arbeiten und keine Datei vergessen. Je nach Dateimenge dauert diese Arbeit bis zu einer Viertelstunde.

TextGrab spart eine Menge Zeit ein, weil es die Schritte 2 und 3 automatisch tut. Mit hunderten von Dateien auf einer Internetsite spart Ihnen TextGrab stundenlange fehleranfällige Arbeit, die einen zur Verzweiflung treiben kann.

TextGrab ist ein Kommandozeilenprogramm ohne graphische Benutzerobefläche, so dass es im Hintergrund eine Internetsite herunterladen kann. Zum Lieferumfang gehört auch RTAGS, ein Programm, das HTML-tags entfernt und die Umlaute korrekt umsetzt.

Oder besuchen Sie unseren Webshop.


E-Mail an Harald Klein