|
FAQ (Frequently Asked Questions / Häufig gestellte Fragen)
Dieses Dokument soll helfen Ihre Probleme zu lösen, nachdem Sie das
Handbuch (ReadMe)
gelesen haben.
[ 1. Voraussetzungen | 2. Installation und Konfiguration | 3. Funktionalität | 4. Sicherheit ]
1. Voraussetzungen
-
1.1 Welche Voraussetzungen gibt es für den Einsatz der Suchmaschine?
1.2 Ich arbeite auf Windows/MacOS, meine Site läuft aber unter Unix
2. Installation und Konfiguration
-
2.1 Kann ich die Suchmaschine selbst auf meiner Website installieren?
2.2 Wie wird die Suchmaschine aufgerufen?
2.3 Wie kann ich die Suchmaschine konfigurieren?
2.4 Ich möchte verschiedene Kategorien meiner Site durchsuchen lassen
2.5 Wie passe ich die Suchmaschine an mein bestehendes Webdesign an?
2.6 Internationalisierung ("I18n"): Ändern der Spracheinstellungen
2.7 Wie wende ich die flat oder indizierte Suchmethode an?
2.8 Wie kann ich das Outfit des dynamisch erzeugten HTML ändern?
2.9 Ich möchte die Suchmaschine von einem eigenen Eingabefeld aus starten
2.10 Ich möchte zur Suchmaschine mit geänderten Voreinstellungen linken
3. Funktionalität
-
3.1 In welchen Verzeichnissen meiner Website wird gesucht?
3.2 Welche Dateien meiner Website werden durchsucht?
3.3 Ist es möglich, Word-Dokumente zu durchsuchen?
3.4 Wie sind die Index-Dateien aufgebaut?
3.5 Welche Datei-Details werden in den Ergebnis-Seiten angezeigt?
3.6 Wie werden die Ergebnisse sortiert?
3.7 Wie schnell läuft die Suche und wo liegt die Grenze?
3.8 Wie maximiere ich die Suchgeschwindigkeit in einer großen Site?
4. Sicherheit
-
4.1 Ist HomepageSearchEngine ein sicheres Programm?
4.2 Wie sieht es mit der Privatsphäre aus?
4.3 Wie erfolgt die sichere Datenübertragung?
-
Webspace auf einem Windows- oder Unix- (inkl. MacOS X) System, mit dem Recht, eigene CGI Programme ausführen zu können.
Letzteres ist meist bei Vorhandensein eines Verzeichnisses cgi-bin der Fall. Sonst benötigen Sie gar nichts am Server - weder Perl, noch eine Datenbank- oder irgend eine andere Anwendung.
Am Client brauchen Sie nur einen Webbrowser, um die Suchmaschine benutzen und administrieren zu können. Cookies werden nicht benötigt oder benutzt.
Wenn Sie eine kleine, statische Website haben, brauchen Sie nichts mehr zu tun, nachdem die Suchmaschine einmal installiert wurde. Die "on-the-fly" Suchmethode erledigt die ganze Arbeit jedes mal bei Verwendung durch einen Benutzer.
Es reicht aus, wenn der Webmaster auf ihren Webspace via FTP zugreifen kann.
Sie können aber auch entscheiden, die "flat" oder die "indizierte" Suchmethode * anzuwenden, wodurch erspart wird, jedes mal die Dateiliste zu sammeln und/oder alle Dateien zu extrahieren.
Dies mag für eine größere Website erforderlich sein, um die Suchgeschwindigkeit gering zu halten. In diesem Fall wird ein Shell-Zugang (via Telnet/SSH) empfohlen; für eine automatische Indizierung auch das Recht, einen eigenen Cronjob laufen zu lassen.
Falls Sie von Ihrem ISP nur einen FTP Zugang bekommen, sollte der Webserver unter derselben User ID wie Ihr Account laufen.
*) Diese Suchmethoden sind nur in der Pro Edition verfügbar.
Kein Problem - laden Sie sich das entsprechende Unix Package herunter und installieren Sie es via FTP auf dem Unix-Ziel-Rechner.
Wenn Sie die Suchmaschine auf Ihrer lokalen Festplatte unter Windows/MacOS testen wollen, benötigen Sie auch das Package für Windows bzw. MacOS, und natürlich eine Webserver Software (zB. Apache).
Die Packages unterscheiden sich nur in der ausführbaren Datei und ihren dazugehörigen Bibliotheken (libraries oder shared objects). Alle anderen Dateien inkl. der Index-Dateien können auf allen Plattformen gleichermaßen benutzt werden.
2. Installation und Konfiguration |
-
Ja, die Grund-Installation ist denkbar einfach: Legen Sie ein Installationsverzeichnis hse im Verzeichnis cgi-bin bzw. dem Verzeichnis, in dem Sie Programme ausführen können, an
und laden Sie die (ausführbare) Datei HomepageSearchEngine.exe (für Windows) bzw. HomepageSearchEngine.cgi.bin (für Unix) mit Ihrem FTP-Client dort hinauf ("uploaden").
Die Endung "bin" soll sicherstellen, dass die Datei im binär-Modus upgeloadet wird. Unter Unix benennen Sie anschließend die upgeloadete Datei auf HomepageSearchEngine.cgi um
und geben ihr die Attribute rwx r-x r-x (chmod 755). Schließlich uploaden Sie noch die Bibliotheksdateien (.dll und/oder .so-Dateien).
Eine detaillierte Installations-Anleitung finden Sie im Handbuch (ReadMe).
Wenn als Webserver-Software Microsoft IIS (unter Windows) benutzt wird, sollten Sie einen Blick in unsere IIS Support Seite werfen.
Falls Sie es wünschen, führen wir aber auch gerne die Installation für Sie kostenlos durch.
Sie brauchen nur mit Ihrem Webbrowser zum URL der Datei HomepageSearchEngine.exe bzw. HomepageSearchEngine.cgi gehen. Rufen Sie also den URL
http://www.yourdomain.tld/cgi-bin/hse/HomepageSearchEngine.exe (Windows) bzw.
http://www.yourdomain.tld/cgi-bin/hse/HomepageSearchEngine.cgi (Unix) auf.
www.yourdomain.tld muss natürlich durch Ihren tatsächlichen Domain Namen ersetzt werden.
Nach dem oben beschriebenen Schritt sollte eine (englischsprachige) Aufforderung zum Uploaden der Konfigurationsdatei erscheinen.
Sie *brauchen* die CGI-Applikation nicht von einem Formular einer separaten Seite aus aufzurufen, da sie ein solches selbst generiert.
This directory is linked only to be visible by robots.
Die Konfiguration der Suchmaschine erfolgt in der Datei hse.ini durch Editieren der Werte für Direktive.
Zum einfacheren Auffinden ist jedes Direktiv mit einer Nummer markiert. Sie brauchen nur die Werte von 2 Direktiven zu setzen, damit die Suchmaschine läuft, alle anderen sind optional.
Diese 2 Direktive bezeichnen (1.1) Pfad (basepath) und (1.2) entsprechenden absoluten URL (baseurl) des Basisverzeichnisses,
ab dem Dateien durchsucht werden sollen.
Der Pfadangabe kann absolut (zB. basepath = E:\Inetpub\wwwroot\startdir auf Windows oder /web/myuserdir/wwwroot/startdir auf Unix),
oder relativ erfolgen (zB. ../../startdir), sodass Ihre hse.ini Datei auf Ihrem Windows Entwicklungs-Server voll kompatibel zu Ihrem Unix Produktions-Server sein kann.
Der entsprechende URL würde zB. baseurl = http://www.yourdomain.tld/startdir lauten.
Um größtmögliche Kompatibilität zwischen verschiedenen Servern zu ermöglichen, können Sie alternativ auch baseurl = /startdir setzen.
Dann wird der volle URL anhand der ServerName Variable Ihres Servers konstruiert.
Öffnen Sie die Konfigurationsdatei mit einem Text-Editor (zB. Notepad) und passen Sie die Einstellungen an. Die Datei ist selbsterklärend.
Uploaden Sie die konfigurierte Datei schließlich in das Installationsverzeichnis.
Sie können bis zu 9 zusätzliche (unterschiedliche) Konfigurationsdateien mit einer Installation nutzen. Hierfür laden Sie das conf (configuration) Unterverzeichnis in Ihr Installationsverzeichnis
und plazieren die zusätzlichen Konfigurationsdateien in jedes dort befindliche Konfigurationsverzeichnis ("1" bis "9").
Wenn Sie in der Konfigurationsdatei (7.1) categories_nr = none setzen, gibt es *keine* Möglichkeit, verschiedene Kategorien zu durchsuchen.
Es erfolgt dann immer eine Suche unterhalb des basepath Verzeichnisses.
Setzen Sie categories_nr hingegen auf eine Zahl von 1 bis 99, so erscheint ein Drop-Down-Menü mit dieser Anzahl von Auswahlmöglichkeiten im vorgefertigten Eingabeformular.
Der Name der ersten Auswahlmöglichkeit (Kategorie 1) wird in
(7.2) categories_name1,
ihr Startverzeichnis in (7.3) categories_dir1 und ihre Suchquelle in (7.4) categories_source1 festgelegt.
Die entsprechenden Direktive für Kategorie 2 sind categories_name2 etc.
Dateien und Verzeichnisse, die in der ban_list und in search_always stehen, finden auch auf die Kategorien Anwendung.
Überprüfen Sie das Setup für jede Kategorie, indem Sie nach list:files suchen (siehe auch Abschnitt 3.2).
Beachten Sie: Dieses Feature ist in der Free Edition nicht verfügbar.
Uploaden Sie hiezu die (statische) HTML-Vorlagen (Template) -Datei hse_template.html des Programmpakets in das Installationsverzeichnis (bzw. in ein anderes Konfiguarationsverzeichnis).
Wie Sie sehen, ändert sich dadurch der standardmäßige Ober- und Unterteil der Suchseite. Durch Editieren dieser Datei können Sie Ihr persönliches Design in die Suchseite implementieren.
Wenn Sie relative Links machen wollen, achten Sie darauf, diese alle relativ zur ausführbaren Datei zu setzen, auch wenn sich die Template-Datei in einem der optionalen Konfigurationsverzeichnisse befindet. Am besten ist es jedoch, alle links absolut zu setzen, beginnend mit "/" (dem Web-Root Verzeichnis).
Alternativ können Sie auch ein dynamisches HTML-Template * verwenden, um die Vorteile von serverseitigen Skriptsprachen wie zB. SSI, PHP usw. zu nutzen.
Details hierzu entnehmen Sie bitte Kapitel 6.7 des Handbuchs.
Abschnitt 2.8 zeigt die Anpassungsmöglichkeiten des von HSE dynamisch erzeugten HTML Codes - wie das Eingabeformular und das Aussehen der Ergebnisse.
*) Dynamische HTML-Templates sind in der Free Edition nicht verfügbar.
Standardmäßig ist die Ausgabesprache des Programmes Englisch. Laden Sie hingegen die Sprachen-Dateien hse_lang.txt und hse_help.txt in das Verzeichnis der ausführbaren Datei, so wird der Text der Sprachen-Dateien als *standardmäßige* Ausgabesprache benutzt.
Im lang (language) Unterverzeichnis des Programmpakets befinden sich fertige Sprachen-Dateien für mehrere Sprachen. Die Dateien für jede Sprache sind jeweils in einem eigenen Sprachen-Verzeichnis abgelegt, das nach dem ISO 639-Sprachcode benannt ist. Die Sprachen-Dateien für Deutsch befinden sich zB. im Sprachen-Verzeichnis de.
Selbst, wenn Sie die Standardsprache durch Uploaden der bevorzugten Sprachen-Dateien ändern, sollten Sie das gesamte lang Unterverzeichnis uploaden.
Es kann dann leicht zwischen allen verfügbaren Sprachen inklusive der dazugehörigen internationalen Einstellungen
(3.1) encoding, (3.2) date_format, (3.3) decimal_sep und (3.4) dir
gewechselt werden, indem die CGI-Applikation mit dem Übergabeparameter lang aufgerufen wird:
Entweder als Formular (siehe Abschnitt 2.9) mit dem Eintrag
<input name="lang" type="hidden" value="de">
oder als direkter Link (siehe Abschnitt 2.10) mit dem Eintrag
/cgi-bin/hse/HomepageSearchEngine.exe?lang=de
Sie können die Sprachen-Dateien aber auch selbst editieren, um eine Sprache hinzuzufügen oder zu verändern. Wenn Sie funktionierende Sprachen-Dateien für eine bisher noch nicht unterstützte Sprache anfertigen, informieren Sie uns bitte. Sie bekommen dann eine lizenzierte Pro Edition unserer Suchmaschine kostenlos.
hse_lang.txt enthält die Kernübersetzung, während hse_help.txt die Informationen des Hilfe-Fensters beinhaltet.
Die Größe des resultierenden Hilfe-Fensters benötigt evt. eine Justierung. Bedienen Sie sich hierfür der Direktive
(5.3) helpwindow_width
und helpwindow_height.
In umfangreichen Websites dürfte die on-the-fly Suchmethode nicht mehr schnell genug sein. Dann sollten Sie die (schnellere) flat (Datei-Listen basierende, "flache") Suchmethode oder die (schnellste) indizierte Suchmethode anwenden.
Die indizierte Suchmethode wird immer dann angewandt, wenn das Index Dateipaar für die aktuelle Kategorie vorhanden ist.
Das Index Dateipaar besteht aus einer Datei namens hse_indexNR_html.txt, die den Inhalt aller HTML-Dateien enthält
und aus einer Datei namens hse_indexNR_nonhtml.txt, die den Inhalt aller Nicht-HTML-Dateien enthält. NR steht für die Nummer der aktuellen Kategorie.
Die flat Suchmethode wird dann angewandt, wenn das Datei-Liste Dateipaar für die aktuelle Kategorie vorhanden ist, aber das Index Dateipaar nicht vorhanden ist.
Das Datei-Liste Dateipaar besteht aus einer Datei namens hse_listNR_html.txt, die den Dateipfad zu allen HTML-Dateien enthält
und aus einer Datei namens hse_listNR_nonhtml.txt, die den Dateipfad zu allen Nicht-HTML-Dateien enthält.
Das Datei-Liste- und Index -Dateipaar wird von HomepageSearchEngine Shell Executable erzeugt, entweder direkt auf der System-Shell oder über die web-basierte Admin Area.
Führen Sie HomepageSearchEngine Shell Executable durch Eingabe von 'HomepageSearchEngine' ENTER (unter Windows) bzw. './HomepageSearchEngine.cgi' ENTER (unter Unix) aus, um folgenden Schirm zu bekommen:
HomepageSearchEngine 3.62 Pro Shell Executable (c) 2006 ANET.at
Help is available by executing 'HomepageSearchEngine -help'.
Letzteres (Eingabe von 'HomepageSearchEngine -help') zeigt Ihnen alle verfügbaren Kommandos und Optionen, inklusive der Kommandos zum Erstellen der Datei-Listen und Erzeugen der Index-Dateien:
HomepageSearchEngine makelist
HomepageSearchEngine index
Power-User werden bevorzugen, die Index Dateipaare im Batch Modus automatisch jeden Tag erstellen zu lassen.
Dies kann unter Unix als Cron-Job realisiert werden, den das mitgelieferte Shell Skript hse_cronjob.sh ausführt.
Unter Windows verwenden Sie stattdessen das mitgelieferte Batch script hse_cronjob.bat.
Eine weniger leistungsstarke, aber mehr BenutzerInnen-freundliche Alternative ist das Indizieren über die Admin Area. Dies ermöglicht zB. eine einfache "ein-Klick Indizierung", auch bei großen Sites (durch Anwendung der inkrementellen Indizierungsmethode).
Anstatt die Index-Dateien direkt am Produktionsserver zu erstellen, können Sie sie auch auf Ihrer lokalen Festplatte erzeugen, wo Sie die Site gespiegelt haben, unabhängig von der Plattform. Stellen Sie lediglich sicher, dass Sie die korrekte ausführbare Datei für Ihre Entwicklungsplattform benutzen.
Es braucht kein Webserver installiert zu sein. Uploaden Sie schließlich die Index-Dateien via FTP auf Ihren Produktionsserver.
*) Diese Suchmethoden sind nur in der Pro Edition verfügbar
Die meisten Stil-Eigenschaften werden durch eine externe Style Sheet-Datei gesteuert, die standardmäßig als /hse/HomepageSearchEngine.css vorliegt.
Stellen Sie sicher, dass Sie sie unter dieser Adresse auf Ihr Web geladen haben und dass die HTML-Template-Datei auf sie verweist!
Die Formatierung der meisten Elemente kann über spezielle class IDs im Style Sheet beeinflusst werden.
Wenn Sie die Suchmaschine über ein selbst gestaltetes Eingabeformular aufrufen wollen, möchten Sie möglicherweise das vorgefertigte Eingabeformular unterdrücken. Sie können dies tun durch die Angabe
(5.1) searchbox_place = none in der hse.ini-Datei.
Weitere Einstellungen zum Outfit der Ergebnis-Seiten können in Abschnitt 6 der hse.ini-Datei vorgenommen werden.
Wenn Sie die Suche nicht vom vorgefertigten Eingabeformular aus starten wollen, sondern von einem selbst gestalteten Formular (wie zB. direkt von einem kleinen Eingabefeld - so wie Sie es im Menü dieser Seiten links sehen) -
verwenden Sie Übergabeparameter innerhalb HTML-Code wie dem folgenden:
<form action="/cgi-bin/hse/HomepageSearchEngine.exe">
<input name="terms" type="text" size="15">
<input name="cat" type="hidden" value="1">
<input name="submit" type="hidden">
</form>
Das bewirkt das Durchsuchen der Titeln und des Volltexts in Kategorie 1. Selbstverständlich können Sie auch eine andere Kategorie angeben.
Wenn sich das Eingabefeld auf einer Seite befindet, die der Kategorie 2 angehört, ist es womöglich eine gute Idee, den cat Wert auf 2 zu ändern.
Wenn Sie keinen "cat" Wert übergeben, wird die gesamte Website (beginnend im basepath) durchsucht!
Sie können die Angaben innerhalb des form Bereichs noch erweitern, wenn Sie
nicht alle Suchterme mit UND verknüpfen wollen,
das Eingabeformular standardmäßig im erweiterten Format bevorzugen,
Groß- und Kleinschreibung nicht beachten wollen,
nur ganze Wörter finden wollen,
nicht in den Titeln suchen wollen,
auch in den description- und keywords-meta-tags suchen wollen,
nicht im Volltext suchen wollen,
auch in den Alternativtexten
und Text aus Nicht-HTML Dateien suchen wollen,
eine bestimmte Anzahl von angezeigten gefundenen Dateien pro Ergebnis-Seite wünschen,
das Sortierungskriterium von Übereinstimmungen (hits) nach Datum (date) ändern wollen,
die Sprache inkl. der internationalen Einstellungen vorgeben wollen
oder ein alternatives Konfiguarations-Set verwenden wollen:
<input name="and" type="hidden" value="off">
<input name="extra" type="hidden" value="on">
<input name="matchcase" type="hidden" value="off">
<input name="noparts" type="hidden" value="on">
<input name="title" type="hidden" value="off">
<input name="meta" type="hidden" value="on">
<input name="text" type="hidden" value="off">
<input name="alt" type="hidden" value="on">
<input name="nonhtml" type="hidden" value="on">
<input name="hits" type="hidden" value="20">
<input name="sort" type="hidden" value="date">
<input name="lang" type="hidden" value="de">
<input name="conf" type="hidden" value="1">
Bei Verwendung eines eigenen Eingabeformulars können Sie das vorgefertigte Eingabeformular unterdrücken.
Eine vollständige Dokumentation der Aufrufoptionen finden Sie in
Kapitel 6.13 des Handbuchs.
Wenn Sie einen einfachen link (Verweis) zur Suchmaschine
<a href="/cgi-bin/hse/HomepageSearchEngine.exe">
Standard-Suche
</a>
machen, kommen Sie zum Eingabeformular in der einfachen Ansicht, mit Titeln und Volltext der Webseiten als Suchquelle
und maximal 10 Treffer pro Ergebnis-Seite. Sie können die Voreinstellungen des Eingabeformulars aber auch ändern, indem Sie die Namen der
entsprechenden Übergabeparameter gemäß vorigem Abschnitt 2.9 nach folgender Syntax direkt in den Link integrieren:
<a href="/cgi-bin/hse/HomepageSearchEngine.exe?extra;nonhtml">
Benutzerdefinierte Suche
</a>
Beachten Sie, dass das ; Zeichen als Separator zwischen Parametern fungiert - und *nicht* das & Zeichen, welches viele andere CGI-Applikationen benutzen und so valides HTML brechen.
Der value (Wert) "on" braucht nicht explizit angegeben werden, alle anderen hingegen schon:
/cgi-bin/hse/HomepageSearchEngine.exe?conf=1
-
Das Startverzeichnis für die Suche haben Sie mit dem Direktiv basepath bzw. bei Verwendung von Kategorien zusätzlich jeweils mit dem Direktiv
categories_dirNR festgelegt. Haben Sie zB.
basepath = /web/www.xy.com/httpd/htdocs und categories_dir1 = english gesetzt, so ist Ihr Startverzeichnis für Kategorie 1 /web/www.xy.com/httpd/htdocs/english.
In diesem Verzeichnis *und* in all seinen Unterverzeichnissen wird die Suche stattfinden, außer Sie schließen Unterverzeichnisse von ihrer Inspizierung aus:
Um Verzeichnisse auszuschließen, geben Sie deren Namen in der Liste
(2.1) exclude_dirs der hse.ini-Datei an.
Jedes Verzeichnis wird geöffnet, um darin befindliche Unterverzeichnisse zu inspizieren, aber nur solange der aktuelle Verzeichnisname nicht mit einem in dieser Liste angegebenen übereinstimmt.
Sie können dabei das Wildcard-Symbol * verwenden, welches für null oder mehr beliebige Zeichen steht.
Systemverzeichnisse, die von Microsoft FrontPage angelegt wurden, werden nie inspiziert.
Um alle Unterverzeichnisse in allen Kategorien auszuschließen (wodurch die Suchgeschwindigkeit erhöht wird), verwenden Sie das oben erwähnte Wildcard-Zeichen in exclude_dirs:
exclude_dirs = *
Wollen Sie hingegen Unterverzeichnisse nur in bestimmten Kategorien ausschließen, fügen Sie den Dateipfad-String -/*/* zur Liste von (7.3) categories_sourceNR hinzu:
zB. categories_source1 = -/*/* (für Kategorie 1).
In Ihrem Startverzeichnis werden zunächst alle Dateien inspiziert und sämtliche Binär-Dateien (wie zB. Microsoft Word .doc's oder Bilder) ausgeschlossen.
Die verbleibenden Textdateien können durchsucht werden.
Je nachdem, welche Suchquellen der Besucher ausgewählt hat, können das Webseiten (HTML-Dateien) und/oder Nicht-HTML Text-Dateien sein.
Alle Text-Dateien der Erweiterung html, htm, shtml, phtml, php, php3, asp, aspx, jsp, cfm, mv, xml, wml (alle case-insensitive) werden als
Webseiten erkannt, alle übrigen als
Nicht-HTML Text-Dateien. Von letzteren werden
RichTextFormat Dateien (Erweiterung rtf) speziell behandelt, sodass nur der wahre Textgehalt durchsucht wird.
In der (2.2) ban_list können Strings (getrennt durch Leerzeichen) angegeben werden, um bestimmte Dateien von der Suche auszuschließen.
Stimmt der hintere Teil des URLs einer Datei mit einem String der ban_list überein, so wird diese Datei verbannt. Dieser "hintere Teil des URLs" beginnt immer mit einem Slash (/) und ist der Teil ab dem Startverzeichnis.
Beachten Sie, dass eine Datei nur dann verbannt wird, wenn ihr hinterer Teil des URLs *komplett* mit einem String übereinstimmt - vom Anfang bis zum Ende. Das * Wildcard-Zeichen kann am Anfang und/oder am Ende erforderlich sein, um Teil-Strings von URLs zu erfassen.
Haben Sie zB. im Startverzeichnis das Unterverzeichnis private mit einer Datei namens secretfile.htm, so lautet der "hintere Teil des URLs" dieser Datei /private/secretfile.htm.
Fügen Sie der ban_list den String /private/secretfile.htm hinzu, um diese eine Datei zu verbannen. Um alle Dateien unter dem /private/ Verzeichnis zu verbannen, fügen Sie /private/* hinzu.
Um alle Dateien namens secretfile.htm zu verbannen, fügen Sie */secretfile.htm hinzu. Um alle Dateien auszuschließen, die auf .log enden, fügen Sie *.log hinzu.
Um diesen Beispielen gerecht zu werden, müsste die .ini Datei die Zeile
ban_list = /private/* */secretfile.htm *.log
enthalten. Verzeichnisse und Dateien, die mit _ oder . beginnen, sind immer in der ban_list.
Ausnahmen von der ban_list können mit dem Direktiv (2.3) search_always angegeben werden.
Stimmt der hintere Teil des URLs einer Datei mit einem String von search_always überein, so wird sie immer durchsucht - unabhängig vom Wert der ban_list.
Möchten Sie zB. alle Dateien namens public.htm für die Suche freigeben (auch unterhalb des /private/ Verzeichnisses), so setzen Sie
search_always = */public.htm
Sehen Sie sich an, welche Dateien in der aktuell gewählten Kategorie durchsucht werden (jeweils ohne und mit aktivierter "Durchsuche Text aus Nicht-HTML Dateien" Checkbox), indem Sie als Suchbegriff list:files eingeben.
Sie können auch HTML-Dateien von der Suche ausschließen, ohne in der Konfigurations-Datei irgend etwas einstellen zu müssen.
Benutzen Sie hierfür den "robots" meta-tag innerhalb der betreffenden Dateien, so wie er auch benutzt wird, um das Indizieren durch Robots (inkl. dem HomepageSearchEngine Spider) zu verhindern:
<meta name="robots" content="noindex"></meta>
Details finden sich in
Kapitel 6.12 des Handbuchs.
Wenn Sie Teile von Webseiten undurchsuchbar machen wollen, so legen Sie diese zwischen einen
<span class="HSE-nosearch"> </span> oder
<div class="HSE-nosearch"> </div> Bereich.
Ja und Nein. Microsoft Word speichert seine Dokumente standardmäßig in einem eigenen Binärformat als .doc-Dateien ab, die nur von einem Word-Interpreter gelesen werden können. Solche Microsoft-typischen Dateien können somit
von unserer Suchmaschine nicht durchsucht werden. Speichern Sie hingegen Ihre Word-Dokumente als "Rich Text Format" mit der Erweiterung .rtf ab, so können Sie von HomepageSearchEngine direkt auf Ihrem Webserver durchsucht werden, wenn die Option "Durchsuche Text aus Nicht-HTML Dateien" aktiviert ist.
Es wird dabei nur der reine Text durchsucht. Dieses Feature dürfte v.a. für den Einsatz der Suchmaschine in einem Intranet interessant sein.
Die Index-Dateien, die durch Ausführen des Shell Executables erzeugt und modifiziert werden können, sind Tabstopp getrennte Text (.txt) -Dateien.
Werden keine Kategorien verwendet (d.h. der Suchmaschine wird *kein* cat Parameter beim Aufruf übergeben), so findet die Suche im Index Dateipaar hse_index_html.txt und hse_index_nonhtml.txt statt.
Wählen Sie eine Kategorie Nr. NR aus (d.h. der Suchmaschine wird der Parameter cat=NR beim Aufruf übergeben), so wird in
hse_indexNR_html.txt und hse_indexNR_nonhtml.txt gesucht (NR steht für eine Zahl von 1 bis 99).
Jede Zeile der Index-Datei besteht aus 9 Spalten (1-9) und enthält alle Informationen für eine Datei:
1 » 2 » 3 » 4 » 5 » 6 » 7 » 8 » 9 »
1...URL zur Datei
2...Dateigröße in KB
3...Datum der letzten Aktualisierung in Sekunden seit 1. Jänner 1970
4...Titel der Datei, falls vorhanden
5...Inhalt des description meta Tags, falls vorhanden
6...Inhalt des keywords meta Tags, falls vorhanden
7...Inhalt aller alt Attribute der img Tags, falls vorhanden
8...extrahierter Volltext, falls vorhanden
9...URL zu einem benutzerdefinierten Ikon-Bild, falls vorhanden
» steht für das Tabulator-Zeichen.
*) Das Index Feature ist nur in der Pro Edition verfügbar.
In der Plus- und Pro-Edition können unter Abschnitt 6 der hse.ini-Datei die Ergebnis-Seiten nach Ihren Bedürfnissen angepasst werden. Die zu jeder gefundenen Datei anzuzeigenden Details werden in Direktiv (6.3)
results_details
bestimmt.
Die Direktive (6.5)
description
bestimmt die Art der Beschreibung, welche für jeden Treffer angezeigt wird. Im Beschreibungstext wird stets darauf geachtet, dass keine Wörter abgeschnitten werden.
Wenn Sie eine bestimmte Anzahl C an Zeichen angeben, so werden die ersten C Zeichen des ersten vorkommenden description meta-Tags, falls vorhanden, angezeigt:
<meta name="description" content="Dies ist die Beschreibung">
Kommt kein description meta-Tag in der Datei vor, so werden die ersten C Zeichen des Textes am Anfang des Dateikörpers angezeigt.
Zusätzlich oder alternativ kann auch ein "Google-ähnlicher" Stil gewählt werden, indem eine bestimmte Anzahl M an Übereinstimmungen angegeben wird.
Dies wird M Zeilen ausgeben, wobei jede den Text um eine Übereinstimmung enthält. Beachten Sie, dass die Suchgeschwindigkeit mit einer höheren Anzahl solch angegebener Übereinstimmungen abnimmt.
Um beste Suchgeschwindigkeiten zu erzielen, könnte es auch sinnvoll sein, überhaupt keine Beschreibungen anzeigen zu lassen.
In der (den) Ergebnis-Seite (-n) werden alle gefundenen Dateien in einer Ranking-Liste sortiert. Die Methode kann vom Besucher gewählt werden:
Die voreingestellte Option, nach Anzahl an Übereinstimmungen zu sortieren, bringt die Datei mit den meisten Übereinstimmungen als ersten Treffer und jene mit den wenigsten Übereinstimmungen als letzen.
Sollten einige Dateien dieselbe Anzahl an Übereinstimmungen aufweisen, so wird die aktuellere Datei höher gereiht.
Wenn sich solche Dateien auch im Aktualisierungsdatum nicht unterscheiden, erfolgt die Reihung alfabetisch, nach dem Namen des Dateipfades.
Wenn jemand an den Treffern interessiert ist, die am meisten up to date sind, kann er nach Datum der letzten Aktualisierung sortieren lassen. Alle Aktualisierungs-Zeiten werden auf einen Tag genau berücksichtigt
(was bedeutet, dass die Uhrzeit der letzten Dateiänderung *keine* Rolle spielt). Sollten einige Dateien am gleichen Tag aktualisiert worden sein, wird die Datei mit mehr Übereinstimmungen höher gereiht.
Wenn sich solche Dateien auch in der Anzahl der Übereinstimmungen nicht unterscheiden, erfolgt die Reihung alfabetisch, nach dem Namen des Dateipfades.
Einige Sites enthalten eine systematisch benannte Sammlung an Dateien, wo nur interessiert, ob eine Datei Übereinstimmungen aufweist oder nicht. In solchen Fällen empfiehlt sich ein alfabetisches Sortieren nach Name des Pfades.
Die on-the-fly Methode arbeitet befriedigend schnell (max. 1 bis 5 Sekunden Suchzeit) beim gleichzeitigen Durchsuchen von bis zu ca. 2 MB Text bestehend aus etwa 200 Dateien.
Manche Webserver haben auch mit größeren Bereichen keine Probleme (siehe Referenz-Sites); bei den meisten dürfte jedoch die Grenze für den praktischen Einsatz in diesem Bereich liegen.
Bei größeren Websites wird empfohlen, sie in mehrere Kategorien aufzusplitten oder/und die indizierte Suchmethode * anzuwenden.
Dies ermöglicht das gleichzeitige Durchsuchen des gesamten Inhalts mehrerer Tausend Dateien mit vielen MegaBytes innerhalb sehr kurzer Zeit.
*) Das Index Feature ist nur in der Pro Edition verfügbar.
Um die Suchzeit auch in großen Sites (sagen wir ab 10000 Dateien oder 100 MB) befriedigend klein (< 5 Sekunden) zu halten, mag es erforderlich sein, einige Optimierungen vorzunehmen. Gehen Sie dabei in folgender Reihenfolge vor, bis die Performance gut genug ist.
- Achten Sie darauf, dass die Index-Dateien *) keine unnötige Dateien enthalten
(Test mit Suche nach list:files)
- Setzen Sie in Abschnitt (6.5) der hse.ini-Datei
description = 250 characters + 0 matches
- Setzen Sie in Abschnitt (6.6) der hse.ini-Datei
highlight-style = none
- Entfernen Sie in Abschnitt (6.3) der hse.ini-Datei das "description" keyword aus dem results_details Direktiv
- Stellen Sie folgende Übergabeparameter standardmäßig ein:
and=on;matchcase=on;noparts=on;nonhtml=off
*) Das Index Feature ist nur in der Pro Edition verfügbar.
-
Ja, alle unsere Web-Applikationen werden von uns nach einer strikten Methode programmiert, welche die Möglichkeit, Sicherheitsrisiken zu enthalten, minimiert.
HTML-Code, der vom User eingegeben wurde, wird nie im Browser ausgegeben, um unbekannte Interpretationen zu vermeiden, welche ungewollte Aktionen hervorrufen könnten.
Dateien oder Verzeichnisse benötigen *keine* Schreibrechte für alle (Owner, Group und Others) - und schon gar nicht werden irgendeiner Datei solche Schreibrechte zugewiesen, was ein Sicherheitsrisiko verursachen würde.
Falls die Admin Konsole aktiviert ist, kann sie nur nach Authentifizierung mittels Benutzernamen/Passwort-Paar benützt werden. Falls diese nicht über eine sichere (https) Verbindung erfolgt, wird eine Warnung ausgegeben.
Passwörter werden nie im Klartext gespeichert, sondern nach dem nicht decodierbaren DES (Data Encryption Standard) Algorithmus verschlüsselt und ausserhalb des Document Roots abgelegt.
Cookies werden nicht verwendet.
Wir garantieren Ihnen, dass keines unserer Produkte irgendwelche Spyware, Trojaner oder Viren enthält. Wir lehnen solche Praktiken strikt ab.
Stabilität, Sicherheit und die Wahrung Ihrer Privatsphäre stehen bei uns an erster Stelle. Beispielsweise ist die Annahme von Cookies nie erforderlich.
Die sichere Datenübertragung, die auf dieser Site vom Online-Bestell-Formular zum Übertragen der Kreditkarten-Nummer und von unserer Applikation SecureTransfer zum Übertragen beliebiger sensibler Daten verwendet wird,
stellt sicher, dass die Daten auf dem gesamten Weg von Ihrem Rechner bis zu einem Rechner in unserem Büro ausschließlich verschlüsselt übertragen werden. ANET betreibt hierfür einen eigenen, zertifizierten Secure Server
https://www.anet.at.
Die Daten werden bis zum Secure Server mittels SSL (Secure Socket Layer) Protokoll mit hoher Verschlüsselungsstufe verschlüsselt.
Dort werden sie, wieder mit starker Verschlüsselungsstärke, mit dem Kryptografie-Standard PGP (Pretty Good Privacy) - durch GPG (GNU Privacy Guard) - verschlüsselt und schließlich zu uns gemailt.
Die Daten können dabei erst in unserem Büro wieder dekodiert werden, was nur bei Besitz des Private Keys und Kenntniss der Passphrase möglich ist.
|