Web Spider

Errorist · 13. August 2008 um 19:56

Hallo taekwondo!

Mit Verlaub, aber wenn Du bisher keine entsprechende Sprache beherrschst - des weiteren keine Ahnung hast, wie soetwas funktioniert - laß es!
Selbst gute Programmierer beißen sich an solch einer Aufgabe die Zähne aus …

Und dann kommt noch das größte Problem auf dich zu: die Webmaster der geCrawlten Seiten! Google, Yahoo und einige wenige andere genießen einen gewissen Sonderstatus, da sie als DIE Instanzen für eine Suche im Web stehen. Alles andere, was auf die Idee kommt das Web abzusuchen, wird sehr schnell geblockt. Sei es durch Projekte wie BotTrap (siehe meine Signatur) oder andere Möglichkeiten des Aussperrens. Zum einen mag kein Webmaster unnötigen Traffic auf seiner Seite haben, andererseits werden unbekannte Bots erstmal als potentiell böse eingestuft - solange keiner genau weiss was sie wollen. Es gibt genug da draussen, die nichts gutes im Schilde führen …

Balmung · 13. August 2008 um 20:23

Wenn es nur für den eigenen Gebrauch ist, sollte man es lassen und einfach Google (oder eine der anderen weniger gängigen Suchmaschinen) nutzen.
Google bietet schon ne menge Funktionien, die durchaus praktisch sind, man sollte sich aber nich zusehr hineinsteigern, weil Google sonst eventuell eure Gedanken liest.
Wie dem auch sei.

Google konkurrenz kann man imho nicht mit einer einfachen neuen Suchmaschine erreichen, wenn es das ist was man möchte.
Wenn man Google konkurenz machen sollte, dann muss man dort anpacken wo Googles größte Schwachstelle ist: Der Datenschutz und die “Zentralisierung”.

Google kann selber entscheiden welche Daten verfügbar sind (China-Kritik etc.) und es besteht die Möglichkeit, bzw ist afaik von Seiten Google bestätigt worden, dass die Suchanfragen analysiert werden um für den Benutzer bessere Ergebnisse zu erreichen (und bessere Werbung einzublenden), was in Augen einiger Kritiker als Datenschutzverletzung gesehen wird.

Vor einiger Zeit, nachdem ich angefangen hab mich für Suchmaschinen zu interessieren, bin ich auf die Idee gestoßen, dass man doch auch eine “Dezentrale Suchmaschinenstruktur” entwickeln könnte.
Wer sich mit diversen Filesharing Programmen auskennt wie eMule, der weiß auch, dass eMule zum finden von Daten auf das Dezentrale Informationsnetzwerk Kademlia zurückgreift, um den Ort der weniger Legalen Daten zu erhalten.
Solch eine Technik könnte man auch für eine Suchmaschine nutzen.

Der Vorteil einer Solchen Struktur wäre, dass die Ergebnisse nur sehr schlecht von einzelnen Personen beeinflusst werden können, da Die Datenbank logischerweise Weltweit verteilt wäre und dass die Datenbank nur sehr schlehct angreifbar ist (durch DDOS oder so).

Nachteil ist, dass man für solch eine Struktur enorm viele Teilnehmer benötigt, so wie es bei Kademlia der Fall ist. Als einen weiteren Nachteil könnte man die Sicherheit der nutzer betrachten. Illegale Seiten, die man nicht sehen WILL, würden unter Umständen trotzdem aufgelistet werden.

Wenn man wirklich mal etwas sinnvolles machen will, dann sollte man vielleicht sowas versuchen. Um ausreichend Teilnehmer zu bekommen, könnte man das Projekt OpenSource machen und vielleicht findet die eine oder andere größere Community die Ide ja spitze und würde es unterstützen. Wer weiß.

mfg Balmung

i.deFix · 14. August 2008 um 05:54

Eine solche dezentrale Lösung ist einerseits, einen bestimmten Mindest-Ausbau vorausgesetzt, optimal (das Torrent-Netzwerk wäre übrigens ein weiteres, bekanntes Beispiel dafür).

Der aus meiner Sicht gravierendste Nachteil besteht jedoch darin, dass ein Programm (lokal) dafür benötigt wird (bei Torrent eben irgendein Client; besser noch der eigene Tracker).
Damit ist das System zunächst mal in der Klemme: keiner kennt es, keiner weiß, ob es sicher ist, keiner installiert es - das führt dazu, dass es nicht sonderlich gut arbeiten kann -> keiner kennt es…
Nachteil 2: ein lokales Programm ist nicht zwangsläufig auf jedem Gerät vorhanden - Google kann ich von überall aus aufrufen.

michi7x7 · 14. August 2008 um 06:04

Das große Problem dürfte aber die Synchronisierung der Bots sein, wer scannt da, wer scannt dort, ist das schon gescannt?
Außerdem braucht man nicht umbedingt einen lokalen Clienten, mit PHP kann man sich problemlos ins Netzwerk einhängen und den gewünschten Begriff abfragen…

Ein paar Ansätze:
-man braucht einen/ein paar Synchronisierungsserver mit schneller Anbindung, die haben DBs über alle gescannte Seiten und weisen Scanaufträge zu
-man braucht ein paar Speicherserver, die die komplette Datenbank schön aufgeteilt speichern
-man braucht viele kleine Clients, die sich zuerst mit dem Synchro verbinden, der teilt ihnen Aufträge zu und dann die Ergebnisse in den vom Synchro angegebenen Store-Server speichern (der Synchro entscheidet den Store-Server nach verfügbarer Leistung)
-In der Nacht werden die Store-Server synchronisiert wie ein RAID-Verbund, damit:
1.) auf Jedem gleich viel Gespeichert ist
2.) uU. die Daten mehrmals gespeichert sind
3.) bei mehrfachspeicherung niedrigere Suchzeiten bei großer Auslastung möglich sind

Das wäre dann ein geniales System

i.deFix · 14. August 2008 um 06:09

[quote=„michi7x7“]Das große Problem dürfte aber die Synchronisierung der Bots sein, wer scannt da, wer scannt dort, ist das schon gescannt?[/quote]Dafür braucht es eine Art „Master-Server“ → ähnlich den DNS-Servern.

[quote=„michi7x7“]
Außerdem braucht man nicht umbedingt einen lokalen Clienten, mit PHP kann man sich problemlos ins Netzwerk einhängen und den gewünschten Begriff abfragen…[/quote]Funktioniert das protokoll-übergreifend? Also zur Not auch mit einem eigenen?

Und wann ist Nacht, weltweit?

michi7x7 · 14. August 2008 um 06:12

wenn die wenigsten Zugriffe sind

Hardi · 14. August 2008 um 10:11

*offtopic: hat jmd die aktuelle chip? dort steht der google algorythmus drin

michi7x7 · 14. August 2008 um 10:30

nein, steht er nicht. Da bin ich zu 200% sicher

Balmung · 14. August 2008 um 16:54

Ein Projekt das sowas in der Richtung plant wäre “Nutch” was auch in dem Golem artikel erwähnt wurde.
http://lucene.apache.org/nutch/
Wie das geplant ist weiß ich nicht genau, habs mir bisher nicht so intensiv angeschaut.
Is aber OpenSource.

mfg Balmung

taekwondo · 18. September 2008 um 06:56

Habe Bereits eine Suchliste die shr sehr viele Wörter umfasst.
Mal aus reinem interesse: was würde passieren wenn ich das alles von meinem HeimPC mache und und den mit ca. 3 TB Festplatte austate?

Wie lange würde da ungefähr die Suche dauern???

taekwondo · 18. September 2008 um 07:00

[quote=“Balmung”]Ein Projekt das sowas in der Richtung plant wäre “Nutch” was auch in dem Golem artikel erwähnt wurde.
http://lucene.apache.org/nutch/
Wie das geplant ist weiß ich nicht genau, habs mir bisher nicht so intensiv angeschaut.
Is aber OpenSource.

mfg Balmung[/quote]

Vielen Dank für den Tipp!!!
Wenn es funktionieren sollte wäre das genial