Merken

OpenSource Search Engines

Zitierlink des Filmsegments
Embed Code

Automatisierte Medienanalyse

Beta
Erkannte Entitäten
Sprachtranskript
ja hallo zusammen n herzlich willkommen zum Vortrag Open Search da
der Open Source Deutsch in Jeans einen Schlussspurt quasi auf der Frost kommt 2. Tag an der Stelle weil es am Ende sonst immer untergeht vielen vielen Dank eines Orga-Team eine wunderschöne Bruce kommen wir eigentlich immer danke auch an die die technisch unterstützen etc. es geht heute um oben ist Search Open-Source Search entfernt also Suchmaschinen oder Suchmaschinen Komponenten Schadensausgleich an grundsätzlich an möchte ich gerne zunächst die kurzen Vortrag halten und mal schnell durchgehen durchs Thema um das eben eine Zuordnung anschließen bisschen was aus der Praxis auch mal zeigen mit verschiedenen Fallstricken Gesicht eben ergeben und anschließend wenn Ihr mögt in einer ausgiebigen Diskussion mit EU-Staaten vielleicht eben auch kurz Austausch über Erfahrungen die er gesammelt hat Fragen etc. dann ich will Michael hier weg eigentlich in der Open Source sehen wie auch immer aktiv seit 20 Jahren inzwischen darf ich sagen und für unterschiedliche Unternehmen tätig den Vortag wollte halte ich für die Schule sie GmbH das ist Software ist es Service-Dienstleister aus Berlin der unter anderem eben auch im Bereich Search Engine Sachen im Programm hat das soll sich aber an der Stelle eine untergeordnete Rolle spielen genau sucht Lösungen
gibt es in verschiedener Form haben aus Open Source Komponenten oder eben auch aus kommerziellen proprietären Komponenten dann in Form von der kleinste ist das sind ebenso Wandels aus Hardware und Software als Software ist es das was wir so schön Wahlparty hustet Services heißt oder man kann es eben dass es wahrscheinlich so für Open Source wenn das beste tatsächlich auch selbst hosten und es geht eben um die Anbindung von 3. Systemen und eben Frage was mit den Komponenten machen kann wo potentielle Schwierigkeiten
auftreten dann der bekanntesten Anbieter von Soko Plagens ist nach nachdem eben die Versace Plains jetzt ausläuft oder ausgelaufen ist sind hier aufgezählt oder
dargestellt haben ,komma jetzt also enterbt preismäßig in der Lösung sucht dann kann man diese aus der Packung nehmen das hat verschiedene vor Nachteile Vorteil ist man kann so einfach kaufen und dem Zweck Schrauben hat er an der Stelle wenig Stress er gut und dann kommen eben die Nachteile typischerweise keine Redundanz mitunter auch nicht zum kauft man Backup Konfigurationsänderungen eigene müsste man iwie entwickeln städtischen keine Ahnung was wenn er kann man auf den Dingern halt irgendwie klicken und dann hoffen dass das eben funktioniert und die haben auch sehr unterschiedliche Lizenzmodelle es gibt eben solche Plains ist bei denen dann zum Beispiel von 20 Tausend Dokumente
lizensiert sind und die sagen einem dann nicht pro aktiv im Monitoringsystem sobald es voll erst nach 10 Prozent oder so was sondern man darf dann sich darauf einloggen mal nachgucken sozusagen wie viel dann eigentlich schon weg ist
und dann unter Umständen sagen sie auch nicht wenn aufgebraucht ist sondern indizieren der neue einfach nur nicht mehr es kann also durchaus Überraschungen geben da sollte man einfach ein bisschen aufpassen bevor man eben sowas kauft so dann wird das Ganze als Software ist
Service teilweise eben auch bei demselben Anbietern auf einzukaufen und gut es hat eben auch die Frage wem den ich jetzt meine Daten also welche Daten hab ich denn da eigentlich drin wenn ich jetzt in die ein öffentliches Vicky oder die öffentliche Website indiziert wird bei wie zumindest noch aus der bei mir war und der war mir sucht vielleicht je nachdem wie es eben tatsächlich gebaut und angebundenes aber wenn es darum geht in die Unternehmens Intranet zu indizieren also spannende Fälle dann stellt sich die spannende Frage warum ich mein Internet eigentlich irgendwie absondere oder abschalten wenn sein die man möglicherweise ein formal gibt oder immer einen externen Service der sowieso alles wahr ist muss man also wissen ob man
das eben einsetzen kann oder will so sieht eben auch aus mitunter eben auch
Schwierigkeiten mit der Lizenz Auslassungen überhaupt stellt sich die Frage wie ich denn meine Sachen da Wald überhaupt treiben über irgendwelche Web-Schnittstellen und so weiter ist auch nicht ganz so einfach so wie kann man denn
auch selbst machen und wir haben in der Vergangenheit zwar 2
out-of-the-box Lösungen getestet und auch mal versucht für Kunden einzusetzen namentlich die beiden also die sind dann eben auch tatsächlich Open Source und haben in vielen Stellen haben aber festgestellt dass die Anforderungen doch so individuell sind dass man irgendwie mehr machen muss als die Lösung aus der Packung hier geben wir wollen sie uns trotzdem anschauen weil sie für viele Leute ein guter Einstieg sein können Ihnen ebenso zusagen dieser Welt und Mensch Jooss Case ist jetzt nicht so ganz besondere
Anforderungen haben möglicherweise eben auch reichen Vorteil ist ich kann das alles im
ausmachen offensichtlich keine Daten müssten nach draußen ich auch aber irgendwie in der sich damit auskennt und mit unter ist das auch nicht ganz unaufwendig je nachdem welche Ansprüche man hat wirklich gleich auch noch im praktischen Teil drauf ein dann wurde ich möglicherweise eben erst Fallstricke lauern und
vielleicht auch mit kein Hinweis darauf wie man mit 20 Prozent das Aufwands 80 Prozent des Ergebnisses erzielen kann klassischerweise bestehen diese
Lösungen am Ende alle aus 2 mehr oder weniger Open Komponenten die Älteren gerade auch die kommerziell angebotenen oft noch auf Basis von Zola oder
eben moderner auf Basis eben von L e lästig Search das sind eben
Lösungen auf was ist von Edward Stylus ziehen also keine Lösung für Verarbeitung von strukturierten Daten also grundsätzlich kann man sich das eben so vorstellen dass am Ende der hinter Ebene Datenbank arbeitet die gut mit strukturierten Daten wie auch immer umgehen
kann er die Daten eben gezielt wiederfinden kann und das Grundstück besteht eigentlich darin wie bekomme ich denn jetzt irgendwelche Sachen die indiziert und danach der gesucht werden sollen in dieses strukturierte Form 2 Möglichkeiten gibt
es Daten reinzukommen entweder die Anwendung liefern von sich aus den Daten bei der Suche Lösung an über eben entsprechende Schnittstellen oder man nutzt ein Vorlage so ähnlich wie den Koubek vor der eben irgendwie in ihren Intranets dann durchsuchen kann und eben Uhr es also Ressourcen die zur Indizierung anstehen selbsttätig
findet und dann eben in den Index aufnimmt im Unternehmenskontext
es zumindest häufiger so dass man eben auch 3. Drittsysteme anwenden möchte wie beispielsweise eben je mehr ich hier so oder andere Sachen also man hat eben nicht nur Webseiten mit Datenbanken etc. da gibts dann typischerweise Plug-ins oder eben Ergänzungs Lösungen für die in der Brücke dahin werden sollen genau
zumindest haben für ihr lästig Search am gibt's auch unter dem Gesichtspunkt Anbindung von Drittsystemen die sogenannte expect was sich diejenigen die vielleicht mit Elastic Search schon mal gearbeitet haben wissen dass in früheren Versionen die Installation von diesen gängigen ehrt uns Extensions Plug-ins wie auch immer man sie nennen will etwas hakelig war dass ist jetzt eben in diesem expect alles gut gebündelt und aufeinander abgestimmt
so dass es eben leicht installierbar ist
allerdings ist das X Beck auch nicht
ganz unkritisch unter dem Gesichtspunkt dass sich nämlich aus wie Open Source ist aber nicht so richtig ja also für alle die sich im für Open Source im eigentlichen Sinne interessieren Vorsicht mit dem X damit das gibt es mich auch lizenzpflichtig und das gemeine ist 1 expect runterlädt dann funktioniert erstmal alles und 30 Tage nach der Installation hören wesentliche Komponenten auf das heißt wir das also nur kurz testet freut sich dass eben ganz viel funktioniert und erlebt dann möglicherweise nach einer Produktion Überraschungen die man nicht haben möchte ja dann was so eine wunderschöne und die Jungs Lösung dafür gefunden also die
Frage war eben wie geht expect damit um wenn man alle paar Tage neu installiert kann und die Antwort ist eben ja das ist ein super Lösung der für die Frage ist ob die Flut von Action taugt genau ist ja also Kyu sie bietet ihren Beratung krustigen etc. Anpassung und so weiter in den Kontext an und dann
damit sind wir mit dem
wundervollen Vortrag an der Stelle auch schon
durch und wollen uns jetzt mal was in der Praxis anschauen und sagen wir
haben und das ist eigentlich auch das was ich wenn man jetzt keine allzu komplexen Zeit Apps für den Einstieg
durchaus eben vielen kann eine fertig Lösung sprich fest ausprobiert und mal geschaut wie weit man
damit kommt ohne aufwendiges Gast mal sehen und zu erweitern können und wir haben auch auf der anderen Seite Open Search Sarah ausprobiert wenn ich die beiden abgrenzen sollen würde ich sagen Open Search Server ist komplexer kann viel genauer konfiguriert werden Unternehmen gesehen Gesichtspunkt eben Bank wollen welche Inhaltsbereiche also welche html Blöcke sind relevant welche sind nicht relevant ja wie Gene daraus Zusammenfassung und so weiter das kann man viel toller konfigurieren und das muss man allerdings auch konfigurieren sonst funktioniert es nicht und so richtig und sind wir davon nicht geworden es erschien uns als Lösung die man eben aus der Packung sehr gut einsetzen kann wenn man mit keine besonderen Ansprüche hat oder als leichtgewichtiger Einstieg in das Thema man ansonsten hat sich eigentlich gezeigt sind die Ansprüche meistens so fortgeschritten dass man eben auf Basis von ihr lästig Search Plus Integrations Code vielleicht doch besser einer auf die Projekt Anforderung zugeschnittene Lösungen werden weniger selbst entwirft er auf Basis im von Ford vorgefertigten kontaminierten Komponenten also das wirkliche Einsatzszenario für den Open Search soll war konnten wir so nicht ausmachen also für mal eben schnell zu kompliziert und für komplexe Projekte dann vielleicht ihm jedoch nicht mehr flexibel genug in der Kontext über den ich eben den
Namen fest im auf Basis von der lästig Search war eine Open-Source-Lösung geben auch Jazz Java-Basis vorstellen möchte ist das Beispiel der Voest schöne Idee
Ideen für die eben an sonst auch noch tätig bin wie Horst schöne Idee nun
genossenschaftlicher wird darum mit Community und so weiter und wir haben ja die den Wunsch gehabt seit langer Zeit in die unsere verschiedenen Webanwendungen mal gemeinsam durchsuchbar zu machen also namentlich die Haupt Website das Token das wichtige was zur Dokumentation einsetzen die offizielle Dokumentation des auch auf der Website eben tatsächlich steht und auch das Melly 1. Archiv umarmend setzen dann noch mehr man 2 an einen und alle dachten das ist doch immer nett wenn ich jetzt hier im Innern irgendwas suche ich sag mal beispielsweise wo wir gerade beim Thema sind ich nehme die Mehr hätten wir warten auf die Internetverbindung an mir das doch
in sehr cool wenn man jetzt übergreifend suchen könnte ja und hier gibts jetzt im tatsächlich Treffer aus den verschiedenen Datenquellen dieser Ebene Kreuth werden das Projekt das wir da umgesetzt haben ihm für die Hausse Chili die hatten Umfang von einen halb Personentagen wobei wir viel Zeit damit verbracht haben einen kleinen Park im Open Search soll zu und wo er in im Fest zu umkurven der nämlich folgendermaßen lautet es gibt bestimmte Robots TXT also Robots Text den wird von den den honoriert aber in bestimmten Fällen wenn bestimmte Direktiven drin sind dann versteht er die falsch und indiziert nicht obwohl er sollte von da an war das war jetzt auch gerade das Beispiel Projekt an dem wir das das 1. Mal versucht haben
umzusetzten ziemlich dumm gekuckt warum der die Brust stellen derzeit die zu dem Zeitpunkt auf basierte nicht indizieren wollte da stand in der Robots Text immer so was drin wie sind und so weiter nicht indizieren und der 1. voll drauf war über 1 auf die Nase gefallen hat dann eben einfach gar nicht indiziert das ging auch nicht so richtig schön aus den Logs hervor konnten Heizenergie drauf wir halt die Robots TXT fertig ja und könnten das dann anfangs ich eindeutig eine ähnliche endlich richtig deuten an mich und ja also wie gesagt mit Manipulationen der Robots TXT habe das Ganze Ding dann eben zum Laufen bekommen nicht er wir haben und wir waren waren am Fest nicht dran wir haben die Robots TXT etwas angefasst anders angefasst Bezüge war angepasst ich weiß auch nicht wirklich im Januar nicht wichtig rausgekriegt im welches haben es jetzt genau ist was da eben tatsächlich doch doch wir haben haben am Beispiel hingegeben also die fest Entwickler das ist mir meiner Ansicht nach also nach meiner Einschätzung eher kleiner Campo lieber wenig Committer die waren zu dem Zeitpunkt allerdings auch schwer damit beschäftigt eben fest auf die neue Elastic Search Version in Höhe von 2 4 und 5 2 zu wenn ja wo sich eben auch einiges geändert hat und wir haben auf der anderen Seite aber das Projekt auch noch nicht auf die neue fest Version mit geht insofern müssen wir jetzt auch nicht ob sich da an der Stelle möglicherweise was getan hat so aber wenig jetzt eben beispielsweise Open-Source-Projekt bin und hat
zum Beispiel in der Projekt-Website P und in Berlin letzten Archiv und vielleicht
noch ein Wiki oder sowas also sollen
just es so ähnlich wie hier 1 dessen wunderschönes Projekt ganz einfach aufzusetzen also es einfach Mensch aber Anwendung die mit im Wesentlichen ausgepackt dann kann man die eben auf dem Server starten die hat der Oberfläche die zeige ich gleich dann kann man per Einstellungen machen und dann auf das die los und dann kann man eben tatsächlich mal die Informationen
zusammen bringen und gemeinsam durchsuchen wenn der gemeinsam durchsuchen wahr machen was sich eben für sehr angenehm halten er das oder oben zuerst also das Ganze Elastic Search ist da waren theoretisch könnte man natürlich jetzt irgendwelche Frontends in beliebigen Sprachen davor waren also wurde der Open Search Server als auch der fest sind aber Java Lösung also der Einwurf war man sollte das nicht in Java machen sondern eben lieber nativ coden also wir können versichern dass die Bibliotheken nicht laufen also effektive 7 für diesen Zweck schon ziemlich gut geeignet sind ja und damit das eben Java Hotspot kompiliert wird in seit längerer Zeit auch ist das auch ziemlich schnell und ziemlich effizient was jetzt nicht heißt dass es nicht in C oder C +plus +plus möglicherweise schneller hinbekommen würde es ich jetzt an der Stelle gar nicht abstreiten allerdings dann für die Größenordnung die wir haben also Intranets mit ein paar 100 Tausend Dokumenten oder teilweise auch mal mit ein paar Millionen Uhr Els gab es an der Stelle keine Engpässe in der Konstellation wie bisher hier ist also in dem Beispielprojekt hat das ganz dicken ganze den 1 GB RAM zugewiesen für die Java VM ja und läuft auf dem Server also auf dem virtualisierten Servern mit der nebenbei auch noch die Websites ausliefert und die anderen Sachen da eben tatsächlich macht das ist nicht so gefräßig ist er beim Chor und etwas cpu lastig also wenn man sehr viele URL Zeit und sagt ich möchte sehr intensiv dann wird es eben zu ja dann wird das allem CPU-Last sich der White über die Saiten drüber guckt vor einen 1. nach Modifications Datum und das bei uns eben so ein bisschen fett faul ist da das mit dem Modifications Datum das fast bei den Mailinglisten Archiven von dem man nicht so richtig gut weil der Staat eben häufiger mal irgendwelche Sachen im neue also jetzt die uralten Archive nicht und damit eben auch einigermaßen viel angekuckt ,komma aber gut mit leben n zum Admin Oberfläche eine 2. hätte dass
ich das Passwort merken sollen wir leider nicht also haben die App Admin-Oberfläche normalerweise auch komplett der konfiguriert also den wird von dem was braucht sie gar nicht ausgeliefert haben wir zwar freigegeben damit man immer sieht auch was handelt ADS-Verdacht drin ok zu
also hier gibt in der Sport theoretisch kann man an denn fest eben auch ein Cluster anschließen oder im Festnetz Cluster an also mit ganz vielen Horst eben Korallen und stehe lästig Search Datenbank sage ich mal eben als strukturierte Datenbank eben grundsätzlich auch klar sein das ist nicht trivial ein bestehendes oder neu installierte sehr lästig Search Cluster 1 fest anzuschließen aber wie gesagt also wir haben jetzt hier in dem Fall wie ich gerade gesehen hat auch 6 Millionen Dokumente drinnen kann man da eben sehen also Uhr ist das läuft aber eben auch einer bescheidenen vor immer ebenso mit und tut da an der Stelle gar nicht sehen die spannende Konfiguration ist die Cola Konfiguration wir haben der 3 in ein 4 Website Bestandteile die weder quollen wollen eben die Haupt 2. Wiki Dokumentation und immer Listen für jeden haben wir eben Sonnenkorona definiert Werk bescheiden wenig Einstellmöglichkeiten also das verkaufe ich jetzt an der Stelle sozusagen als Feature von dem fest man kann nicht viel einstellen und muss auch nicht viel einstellen das gibt man den an wo es losgehen sollen Parteien für die Uhr in's Werk vor allem sein könnte man theoretisch noch Ausschluss Blättern angegeben von irgendwelchen Dateinamen oder sonstigen muss dann die eben nicht wollen soll abgesehen davon dass Robots Text den Fenstern funktioniert eben auch richtig interpretiert würde
er sagen man kann ein Leben mit wie viele zuletzt parallel der vorlag wollen solle wie groß die Intervall Zeit ist also wann ein 2. die den Aufruf machen soll weil wir wollen ja die Zug vor Websites auch nicht überfordern ist ja so dass und nachher die produktiven Website in die Knie geht oder so was weil der roller da den meisten Traffic eben drauf verursacht das Muster wohldosiert sein man kann auch ein Bus wohl angeben damit kann man eben also im Prinzip Highroller landen die Suchergebnisse quasi wie in einem Topf und man kann die mit einem Bus Level
versehen um sie zu priorisieren wir sagen eben beispielsweise na ja zum Treffer Email oder sowas von der Haupt Website ist wahrscheinlich spannender oder aus der Doku wahrscheinlich spannender als aus den Untiefen des Mehr Listen Archivs das ist er so ein bisschen hinter sozusagen für die Priorisierung dann und wieder
ausgeloggt abgeschwächt schlecht das ist eine Haltung
und eine haben Wächter der hat mich ausgenutzt weil ich gerade ganz kurze Internetverbindung nenne ich bin damit an damit also an in der Lage ist also man kann hier noch den Internist der konfigurieren und eben sagen na ja wann soll der denn jetzt hier richtig Vorläufer machen und interne Re-Organisation wieso so irgendwie Backformen so sieht dass
ich meine wo sie das an der Stelle aus und unserer Ansicht nach ist das ein nettes den es könnte zusätzlich eben auch noch Dateisysteme durchsuchen und Datenbanken um relativ schnell zu Ergebnissen zu kommen die man auch tatsächlich brauchen kann aber es gibt hier noch ein Dateisystem Corner haben und
entdeckt dass dort wohl aber für die Tabelle ist dass da geht man dann eben Datenbank Zugriffsdaten an und formuliert sozusagen zum Muster wie eben also welche Datensätze aus welcher Tabelle genommen werden sollen und wie die eben in ein UN umgerechnet werden sollen weil die Daten müssen ja auch irgendwie repräsentiert werden benutzen wir aber jetzt an der Stelle gar nicht sondern wir benutzen es eben nur um den öffentlichen Teil der Websites und neben Anwendungen eben durchsuchbar zu machen und wie gesagt also wir wir nicht den Wunsch gehabt hätten noch Versio allzu Kaste Meisen etwas aufwendiger als No Logo tauschen und nicht das Problem gehabt hätten mit der Robots Text des deswegen seid gewarnt dann ist das ein Projekt das kann man den halben Tag ohne weiteres durchziehen völlig problemlos zu genau was können wir
nicht an der Stelle wir haben auch ein
wählen müssten Archiv wo nur die Mitglieder der Genossenschaft aus einer internen Liste wenn wir die jetzt durchsuchbar machen wollten wir es deutlich komplizierter ja ja zum einen ist mir natürlich noch in Mechanismus etablieren man kann den fest an Eldad anwenden wenn die USA allen erlaubt sind ist das überhaupt kein Problem da müssen die sich zum suchen an anmelden könnten sie eben auch interne Suchergebnis sehen zum
anderen müssten aber auch dem Corolla beibringen wie er eben auf die eigentlich nicht
zugänglichen Inhalte zugreifen kann wenn das per http Basic ORF irgendwie möglich ist oder irgendwelche anderen Tricks dass man denn das frei gibt dann kann man das machen wenn man den 2 kennt weiß dass man wenn zwar so ein bisschen komisch ist ja da ist auch nichts mit und ne Abbildung zwischen fest Benutzern und man den Benutzern ja eigentlich Emailadressen sind und Zugriff für den auf das privaten Mailing-Listen Archiv ist meiner Ansicht nach für fast völlig out Of Scoop das ist damit nicht hinzukriegen jedenfalls nicht mit vertretbarem Aufwand ja und da sind wir dann eben auch tatsächlich bei den Begrenzungen wenig in Sachen durchsuchen möchte die ohnehin öffentlich sind oder im Intranet durchsuchen möchte wo alle zumindest diese Berechtigung haben oder mit http Basic auch zurecht ,komma dann kann man das einsetzen ansonsten stößt man an Grenzen genau und in der Realität im von großen Firmen Intranet zu SG noch viel komplizierter da gibt es eben sehr viele Dokumente mit Access Control Lists möglicherweise unterliegen die Dokumente Workflows und die Rechte ändern sich im unterwegs das ist für beide Systeme nix also weder für den fest nachfüllen Open Search soll war und dann ist es nicht unwesentlicher Integrationsaufwand nötig und es ist dann eben Kaste mal sehen was sehr vom individuellen Fall abhängt und dann geht es eben um große Projekte die eben viele Wochen oder gegebenenfalls Monate in Anspruch nehmen für so Open-Source-Projekte Prinzip der Informationen im Wesentlichen öffentlich
sind oder man vielleicht hier noch ein Projekt mit jeder bereichert kann man aber super aus der Packung einsetzen ja so weit die Berichte aus der Praxis und jetzt will ich eigentlich gerne in zum Frage-Antwort Teil übergehen oder eben vielleicht auch mal kurz Sachen hören zu Erfahrungen die er gemacht hat bitte das 10 bei um ja da
das ja weiß wo kommen ist Na also in Berlin das heißt aber hat die DEG gibt es das hat eben auch viele Filter oder man kann führt eben an den Filter anbinden und das kann eben auch weil sie es wird ja das macht das ja auch und das ist eben in C geschrieben und läuft deswegen auch auf dem Pentium II bitte das ja eigenen der heißt wir wir und gehört also die fest Lösung besteht also Frage war in welchen Job welcher Herr Kronawitter eingesetzt also der Verein das Fest System selbst besteht aus ganz vielen Einzelkomponenten beispielsweise in diesem Gewerbe voller und der Indexer und diversen anderen Komponenten und eben auch dem der Phond end die gibt es eben alle einzeln bei geht hab und dann muss man eben zusehen wie sie integriert oder es gibt eben fest als Komplettlösung also zu dem Thema wie man sie integriert wir haben versucht aus dem komplett Produkt abzuleiten wie man sie integriert wenn man nämlich Einzelkomponenten vielleicht austauschen möchte dass es uns nicht so richtig gut gelungen ja ich hab selbst im nach einem Kontext mal in die 3 Tage bei dem Fall sind wir fest obwohl es theoretisch ansatzweise dokumentiert dass mal an ein bestehendes sehr lästig Search Cluster anzubinden ist es mir nicht so richtig gelungen werden das ist das und wir wollen .punkt nicht der ihr der ich habe auch der ist dieser es Wort so es aus auch hier sie wird es jetzt also die Frage in zielt in die Richtung ab wenn es richtig verstanden habe ob man nicht gemeinsam ein Netz von Such Instanzen aufbauen kann ja die dann eben für sich Kronen und irgendwie die Inhalte abgleichen oder zusammenbringen etc. n kann man bauen ja also eben auch beispielsweise auf Basis von ihr lästig Search oder eben auch Qi losziehen und ganz im Nachen Ebene drunter gehen möchte im Grundsätzlichen würde so würde eben auch fest ist nach Dokumentation Cluster und man könnte wenn man sich eben gegenseitig vertraut es natürlich auch aus mehreren also mit mehreren Leuten ein so Gemeinschaft machen und dann einem gemeinsamen Fest Cluster betreiben stelle ich mir eben nach unseren Erfahrungen allerdings nicht trivial vor die nächste Frage ist also ein Wurf ist es gibt eine Community basierte Suchmaschine namens Jessi die ich allerdings auch nicht wenn man sich aber sicherlich mal anschauen sollte das sie und weiter und dabei ganz der ich war also die geraten Erfahrungsbericht eben zuerst wieder in die Richtung gehen irgendwie nach einer gewissen Zeit geht schon mal der Index kaputt Stabilität ist sozusagen fragt damit allerdings selbst auch mangels Kenntnis nicht bewerten bitte der die Frage ist eben wie sieht's mit alternativ Formaten aus da sieht ist er beim Open Open-Source-Server Server besser aus er hat ein paar mehr Filter dabei und eben bessere Schnittstellen und Filter zu integrieren in Bayern also fest wäre mir jetzt nur für Webseiten und zwar also statische Webseiten in der Form der wertet eben auch kein JavaScript aus direkt auf die Nachfrage dazu ja ja also ich welcher aufgefasst als Rückfrage zu meiner Antwort ja da genau also hatte die hat auch Filter für PDF wer bitte also ich Frage war wenn ich schon in die Datenquellen habe die möglicherweise auch sucht Daten vorab aufbereitet oder teilweise aufbereitet haben die kann sich die anbieten bin ich möchte Frage verallgemeinern ich habe gegen welche Datenquellen welcher Bauart und möchte sie gerne anbinden der fest ist an der Stelle so modular dass man eben auch weitere Plug-ins dazu schreiben kann also wir haben wir jetzt in der Standardinstallation eben das Plug-in gesehen für der für Datenbanken und eben für Dateisysteme auf Basis derselben Schnittstelle kann man natürlich auch beliebige andere System einbinden entscheidend ist für den festen die Suchergebnisse Repräsentation ist natürlich immer ein webbasierter URL mit ihnen die ja also eigentlich wenn man am Innenleben irgendwie auf einem Zielobjekt haben was man sich angucken kann die Verbindung muss man eben sozusagen herstellen und eben die Daten die in den Index fließen sollen strukturiert aufbereitet haben da kann man aber eben in die Beispiel Plug-ins gucken das ist jetzt kein großes Geheimnis es war genau also Hinweis war immer mein so als zwischen Staates hat sozusagen wie indizieren irgendwas nach solaren würden uns dann eigentlich gerne weiter nochmal indizieren von in einer da vorgeschalteten Suchmaschine die Landesebene war es die Daten sind in 2 Lager in einer Form abgelegt dass man ihm jetzt nicht die Originaldaten zur Verfügung hat sondern eben gucken muss ob man was mit anfangen kann Rettung 2 im Jahr haben
wir haben also Frage war wie sie das mit den Benutzerrechten aus also wenn ich jetzt das Indizieren und dann eben durchsuchbar machen möchte wo eben komplexer Situationen sind eben mit Art selbst oder ähnlichen also komplexe Benutzer Zugriffsrechte ja haben wir gemacht es gibt grundsätzlich mehrere Möglichkeiten das Problem so anzugehen also zum einen kann man eben versuchen auf Basis von der Such Lösung irgendwie dieses ACL System eben mit abzubilden oder eben umgekehrt die ACL Informationen des Datenobjekt eben mit in den Index zu schreiben und dann eben auch aus an der Stelle wo man ihm den Index liest also was haben wir beides gemacht damit die Sicherheitsinformationen dann auch aktuell sind haben wir in den Fällen dann oft auch ein Filter geschrieben der sozusagen die Suchergebnisse dann nochmal nach gefiltert hat also dann beim Schlafen System noch mal nachgefragt hat ob in der URL jetzt eine für die Person überhaupt noch zugreifbar ist wenn man eine vorlegen Lösung nimmt sind die Informationen der möglicherweise veraltet und eben auch die Zugriffs sowie Informationen über die Zugriffsrechte möglicherweise veraltet also wenn ich beispielsweise gerade mich vom Mitarbeiter getrennt hat der dann i-was nicht mehr sehen soll oder sehen darf oder eben sowas dann hätte das ja auch gerne jetzt und sofort und nicht dann wenn der Index in aktualisiert ist Moment 1 nach dem anderen die Frage der und auch wie oder ja ist sehen oder wo oder also wir haben in der Implementierung die Suchergebnisse nach gefiltert das heißt die Sachen die nicht zu sehen waren sind dann auch nicht in der Zusammenfassung angezeigt worden bitte also die Frage ist wenn ich ein Push-Verfahren einsetze dann kann ich mir das nach filtern wahrscheinlich sparen weil die Informationen dann ohnehin aktuell sind steht eine Antwort dazu ist wichtig ja also wenn ich das sicherstellen kann dass das Push-Verfahren Zufälle zuverlässig funktioniert und die suchen Lösung auch dann verfügbar ist in jedem Fall wenn sich ihm die Zugriffsrechte ändern und das System und die Daten drin sind das mit dass sich die Zugriffsrechte ändern und dann eben die Push Notification kommt dann kann man sich das Ganze natürlich sparen aber Vorsicht wenn ich eine typische Konstellation habe beispielsweise sich Elder und am Ende hängt es dann eben ein Elder Puppen Mitgliedschaften und so weiter da stellt sich eben die Frage ob es Nachahmer Content-Management-System das aktiv mitbekommt wenn irgendjemand außer Eldar Gruppe fliegt und dann eben für alle Dokumente die das betrifft dann eben tatsächlich den Push Richtung Suchsystem auslösen kann wenn das gesichert wäre dann sich ich da keine Schwierigkeiten haben in der Praxis konnte mir das allerdings dann nicht sichern eben aufgrund von Beschränkungen der Systeme die die Daten bereitstellen so dass wir dann eben den Weg genommen haben eben die an die Systeme die für Authentifizierung Autorisierung zuständig sind dann eben nachgefragt haben ob der URL quasi noch gültig ist spricht der Benutzer der eingeloggt ist bei der Suche Lösung eben noch Berechtigungen auf dem Objekt hat bitte das ist da meinen festen nicht beim Open Search soll weil Jahr und bei den also Frage ist pushen geht das oder nicht beim festen einen beim Open Source ja bei den Lösungen die wir auf lästig 6. Spaces gebaut haben typischerweise auch oder mit den Mehr Kontakt hatten also eine Lösung die in die Richtung geht und dass vielleicht in der Tat auch erklärt ist wer kennt klauen hier wenige ist halt eben ne CMS /schrägstrich Intranet wie auch immer Lösung er da gibt es eben und Adapter für ihr lästig Search und der arbeitet eben auf Wunsch Spaces also spricht die Anwendung fängt eben Änderungs Events ab auf was ist eben an der einzelnen Datenobjekte die innen drin sind und schickt dann eben der Benachrichtigung an den an die Mystik Search Instanz mit er der uns eine Frage und selbst der war benutzt auch ihr lästig Search am Mehr also Apple stimmen gefreut hab ich selbst noch keine Berührung mit gehabt also das hat Projekte gegeben die eben hier an in dem Unternehmer umgesetzt worden sind so weit ist wahr ist haben wir alle Projekte im Folge 1 2 3 Jahren mit lästig Search umgesetzt und da war auch mit Stimmen die vor dem Einsatz aber ist jetzt sozusagen also kann ich jetzt nicht mit hundertprozentiger Sicherheit sagen eben mangels eigener Erfahrung also bin ich mir nicht ganz sicher bitte die die Frage ist eben wie komme ich an die Suchergebnisse dran und also beide such Lösungen wie also sowohl der Umsatz soll bereits auf der Fest bieten eben Epi 1 an kommen aber auch mit der integrierten Web-Oberfläche wo die Sachen dann eben als html behindert Frage ist eben ob man die Oberfläche mag und oder nicht lieber in die anderweitig in seine eigene Oberfläche integrieren möchte oder wie auch immer möglicherweise hat man ja auch andere abhängige Systeme die einfach nur auf die Daten zugreifen können sollen die sind also in der Form modular also die haben die entsprechende Schnittstellen bitte als er die Frage ist außer losziehen gibt's es nichts also hier ist die Antwort hat die vor als ich hoch gut wenn keine weiteren Fragen sind dann bedanke ich mich für das Zuhören und wünsch euch noch eine wunderschöne und interessante 1. Frost konnten eine Session passt heute noch ins Programm
Open Source
Lösung <Mathematik>
Multiplikation
Software
Suchmaschine
Komponente <Software>
Open Source
Universal product code
HTTP
Computeranimation
Dienst <Informatik>
Hardware
Anbindung <Informatik>
Software
Komponente <Software>
Open Source
Internetdienst
Systems <München>
Anbindung <Informatik>
Computeranimation
Packung <Mathematik>
Sicherungskopie
Sicherungskopie
Computeranimation
Dienst <Informatik>
Web Site
Intranet
Internet
Sicherungskopie
Software
Internetdienst
Computeranimation
Lösung <Mathematik>
Packung <Mathematik>
Open Source
Internetdienst
Dienst <Informatik>
Computeranimation
Konfigurationsraum
Internetdienst
Computeranimation
Ebene
Lösung <Mathematik>
ALT <Programm>
Komponente <Software>
Datenbank
Internetdienst
Strukturierte Daten
Computeranimation
Intranet
Internetdienst
Indizierung <Informatik>
Computeranimation
Schnittstelle
Lösung <Mathematik>
Index
Anbindung <Informatik>
Datenhaltung
Microsoft
Plug in
RSS <Informatik>
Web-Seite
IMAP
Apache <Programm>
Computeranimation
Graph
Anbindung <Informatik>
Internetdienst
Plug in
Anbindung <Informatik>
Computeranimation
Komponente <Software>
Open Source
Computeranimation
Turing-Test
Vorlesung/Konferenz
Transitionssystem
Computeranimation
World Wide Web
Open Source
Lösung <Mathematik>
App <Programm>
Packung <Mathematik>
Komponente <Software>
Server
Komplex <Algebra>
Code
Computeranimation
Cross-site scripting
Desintegration <Mathematik>
Web Site
Web-Applikation
Großrechner
Computeranimation
Ebene
Benutzerhandbuch
E-Mail
Umfang
Atomarität <Informatik>
Computeranimation
Roboter
Logarithmus
Uniforme Struktur
Höhe
Version <Informatik>
Softwareentwickler
Ubiquitous Computing
LINUX
Web Site
Intranet
Server
Mailing-Liste
Benutzerhandbuch
ARCHIVE <Programm>
URL
Größenordnung
Information
Wiki
Milan <Programmiersprache>
Computeranimation
App <Programm>
Web Site
Konfigurationsraum
Bildschirmfenster
Datenbank
Liste <Informatik>
Passwort
Wiki
Konfigurationsraum
Computeranimation
Roboter
Datenbus
Web Site
Konfigurationsraum
Liste <Informatik>
E-Mail
Computeranimation
Reihenfolgeproblem
Passwort
Computeranimation
Dateisystem
Datensatz
Web Site
Reihenfolgeproblem
Tabelle
Datenhaltung
Anwendungssoftware
Datenbank
Computeranimation
Roboter
Reihenfolgeproblem
Mechanismus-Design-Theorie
Computeranimation
Mathematische Größe
Intranet
Content <Internet>
Abbildung <Physik>
HTTP
BASIC
Mailing-Liste
Information
Zugriff
Systems <München>
Computeranimation
Ebene
Reihenfolgeproblem
Packung <Mathematik>
Content <Internet>
Pentium
Datenhaltung
Bericht <Informatik>
Plug in
Web-Seite
Computeranimation
Richtung
Open Source
Index
JavaScript
Komponente <Software>
Suchmaschine
Server
Dateiformat
Schnittstelle
Aggregatzustand
Instanz <Informatik>
Autorisierung
Berührung <Mathematik>
Constraint <Künstliche Intelligenz>
Momentenproblem
CMS
Open Source
Implementierung
Content Management
Raum-Zeit
Ereignishorizont
Richtung
Open Source
Lösung <Mathematik>
Index
Intranet
Apple <Marke>
Authentifikation
Information
Zugriff
Systems <München>
Instanz <Informatik>
Schnittstelle
openSUSE
Software
Computeranimation

Metadaten

Formale Metadaten

Titel OpenSource Search Engines
Untertitel Suchen mit OpenSource-Komponenten
Serientitel FrOSCon 2017
Autor Hierweck, Michael
Lizenz CC-Namensnennung 4.0 International:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
DOI 10.5446/32322
Herausgeber Free and Open Source software Conference (FrOSCon) e.V.
Erscheinungsjahr 2017
Sprache Deutsch

Inhaltliche Metadaten

Fachgebiet Informatik
Abstract Überblick über verschiedene Search-Engines aus Open-Source-Komponenten, sowie deren jeweilige Vor- und Nachteile.
Schlagwörter Development

Zugehöriges Material

Video wird in der folgenden Ressource zitiert

Ähnliche Filme

Loading...