Skip to content. | Skip to navigation

Benutzerspezifische Werkzeuge

 
Sections
Artikelaktionen

Solr Suche

Wichtiges und Nützliches zum Thema Solr Suche

 

Der Produktive Solr Server läuft auf sysadmin.arr@asnra124:/webserver/index.fhnw.ch

Das Plone Produkt heisst "collective.recipe.solrinstance".

Dienst starten: bin/solr-instance start
Dienst stoppen: bin/solr-instance stop

Der Index hört auf den Standarport 8983 und kann dementsprechend über  http://localhost:8983/solr/ angesprochen werden.

Solr Server hat Drei Kernen (Core)
  • Webauftritt - Plone Objekten sind indexiert
  • Webdienst - External webdienst sind indexiert
  • IRF - IRF (Publikationen und Projekten) Daten sind indexiert

Schema:  http://localhost:8983/solr/admin/file/?file=schema.xml

IRF Daten indexieren

Das Buildout generiert ein Shell-Script um IRF-Daten im Solr zu synchronizieren
Script - bin/import_irf.sh

curl "http://0.0.0.0:8983/solr/core_irf/DIH_IRF?command=full-import&clean=true&commit=true&wt=json&indent=true&entity=irfSolr&verbose=false&optimize=false&debug=false"

**Wichtig - IRF Server soll mit ein sogenannt "Valve" konfiguriert sein, damit ein External Request erlaubt wird. Mehr Infos https://help.fhnw.ch/fhnw/2016/irf-deployment

Log

/webserver/index.fhnw.ch/var/solr/import_irf.log

Webdienst Daten indexieren

Das Buildout generiert ein Shell-Script um Webdienst-Daten im Solr zu synchronizieren
Das Projekt "http://archive.apache.org/dist/nutch" wird verwendet um die Externe Quelle im solr zu indexieren.
Script - bin/import_webdienst.sh

bin/crawl -i -D solr.server.url=http://0.0.0.0:8983/solr/core_webdienste /webserver/index.fhnw.ch/nutch/urls/ /webserver/index.fhnw.ch/var/crawl 20

Parameter:

Usage: crawl [-i|--index] [-D "key=value"] <Seed Dir> <Crawl Dir> <Num Rounds>
        -i|--index      Indexes crawl results into a configured indexer
        -D              A Java property to pass to Nutch calls
        Seed Dir        Directory in which to look for a seeds file
        Crawl Dir       Directory where the crawl/link/segments dirs are saved
        Num Rounds      The number of rounds to run this crawl for

Seed Dir parameter - Momentan gibt es ein Dokument im googledocs mit alle Seiten die indexiert werden müssen. 

Log

/webserver/index.fhnw.ch/var/solr/import_webdienst.log

 

Known-problems

IPV4 - Standarmässig soll Solr IPV4 verwenden, sonder kann es Verbindungsfehler passieren (Connection refused). Die Standard Protokoll kann es als Java-Option informiert werden (check solr.cfg in buildout), zum Beispiel:

java_opts +=    
   -Djava.net.preferIPv4Stack=true