Apache Solr

I migliori motori di ricerca self-hosted

I migliori motori di ricerca self-hosted
Il tuo capo sa che stai cercando un altro lavoro?? Hai detto al tuo altro significativo dell'incapacità di decidere se vuoi avere figli o no?? I tuoi genitori sanno del tuo orientamento sessuale?? Bene, Google e altri principali motori di ricerca lo fanno.

"La maggior parte degli utenti esegue ricerche su Google dopo aver effettuato l'accesso, quindi tutte le informazioni sulla loro vita online sono disponibili: ricerche su YouTube, e-mail e cronologia delle ricerche passate", afferma Adam Tauber, lo sviluppatore principale del motore di metaricerca che rispetta la privacy Searx.

Certo, potresti usare Tor per l'anonimato ed eliminare sempre tutte le tracce della tua attività dopo ogni ricerca, ma farlo dopo ogni ricerca molto probabilmente invecchierebbe abbastanza rapidamente. Invece, dovresti considerare l'installazione di un motore di ricerca self-hosted in grado di recuperare informazioni per te senza rivelare nulla di sensibile su di te.

Abbiamo selezionato due di questi motori di ricerca e introduciamo anche tre motori di ricerca aggiuntivi per mostrarti che esistono già eccellenti alternative ai motori di ricerca proprietari come Google o Bing e sono più facili da installare e utilizzare di quanto tu possa pensare.

1. YaCy

YaCy è un motore di ricerca peer-to-peer distribuito gratuitamente il cui componente principale è scritto in Java. Poiché tutti gli utenti di YaCy sono uguali e poiché il motore di ricerca non memorizza le richieste di ricerca degli utenti, la censura semplicemente non è possibile.

Attualmente, YaCy indicizza circa 1.4 miliardi di documenti nel suo indice grazie all'attività di oltre 600 operatori peer che contribuiscono ogni mese. Per fare un confronto, l'indice di Ricerca Google contiene centinaia di miliardi di pagine web ed è di dimensioni superiori a 100.000.000 di gigabyte.

Sebbene YaCy abbia ancora molta strada da fare prima di poter competere con i più grandi motori di ricerca centralizzati del mondo, è già utilizzabile come portale di ricerca per intranet private e applicazioni specifiche per progetti perché YaCy può funzionare come un'unica appliance di ricerca senza collegarsi in rete con altri colleghi.

YaCy può essere facilmente integrato in qualsiasi pagina web grazie ai suoi semplici frammenti di codice che possono essere facilmente copiati e incollati senza alcuna modifica.

2. Cercax

Searx è descritto come un motore di metaricerca hackerabile e rispettoso della privacy. È disponibile sotto la GNU Affero General Public License versione 3 e il suo obiettivo principale è proteggere la privacy dei suoi utenti non condividendo mai gli indirizzi IP degli utenti o la cronologia delle ricerche con i motori di ricerca da cui raccoglie i risultati.

"Quando si utilizza Searx, l'indirizzo IP di Searx, uno User-Agent casuale e una query di ricerca vengono inviati a Google per impostazione predefinita", Adam Tauber, alias asciimoo, spiega come funziona il suo motore di metaricerca. “Naturalmente, puoi personalizzare Searx per inoltrare altri parametri extra come la lingua di ricerca o il numero di pagina della pagina dei risultati richiesta."

Searx blocca automaticamente tutti i cookie di tracciamento serviti dai motori di ricerca per impedire la modifica dei risultati basata sulla profilazione dell'utente, che può derivare da un motore di ricerca che tenta di implementare una ricerca individualizzata in base a ciò che il motore conosce dell'utente. Searx è gratuito al 100% e chiunque può modificarlo secondo necessità. Puoi persino prendere il codice di Searx ed eseguire il motore di metaricerca sul tuo server, che dovrebbe sicuramente risolvere eventuali dubbi che potresti avere riguardo ai log.

3. ElasticSearch

ElasticSearch è un motore di ricerca basato su Lucene, una libreria software gratuita e open source per il recupero delle informazioni supportata dalla Apache Software Foundation e rilasciata con la licenza del software Apache.

ElasticSearch fornisce un motore di ricerca full-text con un'interfaccia web HTTP. Il motore di ricerca può essere utilizzato per cercare tutti i tipi di documenti e può essere facilmente distribuito su più nodi.

È possibile creare un motore di ricerca self-hosted utilizzando ElasticSearch e Docker e puoi trovare un tutorial che descrive il processo qui.

4. Ambar

Ambar è un motore di ricerca di documenti open source con molte utili funzioni. Supporta la scansione automatica, il tagging e la ricerca full-text istantanea, solo per fare alcuni esempi. Una delle caratteristiche più interessanti di Ambar è la sua capacità di eseguire l'OCR su immagini e file PDF. Le lingue supportate includono inglese, tedesco, russo, italiano, francese, spagnolo, polacco e olandese.

Ambar può essere facilmente distribuito con un singolo file docker-compose e puoi imparare come farlo qui.

5. Apache Solr

Scritto in Java, Apache Solr è una piattaforma di ricerca aziendale che include ricerca full-text, evidenziazione dei risultati, ricerca sfaccettata, indicizzazione in tempo reale, clustering dinamico e molte altre importanti funzionalità. È stato creato nel 2004 per un progetto interno a CNET Networks. CNET Networks lo ha gentilmente donato alla Apache Software Foundation nel 2006, dove è passato dallo stato di incubazione a un progetto autonomo di alto livello nel 2007.

Oggi, Solr è una piattaforma di ricerca aziendale altamente affidabile, scalabile e tollerante ai guasti che potenzia le funzionalità di ricerca e navigazione di molti dei più grandi siti Internet del mondo, tra cui DuckDuckGo, eHarmony e BestBuy. Puoi

Come installare e configurare YaCy

L'installazione di YaCy è molto semplice e richiede solo un paio di minuti perché non è necessario installare un database esterno o un server Web: YaCy viene fornito con tutto il necessario.

  1. Vai al sito ufficiale di YaCy e scarica l'ultimo pacchetto per Linux.
  2. Installa l'ambiente di runtime OpenJDK 8.
    • Se stai usando una distribuzione basata su Debian, usa il seguente comando: $ sudo apt-get install openjdk-8-jre
    • In caso contrario, segui le istruzioni specifiche per la tua distribuzione.
  3. Estrai il pacchetto scaricato nella tua posizione preferita.
  4. Vai alla nuova cartella e avvia "startYACY.sh" nel Terminale.
  5. Dovresti vedere un messaggio di conferma che ti informa che YaCy è stato avviato come demone

Conclusione

I motori di ricerca sanno di noi più di quanto la maggior parte delle persone vorrebbe ammettere. Se desideri smettere di alimentare le grandi aziende con dati succosi, puoi prendere le cose nelle tue mani e impostare un motore di ricerca self-hosted per proteggere la tua privacy. Sebbene i motori di ricerca self-hosted abbiano ancora molta strada da fare per diventare pienamente utilizzabili, il potenziale per loro di superare quelli come Google c'è e catturarlo è solo una questione di attirare più utenti.

I migliori emulatori di console di gioco per Linux
Questo articolo elencherà il popolare software di emulazione della console di gioco disponibile per Linux. L'emulazione è un livello di compatibilità ...
Le migliori distribuzioni Linux per il gioco nel 2021
Il sistema operativo Linux ha fatto molta strada dal suo aspetto originale, semplice e basato su server. Questo sistema operativo è notevolmente migli...
Come acquisire e riprodurre in streaming la tua sessione di gioco su Linux
In passato, giocare era considerato solo un hobby, ma con il tempo l'industria dei giochi ha visto una crescita enorme in termini di tecnologia e nume...