Installa Apache Hadoop su Ubuntu 17.10!

Apache Hadoop è una soluzione per big data per l'archiviazione e l'analisi di grandi quantità di dati. In questo articolo descriveremo in dettaglio i complessi passaggi di configurazione per Apache Hadoop per iniziare con Ubuntu il più rapidamente possibile. In questo post installeremo Apache Hadoop su Ubuntu 17.10 macchine.

Versione Ubuntu

Per questa guida, useremo Ubuntu versione 17 Ubuntu.10 (GNU/Linux 4.13.0-38-generico x86_64).

Aggiornamento dei pacchetti esistenti

Per avviare l'installazione di Hadoop, è necessario aggiornare la nostra macchina con gli ultimi pacchetti software disponibili. Possiamo farlo con:

sudo apt-get update && sudo apt-get -y dist-upgrade

Poiché Hadoop è basato su Java, dobbiamo installarlo sulla nostra macchina. Possiamo usare qualsiasi versione di Java sopra Java 6. Qui, useremo Java 8:

sudo apt-get -y install openjdk-8-jdk-headless

Download di file Hadoop

Tutti i pacchetti necessari ora esistono sulla nostra macchina. Siamo pronti per scaricare i file TAR Hadoop richiesti in modo da poter iniziare a configurarli ed eseguire anche un programma di esempio con Hadoop.

In questa guida, installeremo Hadoop v3.0.1. Scarica i file corrispondenti con questo comando:

wget http://mirror.cc.Colombia.edu/pub/software/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.catrame.gz

A seconda della velocità della rete, l'operazione può richiedere alcuni minuti poiché il file è di grandi dimensioni:

Download di Hadoop

Trova gli ultimi binari Hadoop qui. Ora che abbiamo scaricato il file TAR, possiamo estrarlo nella directory corrente:

tar xvzf hadoop-3.0.1.catrame.gz

Questo richiederà alcuni secondi per il completamento a causa delle grandi dimensioni del file dell'archivio:

Hadoop annullato dall'archivio

Aggiunto un nuovo gruppo di utenti Hadoop

Poiché Hadoop opera su HDFS, un nuovo file system può distorcere il nostro file system anche sulla macchina Ubuntu. Per evitare questa collisione, creeremo un gruppo utenti completamente separato e lo assegneremo ad Hadoop in modo che contenga i propri permessi. Possiamo aggiungere un nuovo gruppo di utenti con questo comando:

addgroup hadoop

Vedremo qualcosa come:

Aggiunta di un gruppo di utenti Hadoop

Siamo pronti per aggiungere un nuovo utente a questo gruppo:

useradd -G hadoop hadoopuser

Tieni presente che tutti i comandi che eseguiamo sono come utente root stesso. Con il comando aove, siamo stati in grado di aggiungere un nuovo utente al gruppo che abbiamo creato.

Per consentire all'utente Hadoop di eseguire operazioni, è necessario fornirgli anche l'accesso root. Apri il /etc/sudoers file con questo comando:

sudo visudo

Prima di aggiungere qualsiasi cosa, il file sarà simile a:

File Sudoers prima di aggiungere qualsiasi cosa

Aggiungi la seguente riga alla fine del file:

hadoopuser ALL=(ALL) ALL

Ora il file sarà simile a:

File Sudoers dopo aver aggiunto l'utente Hadoop

Questa era la configurazione principale per fornire ad Hadoop una piattaforma per eseguire azioni. Siamo pronti per configurare un cluster Hadoop a nodo singolo ora.

Configurazione Hadoop a nodo singolo: modalità autonoma

Quando si tratta della vera potenza di Hadoop, di solito è impostato su più server in modo che possa scalare su una grande quantità di set di dati presente in File system distribuito Hadoop (HDFS). Questo di solito va bene con gli ambienti di debug e non viene utilizzato per l'utilizzo in produzione. Per mantenere il processo semplice, spiegheremo come possiamo eseguire una configurazione di un singolo nodo per Hadoop qui.

Una volta completata l'installazione di Hadoop, eseguiremo anche un'applicazione di esempio su Hadoop. A partire da ora, il file Hadoop si chiama hadoop-3.0.1. rinominiamolo in hadoop per un utilizzo più semplice:

mv hadoop-3.0.1 hadoop

Il file ora si presenta come:

Spostare Hadoop

È ora di utilizzare l'utente hadoop che abbiamo creato in precedenza e assegnare la proprietà di questo file a quell'utente:

chown -R hadoopuser:hadoop /root/hadoop

Una posizione migliore per Hadoop sarà la directory /usr/local/, quindi spostiamola lì:

mv hadoop /usr/local/
cd /usr/locale/

Aggiunta di Hadoop al percorso

Per eseguire gli script Hadoop, lo aggiungeremo al percorso ora. Per fare ciò, apri il file bashrc:

vi ~/.bashrc

Aggiungi queste righe alla fine del .bashrc in modo che il percorso possa contenere il percorso del file eseguibile di Hadoop:

# Configura Hadoop e Java Home
esporta HADOOP_HOME=/usr/local/hadoop
esporta JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$HADOOP_HOME/bin

Il file sembra:

Aggiunta di Hadoop al percorso

Poiché Hadoop utilizza Java, dobbiamo dire al file di ambiente Hadoop hadoop-env.sh Dove si trova. La posizione di questo file può variare in base alle versioni di Hadoop. Per trovare facilmente dove si trova questo file, esegui il seguente comando appena fuori dalla directory Hadoop:

trova hadoop/ -name hadoop-env.sh

Otterremo l'output per la posizione del file:

Posizione del file di ambiente

Modifichiamo questo file per informare Hadoop della posizione Java JDK e inseriamo questo nell'ultima riga del file e salviamo:

esporta JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

L'installazione e la configurazione di Hadoop sono ora complete. Siamo pronti per eseguire la nostra applicazione di esempio ora. Ma aspetta, non abbiamo mai fatto un'applicazione di esempio!

Esecuzione di un'applicazione di esempio con Hadoop

In realtà, l'installazione di Hadoop viene fornita con un'applicazione di esempio integrata che è pronta per essere eseguita una volta completata l'installazione di Hadoop. Suona bene, vero?

Eseguire il comando seguente per eseguire l'esempio JAR:

vaso hadoop /root/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.1.jar conteggio parole /root/hadoop/README.txt /root/Output

Hadoop mostrerà quanta elaborazione ha fatto sul nodo:

Statistiche di elaborazione Hadoop

Una volta eseguito il seguente comando, vediamo il file part-r-00000 come output. Vai avanti e guarda il contenuto dell'output:

gatto parte-r-00000

Otterrai qualcosa come:

Conteggio parole prodotto da Hadoop

Conclusione

In questa lezione, abbiamo esaminato come possiamo installare e iniziare a utilizzare Apache Hadoop su Ubuntu 17.10 macchine. Hadoop è ottimo per archiviare e analizzare grandi quantità di dati e spero che questo articolo ti aiuti a iniziare a usarlo rapidamente su Ubuntu.