编程知识 cdmana.com

Hadoop Foundation - 02 - Basic Structure

Code source voir:https://github.com/hiszm/hadoop-train

HadoopGénéralités

http://hadoop.apache.org/

Site officiel

The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

  • Open Source
  • Stockage et informatique distribués
  • Distribué

Modules

  • Hadoop Common: The common utilities that support the other Hadoop modules.
  • Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data.
  • Hadoop YARN: A framework for job scheduling and cluster resource management.
  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
  • Hadoop Ozone: An object store for Hadoop.

Traduction

  • Système de fichiers distribués:HDFS .Utilisé pour charger le stockage distribué de fichiers sur un serveur avec beaucoup de

  • Cadre informatique distribué:MapReduce Implémenter l'informatique parallèle distribuée sur de nombreuses machines

  • Cadre d'ordonnancement des ressources distribuées :YARN Réaliser la gestion des ressources de la grappe et l'ordonnancement des tâches

HadoopÉléments de baseHDFS.

Origine

  • DeGoogleDeGFSArticle de
  • - Oui.GFS Clone de

Caractéristiques

  • Extension,
  • Tolérance aux défauts,
  • Masse.

HadoopÉléments de baseMapReduce

Origine

  • DeGoogleDeMapRedeceArticle de
  • - Oui.Google MapReduce Clone de

Caractéristiques

  • Extension
  • Tolérance aux défauts
  • Traitement hors ligne massif

MapReduce

HadoopÉléments de baseYARN

  • Yet Another Resource Negotiator
  • Responsable de la gestion et de l'ordonnancement de l'ensemble des ressources de la grappe
    Caractéristiques:
  • Extension
  • Tolérance aux défauts
  • Programmation unifiée des ressources multi - cadres

YARN

HadoopAvantages

  • Stockage de données: Bloc de données multi - Copies
  • Calcul des données: Calcul du travail de reprogrammation
  • Extension de la machine : La machine peut être étendue linéairement , Un Cluster peut contenir des milliers de nœuds
  • Réduction des coûts:Vas - y.IoE
  • L'écosystème mûrit

HadoopHistoire du développement

Histoire du développement

HadoopEcosphère

Ecosphère

Caractéristiques

  • Open Source,Actif
  • Mature
  • Avec la plupart des mégadonnées

Hadoop Sélection des modèles de distribution

  • ApacheVersion communautaire

    • Avantages:Entièrement open source gratuit. Document actif de la communauté 、 Données détaillées
    • Inconvénients: Gestion complexe des versions . La gestion des versions est confuse ,Toutes sortes de versions émergent, Beaucoup d'utilisateurs sont submergés .
      Déploiement complexe de grappes 、Installation、Configuration. Un grand nombre de profils sont généralement écrits en fonction des besoins du cluster , Distribué à chaque noeud ,Sujet aux erreurs,Inefficacité. Exploitation et entretien complexes des grappes . Surveillance des grappes ,O & M, D'autres logiciels de tiers doivent être installés ,Par exemple:ganglia,nagoisAttendez., L'exploitation et l'entretien sont difficiles .InHadoopDans l'écosystème, Sélection des composants 、Utiliser,Par exemple,Hive,Mahout,Sqoop,Flume,Spark,OozieAttendez un peu!, La question de la compatibilité exige beaucoup d'attention , Si la version est compatible , Y a - t - il des conflits entre les composants , Si la compilation peut passer, etc . Vous perdez souvent beaucoup de temps à compiler des composants , Résoudre les conflits de version .
  • Distribution par des tiers (Par exemple:CDH,HDP,MapRAttendez.)

    • Avantages:Basé surApacheAccord,100%Open Source. La gestion des versions est claire .QueApache HadoopCompatibilité、Sécurité、 Amélioration de la stabilité . Les distributions par des tiers ont généralement fait l'objet de nombreux tests de validation , Il existe de nombreux exemples de déploiement , ..Un grand nombre d'opérations dans divers environnements de production .
    • Inconvénients: Une partie n'est pas open source

OOTB Utilisation de l'environnement

//Passer àroot
$ sudo -i
# cd /etc/sysconfig/network-scripts/
# ls

network-scripts

//Supprimer
# rm -f ifcfg-lo

00:0c:29:4c:82:a8

vim ifcfg-eth0

localhost

PING baidu.com (220.181.38.148) 56(84) bytes of data.
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=1 ttl=46 time=42.7 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=2 ttl=46 time=42.0 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=3 ttl=46 time=45.0 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=4 ttl=46 time=44.4 ms

ssh

Insérer la description de l'image ici

版权声明
本文为[Sun zhongming]所创,转载请带上原文链接,感谢
https://cdmana.com/2021/10/20211013211945119g.html

Scroll to Top