Code source voir:https://github.com/hiszm/hadoop-train
HadoopGénéralités
http://hadoop.apache.org/
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.
- Open Source
- Stockage et informatique distribués
- Distribué
Modules
- Hadoop Common: The common utilities that support the other Hadoop modules.
- Hadoop Distributed File System (HDFS): A distributed file system that provides high-throughput access to application data.
- Hadoop YARN: A framework for job scheduling and cluster resource management.
- Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
- Hadoop Ozone: An object store for Hadoop.
Traduction
-
Système de fichiers distribués:HDFS .Utilisé pour charger le stockage distribué de fichiers sur un serveur avec beaucoup de
-
Cadre informatique distribué:MapReduce Implémenter l'informatique parallèle distribuée sur de nombreuses machines
-
Cadre d'ordonnancement des ressources distribuées :YARN Réaliser la gestion des ressources de la grappe et l'ordonnancement des tâches
HadoopÉléments de baseHDFS.
Origine
- DeGoogleDeGFSArticle de
- - Oui.GFS Clone de
Caractéristiques
- Extension,
- Tolérance aux défauts,
- Masse.
HadoopÉléments de baseMapReduce
Origine
- DeGoogleDeMapRedeceArticle de
- - Oui.Google MapReduce Clone de
Caractéristiques
- Extension
- Tolérance aux défauts
- Traitement hors ligne massif
HadoopÉléments de baseYARN
- Yet Another Resource Negotiator
- Responsable de la gestion et de l'ordonnancement de l'ensemble des ressources de la grappe
Caractéristiques: - Extension
- Tolérance aux défauts
- Programmation unifiée des ressources multi - cadres
HadoopAvantages
- Stockage de données: Bloc de données multi - Copies
- Calcul des données: Calcul du travail de reprogrammation
- Extension de la machine : La machine peut être étendue linéairement , Un Cluster peut contenir des milliers de nœuds
- Réduction des coûts:Vas - y.IoE
- L'écosystème mûrit
HadoopHistoire du développement
HadoopEcosphère
Caractéristiques
- Open Source,Actif
- Mature
- Avec la plupart des mégadonnées
Hadoop Sélection des modèles de distribution
-
ApacheVersion communautaire
- Avantages:Entièrement open source gratuit. Document actif de la communauté 、 Données détaillées
- Inconvénients: Gestion complexe des versions . La gestion des versions est confuse ,Toutes sortes de versions émergent, Beaucoup d'utilisateurs sont submergés .
Déploiement complexe de grappes 、Installation、Configuration. Un grand nombre de profils sont généralement écrits en fonction des besoins du cluster , Distribué à chaque noeud ,Sujet aux erreurs,Inefficacité. Exploitation et entretien complexes des grappes . Surveillance des grappes ,O & M, D'autres logiciels de tiers doivent être installés ,Par exemple:ganglia,nagoisAttendez., L'exploitation et l'entretien sont difficiles .InHadoopDans l'écosystème, Sélection des composants 、Utiliser,Par exemple,Hive,Mahout,Sqoop,Flume,Spark,OozieAttendez un peu!, La question de la compatibilité exige beaucoup d'attention , Si la version est compatible , Y a - t - il des conflits entre les composants , Si la compilation peut passer, etc . Vous perdez souvent beaucoup de temps à compiler des composants , Résoudre les conflits de version .
-
Distribution par des tiers (Par exemple:CDH,HDP,
MapRAttendez.)- Avantages:Basé surApacheAccord,100%Open Source. La gestion des versions est claire .QueApache HadoopCompatibilité、Sécurité、 Amélioration de la stabilité . Les distributions par des tiers ont généralement fait l'objet de nombreux tests de validation , Il existe de nombreux exemples de déploiement , ..Un grand nombre d'opérations dans divers environnements de production .
- Inconvénients: Une partie n'est pas open source
OOTB Utilisation de l'environnement
//Passer àroot
$ sudo -i
# cd /etc/sysconfig/network-scripts/
# ls
//Supprimer
# rm -f ifcfg-lo
PING baidu.com (220.181.38.148) 56(84) bytes of data.
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=1 ttl=46 time=42.7 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=2 ttl=46 time=42.0 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=3 ttl=46 time=45.0 ms
64 bytes from 220.181.38.148 (220.181.38.148): icmp_seq=4 ttl=46 time=44.4 ms
版权声明
本文为[Sun zhongming]所创,转载请带上原文链接,感谢
https://cdmana.com/2021/10/20211013211945119g.html