简单的说,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者DC解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准及时剪短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”
Hadoop实现了对大数据进行分布式并行处理的系统框架,是一种数据并行方法。由实现数据分析的MapRaduce计算框架爱和实现数据储存的分布式文件系统(HDFS)有机结合组成,他自动把应用程序分割成许多小的工作单元,并把这些单元放在集群中的相应节点上执行,二分布式文件系统(HDFS)负责各个节点上的数据的存储,实现高吞吐率的数据的读写。Hadoop的基础架构及时又分布式文件系统(HDFS)和MapReduce组成。