Responsive image
博碩士論文 etd-0825120-000833 詳細資訊
Title page for etd-0825120-000833
論文名稱
Title
OpenStack Hadoop Cluster 系統架構分析之探討
A Performance Analysis of Hadoop Clusters on OpenStack Cloud
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
83
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2020-09-04
繳交日期
Date of Submission
2020-09-25
關鍵字
Keywords
HDFS、s3a、CephFS、Hadoop、Ceph、Sahara、OpenStack
CephFS, s3a, HDFS, Ceph, Sahara, Hadoop, OpenStack
統計
Statistics
本論文已被瀏覽 5880 次,被下載 0
The thesis/dissertation has been browsed 5880 times, has been downloaded 0 times.
中文摘要
目前許多企業或是研究單位以 OpenStack 為雲端基礎架構建立私有雲,達成資源有效利用,並且讓租戶自我服務及自動化佈署所需要的雲服務資源。在實際運行面上企業與研究單位在導入與建置私有雲時會遇到一些阻礙,最為常見的問題為『IT 管理人員建置、管理雲服務的技術能力』與『建置私有雲服務的預算限制
和成本考量』為兩大原因。IT 管理人員除了規劃系統架構外也需要了解該架構的優缺點以及適用的情境、規模大小、未來的可延展性與系統可靠性,因此 IT 管理人員需要精進技術能力與花時間實驗進行各種新技術的研究。但 IT 管理人員需要管理組織現有設備與系統高可用性,實際難在有限時間內分析各個不同系統架構的優劣,並同時兼顧建置系統的預算限制和成本考量。
因此本研究主要針對設計幾個不同的雲端運算架構建置 Hadoop Cluster 進行測試,針對所提出之架構進行效能評估與比較分析:
• 不同的 OpenStack 架構環境中建立出來的 Hadoop Cluster 系統架構效能優劣。
• 驗證目前技術巨量資料系統架構介接外部軟體式儲存裝置作為運算磁碟效能是否仍是不佳的。
• 分析不同的雲端運算架構,針對這些架構進行效能比較,並且彙整研究過程遭遇的問題,提供建議企業與研究單位在實際企業導入雲端服務時的建置規模、使用情境,並且分析未來可能會遇到的瓶頸。
雖然在技術文獻測試報告中提出巨量資料搭配不同儲存裝置的測試結果,但針對實際運行面及企業管理決策面上仍會有欠缺綜合面向的分析。因此本研究除了針對不同架構進行效能測試效能之外,也會依據不同架構分析優劣、部署時遇到的問題及評估未來可能的瓶頸,提供管理人員或是研究單位在除了重視效能外,還需要針對管理面、風險面進行綜合評估參考。在未來可以管理、設備經費、雲端架構上得到一個平衡點,達成雙贏的局面。
Abstract
Today, enterprises and research institutions use OpenStack as the cloud foundational infrastructure to build private clouds. They want to get benefit from cloud services in the following keys.
(1) Speed up resource management efficiency.
(2) Cost efficiency.
(3) Improved User Experiences.
(4). Scalability.

However, the cloud architecture comes in all different shapes and sizes, and their organization’s success with the cloud depends on choosing the right cloud architecture that suits their business’s needs. Their challenges are:
• Choose the correct cloud architecture.
The cloud is offered in a variety of architectures for different workload. Understanding the various cloud architectures are most challenge for IT.
• Understand current workload levels.
How to understand current workload level is a very important thing for choosing right cloud architecture because different workload levels will affect the cloud architecture design and the cost.

Therefore, this research will focus on the following points.
• Implement Hadoop Cluster system architecture in different OpenStack architectures and compare their pros and cons.
• To verify bigdata system’s performance on different software defined storage system in OpenStack environment.
• Analyze and compare different cloud computing architectures’ performance. To summarize the problems encountered in the research process and provide suggestions on the scalability and usage scenarios for enterprises and research institutions.
目次 Table of Contents
目錄
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
目錄 v
圖次 vii
表次 ix
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機與目的 3
第二章 文獻探討 6
2.1 雲端基礎架構 OpenStack 6
2.2 OpenStack Sahara[7] 9
2.3 OpenStack 整合分散式儲存系統 Ceph Storage 10
2.4 整體系統架構影響效能 12
2.5 效能測試報告 . 16
第三章 研究方法 20
3.1 資料收集與提出研究比較項目 20
3.2 研究設計、控制與佈署 21
3.3 實驗實作 31
第四章 研究結果與分析 33
4.1 研究結果 33
4.2 研究分析 34
第五章 建議及結論 61
5.1 企業營運及測試架構的建議 61
5.2 實務貢獻 66
參考文獻 69
附錄 72
圖次
圖 1- 1 VM 與 Container 架構上差異[1] 2
圖 1- 2 Hadoop 部署演進[2] 3
圖 2- 1 OpenStack 核心架構圖[6] 7
圖 2- 2 Red Hat OpenStack Platform 9
圖 2- 3 OpenStack Sahara 架構圖[7] 10
圖 2- 4 Ceph 架構圖[10] 11
圖 2- 5 Amazon S3 與 HDFS 比較圖[13] 13
圖 2- 6 Hadoop 角色架構圖[15] 13
圖 2- 7 S3A 上傳流程圖[16] 14
圖 2- 8 NFS-Ganesha 介接 Ceph Cluster 架構圖[16] 15
圖 2- 9 App over librgw 架構圖[16] 15
圖 2- 10 Ceph S3A 與 Ceph NFS 架構圖[18] 15
圖 2- 11 HDFS 與 HDFS in KVM 比較 [3] 16
圖 2- 12 VM use internal HDFS in VM 與 VM use external HDFS in Host 比較圖[3] 16
圖 2- 13 VM use Local HDFS 與 VM use Swift 比較圖[3] 17
圖 2- 14 Bare-metal、Docker 與 KVM 的比較圖[3] 17
圖 2- 15 RGWFS、SwiftFS 與 HDFS 的效能比較圖[4] 18
圖 2- 16 GlusterFs、Rados Gateway 與 Cephfs 寫入效能測試[19] 18
圖 3- 1 測試模組 1 23
圖 3- 2 測試模組 2 24
圖 3- 3 測試模組 3 24
圖 3- 4 測試模組 4 25
圖 3- 5 測試模組 5 26
圖 3- 6 系統架構圖 26
圖 3- 7 網路架構圖 29
圖 4- 1 測試模組(1)與測試模組(2) 架構圖 34
圖 4- 2 測試模組(3)與測試模組(4) 架構圖 45
圖 4- 3 測試模組(4) 執行 Teragen 時產生暫存檔 46
圖 4- 4 觀察 Ceph Storage 的 Pool 使用狀態 I 46
圖 4- 5 觀察 Ceph Storage 的 Pool 使用狀態 II 47
圖 4- 6 Ceph Storage 輸出 Request_slow 訊息 47
圖 4- 7 測試模組(3)架構圖 48
圖 4- 8 測試模組(4)架構圖 48
圖 4- 9 測試模組(4)與測試模組(5) 架構圖 51
圖 4- 10 測試模組(5)在 CephFS 直接產生檔案 52
圖 4- 11 測試模組(5)執行時 Ceph Storage 輸出檔 52
圖 4- 12 TestDFSIO 測試結果 54
圖 4- 13 測試模組(3)與測試模組(4) TeraGen/TeraSort/TeraValidate 測試結果 55
圖 4- 14 測試模組(2)及測試模組(3)架構 56
圖 4- 15 測試模組(4)及測試模組(5)架構 57
圖 4- 16 實驗架構圖 59
圖 4- 17 實體機記憶體使用狀況 59
圖 5- 1 正式環境架構圖 62
圖 5- 2 正式環境邏輯架構圖 62
圖 5- 3 測試環境邏輯架構圖(ㄧ) 64
圖 5- 4 測試環境邏輯架構圖(二) 65
附錄圖 1 - 1 執行 wordcount 成功的圖示 72
附錄圖 1 - 2 Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud [24] 72
附錄圖 1 - 3 S3 無法取代 HDFS[25] 73
表次
表 2- 1 OpenStack 核心元件 8
表 3- 1 測試模組對照表 22
表 3- 2 實驗硬體設備規格 28
表 3- 3 實驗虛擬機規格 29
表 3- 4 網路類型說明 30
表 3- 5 實驗工具參數 32
表 4- 1TestDFSIO 實驗結果 33
表 4- 2TeraGen / TeraSort / TeraValidate 實驗結果 34
表 4- 3 測試模組(1)與測試模組(2) TestDFSIO 測試數據 35
表 4- 4Hadoop Cluster Slave01 在測試模組(1)及(2) TestDFSIO Write 監控數值 36
表 4- 5Hadoop Cluster Slave02 在測試模組(1)及(2) TestDFSIO Write 監控數值 37
表 4- 6Hadoop Cluster TestDFSIO Read 監控資訊 39
表 4- 7 測試模組(1)與測試模組(2) TestGen /TeraSort / TeraValidate 測試數據 39
表 4- 8Hadoop Cluster 中 Slave01 在測試模組(1)及(2) Teragen 監控數值 40
表 4- 9 Hadoop Cluster 中 Slave02 在測試模組(1)及(2) Teragen 監控數值 41
表 4- 10Hadoop Cluster 中 Slave01 在測試模組(1)及(2) Terasort 監控數值 43
表 4- 11 Hadoop Cluster 執行 TeraValidate 監控資訊 44
表 4- 12 測試模組(3)與測試模組(4) TeraGen/TeraSort/TeraValidate 測試數據 45
表 4- 13 測試模組(4)與測試模組(5) TestGen /TeraSort / TeraValidate 測試數據 51
參考文獻 References
[1] Doug Chamberlain. Containers vs. Virtual Machines (VMs): What’s the Difference? (2018). [cited 2020 09/06] Available from: https://blog.netapp.com/blogs/containers-vs-vms/
[2] Michael E. Wendt. Cloud-based Hadoop Deployments: Benefits and Considerations (2014). [cited 2019 09/20] Available from: https://www.accenture.com/t00010101T000000__w__/jpja/_acnmedia/Accenture/Conversion-Assets/DotCom/Documents/Local/jajp/PDF_2/Accenture-Cloud-Based-Hadoop-Deployments-Benefits-andConsiderations.pdf
[3] Zhidong Yu and Weiting Chen Intel. Benchmarking Sahara-based Big-Data-asa-Service Solutions (2015). [cited 2018 12/30] Available from: https://www.youtube.com/watch?v=d4_xgQt9XAM
[4] David Cohen et al., "Big Data Analytics on Object Storage — Hadoop over Ceph* Object Storage with SSD Cache," 2015.
[5] Fang Liu et al., "NIST cloud computing reference architecture," NIST special publication, 2011.
[6] OpenStack Documentation Team. Architecture Guide. [cited 2020 06/01] Available from: https://access.redhat.com/documentation/enus/red_hat_openstack_platform/13/html/architecture_guide/components
[7] Openstack Community, "OpenStack Docs: Welcome to Sahara!," ed.
[8] 王后明. Sahara 顺利毕业,将加速 OpenStack 与 Hadoop 的融合 (2014). [cited 2019 03/15] Available from: https://www.csdn.net/article/2014-03-31/2819044-Cloud-OpenStack-Sahara
[9] Sage Weil et al., "Ceph : A Scalable , High-Performance Distributed File System."
[10] Karan Singh, "Learning Ceph," 2015.
[11] Ganesh Ananthanarayanan et al., "Disk-Locality in Datacenter Computing Considered Irrelevant," 2011.
[12] Jeremy Elson Edmund B. Nightingale et al., "Flat Datacenter Storage," 2012.
[13] Nick Corbett. The Impact of Using Latest-Generation Instances for Your Amazon EMR Job (2014). [cited 2019 03/05] Available from: https://aws.amazon.com/tw/blogs/big-data/the-impact-of-using-latestgeneration-instances-for-your-amazon-emr-job/
[14] RedHat. Why Spark on Ceph? (2018). [cited 2019 05/25] Available from: https://redhatstorage.redhat.com/2018/07/02/why-spark-on-ceph-part-3-of-3/.
[15] Brad Hedlund. Understanding Hadoop Clusters and the Network (2011). [cited 2019 12/20] Available from: http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/
[16] 陈涛. UMStor Hadapter – 大数据与对象存储的柳暗花明 (2019). [cited 2019 06] Available from: https://www.infoq.cn/article/3gDx4FPfZUBOcAMtwetf
[17] Apache. Hadoop-AWS module: Integration with Amazon Web Services (2018). [cited 2019 03/05] Available from: http://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoopaws/index.html#Overview
[18] Neil Levine. rhcs 2017 past, present and future (2017). [cited 2019 01/20] Available from: https://www.slideshare.net/inwinstack/redhat-rhcs-2017-pastpresent-and-future
[19] Jia-Yow Weng et al., "The Integration of Shared Storages with the CephFS and Rados Gateway for Big Data Accessing," in 2018 IEEE 42nd Annual Computer Software and Applications Conference (COMPSAC) vol. 01, ed: IEEE, 2018, pp. 93-98.
[20] IBM. DFSIO. [cited 2019 02/26] Available from: https://www.ibm.com/support/knowledgecenter/en/STXKQY_BDA_SHR/bl1bda_dfsio.htm
[21]. NNBench - NameNode benchmark (2015). [cited Available from: https://github.com/cglmoocs/bdaafall2015/blob/master/docs/source/nnbench.rst
[22] Markobigdata. Hadoop Benchmark test – MRbench (2016). [cited 2020 09/06]
Available from: https://markobigdata.com/2016/07/13/hadoop-benchmark-testmrbench/
[23] IBM. TeraSort benchmark. [cited 2019 02/27] Available from: https://www.ibm.com/support/knowledgecenter/en/SSGSMK_7.1.1/mapreduce_integration/map_reduce_terasort_example.html
[24] Noritaka Sekiyama. Amazon S3 Best Practice and Tuning for Hadoop/Spark in
the Cloud (2019). [cited 2019 05/10] Available from: https://www.slideshare.net/ssuserca76a5/amazon-s3-best-practice-and-tuningfor-hadoopspark-in-the-cloud
[25] AWS. Can I use Amazon S3 for Hadoop storage instead of HDFS? (2020). [cited Available from: https://aws.amazon.com/tw/premiumsupport/knowledgecenter/configure-emr-s3-hadoop-storage/
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus:開放下載的時間 available 2025-09-25
校外 Off-campus:開放下載的時間 available 2025-09-25

您的 IP(校外) 位址是 44.200.49.193
現在時間是 2024-03-29
論文校外開放下載的時間是 2025-09-25

Your IP address is 44.200.49.193
The current date is 2024-03-29
This thesis will be available to you on 2025-09-25.

紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 2025-09-25

QR Code