數據清洗
-
【作 者】黃源 劉智楊 孫大松
【I S B N 】978-7-5226-0382-7
【責任編輯】周春元
【適用讀者群】本專(zhuān)通用
【出版時(shí)間】2022-02-15
【開(kāi) 本】16開(kāi)
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁(yè) 數】192
【千字數】300
【印 張】12
【定 價(jià)】¥38
【叢 書(shū)】普通高等教育數據科學(xué)與大數據技術(shù)專(zhuān)業(yè)教材
【備注信息】
簡(jiǎn)介
本書(shū)特色
前言
章節列表
精彩閱讀
下載資源
相關(guān)圖書(shū)
內 容 提 要
本書(shū)編寫(xiě)目的是向讀者介紹大數據清洗的基本概念和相應的技術(shù)應用,共分8章:數據清洗簡(jiǎn)介、數據清洗中的理論基礎、文件格式及其轉換、Excel數據清洗、Kettle數據清洗、Kettle與數據倉庫、Python數據清洗、數據清洗綜合實(shí)訓。
本書(shū)將理論與實(shí)踐操作相結合,通過(guò)大量的案例幫助讀者快速了解和應用數據清洗相關(guān)技術(shù),并對重要的核心知識點(diǎn)加大練習比例,以達到熟練應用的目的。
本書(shū)適用于高校人工智能、大數據技術(shù)相關(guān)專(zhuān)業(yè)的學(xué)生,也可供大數據技術(shù)愛(ài)好者自學(xué)使用。
內容實(shí)用——理論與實(shí)踐結合,重點(diǎn)突出應用
體系完善——構建完整的大數據專(zhuān)業(yè)解決方案
產(chǎn)教融合——高校企業(yè)共參與,對標行業(yè)標準
資源豐富——微課、課件、教案、源碼、答案
前 言
近年來(lái),隨著(zhù)數字經(jīng)濟的快速發(fā)展,數據成為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素,在國家治理、社會(huì )發(fā)展和人民生活中的作用日益突出。而大數據是現代社會(huì )高科技發(fā)展的產(chǎn)物,是第四次工業(yè)革命最主要的內容之一,也是數字經(jīng)濟發(fā)展重要的推動(dòng)力量。
當前,發(fā)展大數據已經(jīng)成為國家戰略,大數據在引領(lǐng)經(jīng)濟社會(huì )發(fā)展中的新引擎作用更加明顯。2015年,國家印發(fā)《關(guān)于促進(jìn)大數據發(fā)展的行動(dòng)綱要》,第一次將大數據上升到國家戰略高度,提出了我國大數據的頂層設計。此后,隨著(zhù)大數據底層設施逐漸成熟,大數據分析開(kāi)始結合具體行業(yè),向下游垂直行業(yè)應用延伸。
大數據必須經(jīng)過(guò)清洗、分析、建模、可視化才能體現其潛在的價(jià)值。例如政府、銀行和保險公司等內部存在海量的非結構化、不規則的數據,而只有將這些數據采集并清洗為結構化、規則的數據,才能提高公司決策支撐能力和政府決策服務(wù)水平,使之發(fā)揮應有的作用。
本書(shū)以理論與實(shí)踐操作相結合的方式深入講解了數據清洗的基本知識和實(shí)現的基本技術(shù),在內容設計上既有上課時(shí)老師講述的部分(包括詳細的理論與典型的案例),又有大量的實(shí)訓環(huán)節,雙管齊下,極大地激發(fā)了學(xué)生的學(xué)習積極性和主動(dòng)創(chuàng )造性,讓學(xué)生在課堂上跟上老師的思維,從而學(xué)到更多的知識和技能。
本書(shū)特色如下:
(1)采用“理實(shí)一體化”教學(xué)方式:課堂上既有老師講述的內容又有學(xué)生獨立思考、上機操作的內容。
(2)豐富的教學(xué)案例:包含教學(xué)課件、習題答案等多種教學(xué)資源。
(3)緊跟時(shí)代潮流,注重技術(shù)變化:書(shū)中包含最新的大數據分析知識及一些開(kāi)源庫的使用。建議讀者在閱讀本書(shū)時(shí)使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。
(4)編寫(xiě)本書(shū)的老師都具有多年教學(xué)經(jīng)驗,做到重難點(diǎn)突出,能夠激發(fā)學(xué)生的學(xué)習熱情。
(5)配有微課視頻:對本書(shū)中的重難點(diǎn)進(jìn)行細致講解,方便學(xué)生課后學(xué)習。
本書(shū)可作為大數據專(zhuān)業(yè)、人工智能專(zhuān)業(yè)、軟件技術(shù)專(zhuān)業(yè)、云計算專(zhuān)業(yè)、計算機網(wǎng)絡(luò )專(zhuān)業(yè)的教材,也可作為大數據愛(ài)好者的參考書(shū)。
本書(shū)建議學(xué)時(shí)為50學(xué)時(shí),具體分布見(jiàn)下表。
章節 建議學(xué)時(shí)
數據清洗簡(jiǎn)介 4
數據清洗中的理論基礎 6
文件格式及其轉換 6
Excel數據清洗 4
Kettle數據清洗 8
Kettle與數據倉庫 6
Python數據清洗 12
數據清洗綜合實(shí)訓 4
本書(shū)由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫(xiě)第1章和第2章并負責統稿工作,劉智楊編寫(xiě)第3章,孫大松編寫(xiě)第4 章,陳勇編寫(xiě)第5章和第6章,王曙光編寫(xiě)第7章,劉廣敏編寫(xiě)第8章。
在本書(shū)編寫(xiě)過(guò)程中,編者得到了中國電信金融行業(yè)信息化應用重慶基地總經(jīng)理助理楊琛的大力支持,同時(shí)參閱了大量相關(guān)資料,在此一并表示感謝。
由于編者水平有限,書(shū)中難免存在疏漏甚至錯誤之處,懇請讀者批評指正,編者電子郵箱:2103069667@qq.com。
編 者
2021年10月
第1章 數據清洗簡(jiǎn)介 1
1.1 數據清洗概述 2
1.1.1 什么是數據清洗 2
1.1.2 數據清洗的原理 2
1.1.3 數據清洗的過(guò)程 3
1.2 數據質(zhì)量管理 5
1.2.1 數據質(zhì)量管理的含義 5
1.2.2 數據質(zhì)量的評估 6
1.2.3 數據質(zhì)量管理應用 7
1.3 數據清洗模型研究 8
1.3.1 數據清洗模型描述 8
1.3.2 數據清洗模型應用 9
1.4 數據清洗常用軟件與工具 9
1.4.1 數據清洗常用軟件 9
1.4.2 數據清洗常用工具 11
1.5 實(shí)訓 11
練習1 13
第2章 數據清洗中的理論基礎 14
2.1 微積分 15
2.1.1 微積分概述 15
2.1.2 微積分的作用 15
2.2 線(xiàn)性代數 15
2.2.1 線(xiàn)性代數概述 16
2.2.2 線(xiàn)性代數的定義 16
2.3 概率論與數理統計 21
2.3.1 概率論與數理統計概述 21
2.3.2 概率論與數理統計基本概念 21
2.4 最優(yōu)化理論 26
2.4.1 最優(yōu)化理論定義 26
2.4.2 凸函數 26
2.5 主成分分析 27
2.5.1 主成分分析概述 27
2.5.2 主成分分析的實(shí)現 27
2.6 數據清洗常見(jiàn)算法 28
2.6.1 哈希算法 29
2.6.2 字符串匹配算法 29
2.6.3 聚類(lèi)算法 31
2.7 實(shí)訓 33
練習2 34
第3章 文件格式及其轉換 35
3.1 文件格式概述 36
3.1.1 文件格式簡(jiǎn)介 36
3.1.2 Windows中常見(jiàn)的文件格式介紹 36
3.2 數據類(lèi)型與字符編碼 37
3.2.1 數據類(lèi)型 37
3.2.2 字符編碼 37
3.3 跨平臺數據傳輸格式 38
3.3.1 XML 38
3.3.2 JSON 39
3.4 Kettle中文件格式的運行與轉換 40
3.4.1 文本文件的轉換 41
3.4.2 XML文件的轉換 43
3.4.3 JSON文件的轉換 46
3.4.4 CSV文件的轉換 48
3.5 實(shí)訓 50
練習3 56
第4章 Excel數據清洗 57
4.1 認識Excel 58
4.1.1 Excel介紹 58
4.1.2 Excel數據清洗的特點(diǎn) 58
4.2 Excel數據清洗基本操作 58
4.2.1 Excel數據工具的認識 58
4.2.2 Excel數據工具的應用 59
4.3 使用Excel中的函數進(jìn)行數據清洗 65
4.3.1 Excel中的函數介紹 65
4.3.2 Excel函數的具體應用 66
4.4 實(shí)訓 70
練習4 71
第5章 Kettle數據清洗 72
5.1 Kettle數據清洗概述 73
5.1.1 Kettle數據清洗簡(jiǎn)介 73
5.1.2 Kettle數據清洗的認識 73
5.2 Kettle數據清洗基礎 74
5.2.1 Kettle數據清洗基本操作 75
5.2.2 Kettle數據清洗的實(shí)現 75
5.3 實(shí)訓 94
練習5 105
第6章 Kettle與數據倉庫 106
6.1 數據倉庫概述 107
6.1.1 什么是數據倉庫 107
6.1.2 數據倉庫的特點(diǎn) 107
6.2 Kettle中的數據倉庫相關(guān)技術(shù) 107
6.2.1 Kettle連接數據庫 107
6.2.2 Kettle成功連接數據庫的其他操作 109
6.3 Kettle在數據倉庫中的應用 111
6.3.1 Kettle讀取數據庫 111
6.3.2 Kettle遷移數據庫 115
6.4 實(shí)訓 117
練習6 119
第7章 Python數據清洗 120
7.1 Python數據清洗概述 121
7.1.1 Python數據清洗簡(jiǎn)介 121
7.1.2 Python擴展庫的安裝與導入 121
7.2 Python數據清洗基礎 122
7.2.1 NumPy庫的使用 122
7.2.2 Pandas庫的使用 128
7.3 機器學(xué)習中的數據清洗 149
7.3.1 Seaborn庫 149
7.3.2 對機器學(xué)習中的數據集進(jìn)行分析清洗 152
7.4 Python中的時(shí)間序列 154
7.4.1 時(shí)間序列基礎datetime 154
7.4.2 Pandas中的日期與時(shí)間工具 156
7.5 實(shí)訓 157
練習7 165
第8章 數據清洗綜合實(shí)訓 166
8.1 Kettle輸入記錄排序 167
8.2 Kettle數據流優(yōu)先級排序 171
8.3 Kettle生成記錄排序 175
8.4 使用Python清洗數據 178
8.5 Python讀取CSV文檔 180
參考文獻 186
- 實(shí)用運籌學(xué) [主編 邢育紅 于晉臣]
- 電子技術(shù)(第二版) [主編 覃愛(ài)娜 李飛]
- 勞動(dòng)爭議處理實(shí)務(wù) [主編 王秀卿 羅靜]
- 工程數學(xué) [主編 郭立娟 王海]
- 語(yǔ)音識別理論與實(shí)踐 [主編 莫宏偉]
- 武術(shù)基礎教程 [主編 李代勇 謝志民]
- 計算機網(wǎng)絡(luò )實(shí)訓教程 [主編 張浩軍 趙玉娟]
- 畫(huà)法幾何與機械制圖習題集(多學(xué)時(shí)) [主編 趙軍]
- 電工電子技術(shù)基礎 [主編 劉 軍 楊國龍 劉天成]
- MySQL數據庫項目式教程 [陳亞峰]
- 機械設計基礎(第二版) [主編 田亞平 李?lèi)?ài)姣]
- 畫(huà)法幾何與機械制圖 [主編 趙軍]
- C語(yǔ)言程序設計習題與實(shí)驗指導(第二版) [主編 甄增榮 張賓]
- C語(yǔ)言程序設計(第二版) [主編 甄增榮 田云霞]
- Unity3D虛擬現實(shí)應用開(kāi)發(fā)實(shí)踐 [主 編 劉龍]
- 智能化技術(shù)基礎(第三版) [鄧文達 李禮]
- 面向對象程序設計 [主編 張勇 張平華 趙小龍]
- 網(wǎng)絡(luò )營(yíng)銷(xiāo) [主編 夏薇薇 劉婷 尚潔]
- 電視節目策劃與制作(微課版) [主 編 黃滴滴]
- 數據庫技術(shù)與應用實(shí)踐教程(SQL Server 2019) [主 編 嚴暉 周肆清]
- 大學(xué)應用數學(xué) [主編 郭立娟]
- 工業(yè)機器人拆裝與調試 [主編 胡月霞 向艷芳 朱奇]
- 功能材料制備與表征實(shí)驗指導書(shū) [龔偉平 趙軍峰 梅海娟 等編著(zhù)]
- 信號與系統(第二版) [主編 張宇]
- 信息技術(shù)基礎 [主編 唐倩 邵銳]
- Python 語(yǔ)言程序設計實(shí)踐指導 [主編 張雙獅]
- Photoshop 圖形圖像項目化教程 [主編 胡斌斌 黎婭 蘇大椿]
- 體育舞蹈教程 [主編 劉偉 陳志明 曾明]
- 線(xiàn)性代數導學(xué)篇 [主編 史昱]
- 信息技術(shù)基礎實(shí)訓與習題指導(Windows7+Office2016) [主編 周金容 唐天國]