天天操让人看日日舔|乱中年女人伦中文字幕久久|无码欧XXXXX在线观看免费|欧美精品v国产精品v|久久精品一区二区三区资源网,在线观着免费观看国产黄

熱門(mén)關(guān)鍵字:  聽(tīng)力密碼  聽(tīng)力密碼  新概念美語(yǔ)  單詞密碼  巧用聽(tīng)寫(xiě)練聽(tīng)力

數據清洗

中國水利水電出版社
    【作 者】黃源 劉智楊 孫大松 【I S B N 】978-7-5226-0382-7 【責任編輯】周春元 【適用讀者群】本專(zhuān)通用 【出版時(shí)間】2022-02-15 【開(kāi) 本】16開(kāi) 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁(yè) 數】192 【千字數】300 【印 張】12 【定 價(jià)】38 【叢 書(shū)】普通高等教育數據科學(xué)與大數據技術(shù)專(zhuān)業(yè)教材 【備注信息】
圖書(shū)詳情

    內 容 提 要

    本書(shū)編寫(xiě)目的是向讀者介紹大數據清洗的基本概念和相應的技術(shù)應用,共分8章:數據清洗簡(jiǎn)介、數據清洗中的理論基礎、文件格式及其轉換、Excel數據清洗、Kettle數據清洗、Kettle與數據倉庫、Python數據清洗、數據清洗綜合實(shí)訓。

    本書(shū)將理論與實(shí)踐操作相結合,通過(guò)大量的案例幫助讀者快速了解和應用數據清洗相關(guān)技術(shù),并對重要的核心知識點(diǎn)加大練習比例,以達到熟練應用的目的。

    本書(shū)適用于高校人工智能、大數據技術(shù)相關(guān)專(zhuān)業(yè)的學(xué)生,也可供大數據技術(shù)愛(ài)好者自學(xué)使用。

    內容實(shí)用——理論與實(shí)踐結合,重點(diǎn)突出應用

    體系完善——構建完整的大數據專(zhuān)業(yè)解決方案

    產(chǎn)教融合——高校企業(yè)共參與,對標行業(yè)標準

    資源豐富——微課、課件、教案、源碼、答案

    前  言

    近年來(lái),隨著(zhù)數字經(jīng)濟的快速發(fā)展,數據成為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素,在國家治理、社會(huì )發(fā)展和人民生活中的作用日益突出。而大數據是現代社會(huì )高科技發(fā)展的產(chǎn)物,是第四次工業(yè)革命最主要的內容之一,也是數字經(jīng)濟發(fā)展重要的推動(dòng)力量。

    當前,發(fā)展大數據已經(jīng)成為國家戰略,大數據在引領(lǐng)經(jīng)濟社會(huì )發(fā)展中的新引擎作用更加明顯。2015年,國家印發(fā)《關(guān)于促進(jìn)大數據發(fā)展的行動(dòng)綱要》,第一次將大數據上升到國家戰略高度,提出了我國大數據的頂層設計。此后,隨著(zhù)大數據底層設施逐漸成熟,大數據分析開(kāi)始結合具體行業(yè),向下游垂直行業(yè)應用延伸。

    大數據必須經(jīng)過(guò)清洗、分析、建模、可視化才能體現其潛在的價(jià)值。例如政府、銀行和保險公司等內部存在海量的非結構化、不規則的數據,而只有將這些數據采集并清洗為結構化、規則的數據,才能提高公司決策支撐能力和政府決策服務(wù)水平,使之發(fā)揮應有的作用。

    本書(shū)以理論與實(shí)踐操作相結合的方式深入講解了數據清洗的基本知識和實(shí)現的基本技術(shù),在內容設計上既有上課時(shí)老師講述的部分(包括詳細的理論與典型的案例),又有大量的實(shí)訓環(huán)節,雙管齊下,極大地激發(fā)了學(xué)生的學(xué)習積極性和主動(dòng)創(chuàng )造性,讓學(xué)生在課堂上跟上老師的思維,從而學(xué)到更多的知識和技能。

    本書(shū)特色如下:

    (1)采用“理實(shí)一體化”教學(xué)方式:課堂上既有老師講述的內容又有學(xué)生獨立思考、上機操作的內容。

    (2)豐富的教學(xué)案例:包含教學(xué)課件、習題答案等多種教學(xué)資源。

    (3)緊跟時(shí)代潮流,注重技術(shù)變化:書(shū)中包含最新的大數據分析知識及一些開(kāi)源庫的使用。建議讀者在閱讀本書(shū)時(shí)使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。

    (4)編寫(xiě)本書(shū)的老師都具有多年教學(xué)經(jīng)驗,做到重難點(diǎn)突出,能夠激發(fā)學(xué)生的學(xué)習熱情。

    (5)配有微課視頻:對本書(shū)中的重難點(diǎn)進(jìn)行細致講解,方便學(xué)生課后學(xué)習。

    本書(shū)可作為大數據專(zhuān)業(yè)、人工智能專(zhuān)業(yè)、軟件技術(shù)專(zhuān)業(yè)、云計算專(zhuān)業(yè)、計算機網(wǎng)絡(luò )專(zhuān)業(yè)的教材,也可作為大數據愛(ài)好者的參考書(shū)。

    本書(shū)建議學(xué)時(shí)為50學(xué)時(shí),具體分布見(jiàn)下表。

    章節 建議學(xué)時(shí)

    數據清洗簡(jiǎn)介 4

    數據清洗中的理論基礎 6

    文件格式及其轉換 6

    Excel數據清洗 4

    Kettle數據清洗 8

    Kettle與數據倉庫 6

    Python數據清洗 12

    數據清洗綜合實(shí)訓 4

    本書(shū)由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫(xiě)第1章和第2章并負責統稿工作,劉智楊編寫(xiě)第3章,孫大松編寫(xiě)第4 章,陳勇編寫(xiě)第5章和第6章,王曙光編寫(xiě)第7章,劉廣敏編寫(xiě)第8章。

    在本書(shū)編寫(xiě)過(guò)程中,編者得到了中國電信金融行業(yè)信息化應用重慶基地總經(jīng)理助理楊琛的大力支持,同時(shí)參閱了大量相關(guān)資料,在此一并表示感謝。

    由于編者水平有限,書(shū)中難免存在疏漏甚至錯誤之處,懇請讀者批評指正,編者電子郵箱:2103069667@qq.com。

    編 者

    2021年10月

    前言
    第1章 數據清洗簡(jiǎn)介 1
    1.1 數據清洗概述 2
    1.1.1 什么是數據清洗 2
    1.1.2 數據清洗的原理 2
    1.1.3 數據清洗的過(guò)程 3
    1.2 數據質(zhì)量管理 5
    1.2.1 數據質(zhì)量管理的含義 5
    1.2.2 數據質(zhì)量的評估 6
    1.2.3 數據質(zhì)量管理應用 7
    1.3 數據清洗模型研究 8
    1.3.1 數據清洗模型描述 8
    1.3.2 數據清洗模型應用 9
    1.4 數據清洗常用軟件與工具 9
    1.4.1 數據清洗常用軟件 9
    1.4.2 數據清洗常用工具 11
    1.5 實(shí)訓 11
    練習1 13
    第2章 數據清洗中的理論基礎 14
    2.1 微積分 15
    2.1.1 微積分概述 15
    2.1.2 微積分的作用 15
    2.2 線(xiàn)性代數 15
    2.2.1 線(xiàn)性代數概述 16
    2.2.2 線(xiàn)性代數的定義 16
    2.3 概率論與數理統計 21
    2.3.1 概率論與數理統計概述 21
    2.3.2 概率論與數理統計基本概念 21
    2.4 最優(yōu)化理論 26
    2.4.1 最優(yōu)化理論定義 26
    2.4.2 凸函數 26
    2.5 主成分分析 27
    2.5.1 主成分分析概述 27
    2.5.2 主成分分析的實(shí)現 27
    2.6 數據清洗常見(jiàn)算法 28
    2.6.1 哈希算法 29
    2.6.2 字符串匹配算法 29
    2.6.3 聚類(lèi)算法 31
    2.7 實(shí)訓 33
    練習2 34
    第3章 文件格式及其轉換 35
    3.1 文件格式概述 36
    3.1.1 文件格式簡(jiǎn)介 36
    3.1.2 Windows中常見(jiàn)的文件格式介紹 36
    3.2 數據類(lèi)型與字符編碼 37
    3.2.1 數據類(lèi)型 37
    3.2.2 字符編碼 37
    3.3 跨平臺數據傳輸格式 38
    3.3.1 XML 38
    3.3.2 JSON 39
    3.4 Kettle中文件格式的運行與轉換 40
    3.4.1 文本文件的轉換 41
    3.4.2 XML文件的轉換 43
    3.4.3 JSON文件的轉換 46
    3.4.4 CSV文件的轉換 48
    3.5 實(shí)訓 50
    練習3 56
    第4章 Excel數據清洗 57
    4.1 認識Excel 58
    4.1.1 Excel介紹 58
    4.1.2 Excel數據清洗的特點(diǎn) 58
    4.2 Excel數據清洗基本操作 58
    4.2.1 Excel數據工具的認識 58
    4.2.2 Excel數據工具的應用 59
    4.3 使用Excel中的函數進(jìn)行數據清洗 65
    4.3.1 Excel中的函數介紹 65
    4.3.2 Excel函數的具體應用 66
    4.4 實(shí)訓 70
    練習4 71
    第5章 Kettle數據清洗 72
    5.1 Kettle數據清洗概述 73
    5.1.1 Kettle數據清洗簡(jiǎn)介 73
    5.1.2 Kettle數據清洗的認識 73
    5.2 Kettle數據清洗基礎 74
    5.2.1 Kettle數據清洗基本操作 75
    5.2.2 Kettle數據清洗的實(shí)現 75
    5.3 實(shí)訓 94
    練習5 105
    第6章 Kettle與數據倉庫 106
    6.1 數據倉庫概述 107
    6.1.1 什么是數據倉庫 107
    6.1.2 數據倉庫的特點(diǎn) 107
    6.2 Kettle中的數據倉庫相關(guān)技術(shù) 107
    6.2.1 Kettle連接數據庫 107
    6.2.2 Kettle成功連接數據庫的其他操作 109
    6.3 Kettle在數據倉庫中的應用 111
    6.3.1 Kettle讀取數據庫 111
    6.3.2 Kettle遷移數據庫 115
    6.4 實(shí)訓 117
    練習6 119
    第7章 Python數據清洗 120
    7.1 Python數據清洗概述 121
    7.1.1 Python數據清洗簡(jiǎn)介 121
    7.1.2 Python擴展庫的安裝與導入 121
    7.2 Python數據清洗基礎 122
    7.2.1 NumPy庫的使用 122
    7.2.2 Pandas庫的使用 128
    7.3 機器學(xué)習中的數據清洗 149
    7.3.1 Seaborn庫 149
    7.3.2 對機器學(xué)習中的數據集進(jìn)行分析清洗 152
    7.4 Python中的時(shí)間序列 154
    7.4.1 時(shí)間序列基礎datetime 154
    7.4.2 Pandas中的日期與時(shí)間工具 156
    7.5 實(shí)訓 157
    練習7 165
    第8章 數據清洗綜合實(shí)訓 166
    8.1 Kettle輸入記錄排序 167
    8.2 Kettle數據流優(yōu)先級排序 171
    8.3 Kettle生成記錄排序 175
    8.4 使用Python清洗數據 178
    8.5 Python讀取CSV文檔 180
    參考文獻 186
最新評論共有 0 位網(wǎng)友發(fā)表了評論
發(fā)表評論
評論內容:不能超過(guò)250字,需審核,請自覺(jué)遵守互聯(lián)網(wǎng)相關(guān)政策法規。
用戶(hù)名: 密碼:
匿名?
注冊
长兴县| 丽水市| 竹山县| 阳曲县| 长顺县| 余庆县| 西峡县| 基隆市| 通城县| 贞丰县| 崇信县| 石屏县| 界首市| 桃园县| 任丘市| 慈溪市| 屯昌县| 乌兰浩特市| 庄浪县| 南江县| 济南市| 敦化市| 武川县| 东乌珠穆沁旗| 平和县| 精河县| 康乐县| 阿克陶县| 鹤岗市| 陆川县| 盐边县| 巍山| 绵阳市| 冷水江市| 石家庄市| 娱乐| 镇康县| 涿鹿县| 榆林市| 大名县| 屏南县|