天天操让人看日日舔|乱中年女人伦中文字幕久久|无码欧XXXXX在线观看免费|欧美精品v国产精品v|久久精品一区二区三区资源网,在线观着免费观看国产黄

熱門(mén)關(guān)鍵字:  聽(tīng)力密碼  聽(tīng)力密碼  新概念美語(yǔ)  單詞密碼  巧用聽(tīng)寫(xiě)練聽(tīng)力

語(yǔ)音識別理論與實(shí)踐

中國水利水電出版社
    【作 者】主編 莫宏偉 【I S B N 】978-7-5226-1902-6 【責任編輯】高輝 【適用讀者群】本科 【出版時(shí)間】2023-11-23 【開(kāi) 本】16開(kāi) 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁(yè) 數】188 【千字數】257 【印 張】11.75 【定 價(jià)】42 【叢 書(shū)】普通高等教育人工智能專(zhuān)業(yè)系列教材 【備注信息】
圖書(shū)詳情

    內 容 提 要

    本書(shū)主要介紹語(yǔ)音識別原理及其相關(guān)應用。全書(shū)共9章,分為五大部分:第一部分(第1章)介紹語(yǔ)音識別的發(fā)展歷史和語(yǔ)音識別領(lǐng)域常用的數據集與工具箱;第二部分(第2章)介紹在語(yǔ)音識別領(lǐng)域常用的語(yǔ)音信號基礎知識和聲學(xué)特征的提取;第三部分(第3章至第7章)詳細介紹語(yǔ)音識別的聲學(xué)模型、語(yǔ)言模型、解碼工具,并對語(yǔ)音識別領(lǐng)域的研究熱點(diǎn)(端到端語(yǔ)音識別)進(jìn)行探討;第四部分(第8章)利用語(yǔ)音識別開(kāi)源工具包Kaldi進(jìn)行語(yǔ)音識別實(shí)戰,包括Kaldi的安裝以及如何訓練aishell語(yǔ)音識別工程;第五部分(第9章)結合序列到序列的語(yǔ)音識別模型和序列到序列的問(wèn)答模型來(lái)構建語(yǔ)音交互系統。

    本書(shū)既可作為計算機科學(xué)與技術(shù)、電子科學(xué)與技術(shù)、控制工程與科學(xué)、智能科學(xué)與技術(shù)等專(zhuān)業(yè)的本科教材和研究生教材,也可供從事語(yǔ)音識別、人工智能等研究的科研人員參考。

    精選內容 系統介紹語(yǔ)音識別原理及相關(guān)應用,突出研究熱點(diǎn)。

    配合實(shí)戰 結合語(yǔ)音識別模式和問(wèn)答模型構建語(yǔ)音交互系統,理論結合實(shí)踐。

    配套資源 配有微課視頻,讀者可掃碼觀(guān)看學(xué)習。

    前  言

    隨著(zhù)科技的發(fā)展和社會(huì )的進(jìn)步,人工智能產(chǎn)品已經(jīng)廣泛應用于各個(gè)領(lǐng)域,其中語(yǔ)音識別技術(shù)得到了廣泛應用。語(yǔ)音識別是一種將語(yǔ)音信號轉化為可識別的文本形式的技術(shù),其研究領(lǐng)域包括聲音特征提取、語(yǔ)音識別、自然語(yǔ)言理解等多個(gè)方面。

    語(yǔ)音識別技術(shù)在現代醫療中也得到了廣泛應用。醫療工作者需要對患者的語(yǔ)音信息進(jìn)行分析,以便對病情進(jìn)行診斷和治療。利用語(yǔ)音識別技術(shù),可以快速準確地將語(yǔ)音信息轉換為文本,為醫護人員提供更高效、更便捷的工作方式。

    通過(guò)搭建神經(jīng)網(wǎng)絡(luò )和利用深度學(xué)習算法,人工智能系統可以對大量的語(yǔ)音信號進(jìn)行訓練以獲得準確識別語(yǔ)音的能力。醫療工作者可以通過(guò)語(yǔ)音識別技術(shù)對患者的語(yǔ)音信息進(jìn)行分析,以獲得關(guān)鍵的醫療數據。這種技術(shù)可以大大提高醫護人員的工作效率和診療質(zhì)量。

    在醫療領(lǐng)域,語(yǔ)音識別技術(shù)也被用于智能醫療助理、醫療記錄、藥品管理等方面。醫護人員可以通過(guò)語(yǔ)音命令快速地完成醫療記錄和藥品管理等任務(wù),提高醫療工作的效率和準確性。

    隨著(zhù)語(yǔ)音技術(shù)的不斷提升,語(yǔ)音識別在機器人領(lǐng)域也逐漸開(kāi)始發(fā)揮重要作用。將人工智能技術(shù)與語(yǔ)音識別技術(shù)相結合可以實(shí)現智能語(yǔ)音交互,使機器人能夠更好地理解人類(lèi)語(yǔ)言,并且能夠進(jìn)行語(yǔ)音指令的識別、理解和響應。這種技術(shù)不僅能夠提高機器人的使用體驗,還能夠降低用戶(hù)對使用機器人的技術(shù)門(mén)檻,同時(shí)能夠在一定程度上減少人類(lèi)操作機器人的誤操作問(wèn)題。

    此外,利用語(yǔ)音識別技術(shù)還可以實(shí)現自然語(yǔ)言的語(yǔ)音合成,使機器人能夠通過(guò)語(yǔ)音向用戶(hù)提供反饋信息。這種技術(shù)不僅可以提高機器人的交互能力,而且可以增加機器人與人類(lèi)之間的情感聯(lián)系。

    本書(shū)是在作者近三年圍繞用于移動(dòng)機器人的語(yǔ)音識別技術(shù)所開(kāi)展的相關(guān)研究和開(kāi)發(fā)工作基礎上編寫(xiě)而成的,首先介紹了語(yǔ)音識別的發(fā)展歷史和語(yǔ)音識別領(lǐng)域常用數據集與工具箱;其次介紹了在語(yǔ)音識別領(lǐng)域常用的語(yǔ)音信號基礎知識和聲學(xué)特征的提取;隨后介紹了語(yǔ)音識別的聲學(xué)模型、語(yǔ)言模型、解碼工具,并對語(yǔ)音識別領(lǐng)域的研究熱點(diǎn)(端到端語(yǔ)音識別)進(jìn)行探討;最后利用語(yǔ)音識別開(kāi)源工具包Kaldi進(jìn)行語(yǔ)音識別實(shí)戰,包括Kaldi的安裝以及如何訓練aishell語(yǔ)音識別工程,結合序列到序列的語(yǔ)音識別模型和序列到序列的問(wèn)答模型來(lái)構建可用于移動(dòng)機器人的語(yǔ)音交互系統。

    本書(shū)在介紹主要知識和方法后提供了適量的習題,使讀者不僅能掌握一些初級的知識和方法,還能進(jìn)一步掌握語(yǔ)音識別原理及相關(guān)技術(shù),加深理解。

    本書(shū)由莫宏偉任主編,徐立芳任副主編。感謝袁志龍、閆景運、周紅亮、郭子穎、溫峰、張圣胤、張茜、胡家家等同學(xué)在內容編寫(xiě)和圖片繪制方面提供的協(xié)助。

    由于編者水平所限,書(shū)中難免存在不妥甚至錯誤之處,懇請讀者批評指正。

    編 者

    2023年5月

    目錄
    前言
    第1章 緒論 1
    1.1 語(yǔ)音識別簡(jiǎn)史 2
    1.1.1 語(yǔ)音識別早期探索 2
    1.1.2 概率模型一統江湖 2
    1.1.3 神經(jīng)網(wǎng)絡(luò )異軍突起 3
    1.1.4 商業(yè)應用推波助瀾 5
    1.2 國內發(fā)展現狀 6
    1.3 語(yǔ)音識別框架 9
    1.3.1 經(jīng)典方法 9
    1.3.2 概率模型 10
    1.3.3 深度神經(jīng)網(wǎng)絡(luò )—隱馬爾可夫(DNN-HMM)模型 12
    1.3.4 端到端語(yǔ)音識別 12
    1.4 開(kāi)源工具與數據集 14
    1.4.1 深度學(xué)習框架 14
    1.4.2 開(kāi)源工具 19
    1.4.3 數據集 19
    本章小結 19
    課后習題 20
    第2章 語(yǔ)音基礎知識 21
    2.1 語(yǔ)音信號基礎 21
    2.1.1 聲波的特性 22
    2.1.2 聲音的采集裝置 22
    2.1.3 聲音的采樣 24
    2.1.4 聲音的量化 25
    2.1.5 語(yǔ)音的編碼 26
    2.2 聲學(xué)特征提取 29
    2.2.1 預處理 29
    2.2.2 傅里葉變換 30
    2.2.3 聽(tīng)覺(jué)特性 31
    2.2.4 線(xiàn)性預測 32
    2.2.5 倒譜分析 33
    2.2.6 聲學(xué)特征 34
    本章小結 36
    課后習題 36
    第3章 聲學(xué)模型 37
    3.1 高斯混合模型 38
    3.1.1 概率統計 38
    3.1.2 高斯分布 39
    3.1.3 GMM的組成和表示 40
    3.2 隱馬爾可夫模型 43
    3.2.1 隱馬爾可夫模型基本概念 43
    3.2.2 隱馬爾可夫模型的定義 45
    3.2.3 隱馬爾可夫模型的三個(gè)基本問(wèn)題 46
    3.3 高斯混合模型—隱馬爾可夫模型 52
    3.4 基于隱馬爾可夫模型的語(yǔ)音識別 55
    3.4.1 建模單元 55
    3.4.2 發(fā)音過(guò)程與隱馬爾可夫模型狀態(tài) 57
    3.4.3 串接隱馬爾可夫模型 58
    本章小結 61
    課后習題 61
    第4章 語(yǔ)言模型 62
    4.1 n-gram模型 64
    4.2 評價(jià)指標 67
    4.3 平滑技術(shù) 68
    4.3.1 Good-Turing折扣法 68
    4.3.2 Jelinek-Mercer插值法 69
    4.3.3 Kneser-Ney插值法 69
    4.3.4 Katz回退法 70
    4.4 語(yǔ)言模型的訓練 72
    4.5 預訓練語(yǔ)言模型 74
    4.5.1 基于自回歸語(yǔ)言模型的預訓練技術(shù) 76
    4.5.2 基于自編碼語(yǔ)言模型的預訓練技術(shù) 78
    4.5.3 基于序列到序列語(yǔ)言模型的預訓練技術(shù) 79
    4.5.4 基于前綴語(yǔ)言模型的預訓練技術(shù) 80
    4.5.5 基于排列語(yǔ)言模型的預訓練技術(shù) 82
    4.5.6 預訓練技術(shù)的改進(jìn)方法 83
    本章小結 84
    課后習題 84
    第5章 加權有限狀態(tài)解碼器 85
    5.1 基于動(dòng)態(tài)網(wǎng)絡(luò )的Viterbi解碼 86
    5.2 加權有限狀態(tài)轉換器理論 89
    5.2.1 基本概念 89
    5.2.2 半環(huán) 93
    5.3 HCLG構建 95
    5.3.1 語(yǔ)料準備 95
    5.3.2 構建語(yǔ)法模型 96
    5.3.3 構建發(fā)音詞典模型 97
    5.3.4 合并發(fā)音詞典與語(yǔ)法模型 99
    5.3.5 構建上下文模型與發(fā)音詞典模型和語(yǔ)法模型 100
    5.3.6 構建HCLG 100
    本章小結 101
    課后習題 102
    第6章 深度神經(jīng)網(wǎng)絡(luò )模型 103
    6.1 深度學(xué)習 104
    6.2 神經(jīng)網(wǎng)絡(luò ) 105
    6.2.1 人腦神經(jīng)網(wǎng)絡(luò ) 105
    6.2.2 人工神經(jīng)網(wǎng)絡(luò ) 107
    6.2.3 神經(jīng)網(wǎng)絡(luò )的發(fā)展歷史 107
    6.2.4 深度神經(jīng)網(wǎng)絡(luò ) 109
    6.3 正向學(xué)習過(guò)程 111
    6.3.1 正向學(xué)習概述 112
    6.3.2 正向傳播的流程 112
    6.3.3 正向傳播的原理 113
    6.4 反向調整過(guò)程 115
    6.4.1 反向調整概述 115
    6.4.2 反向傳播過(guò)程詳解 116
    6.4.3 深層模型反向調整的問(wèn)題與對策 117
    6.5 神經(jīng)網(wǎng)絡(luò )結構 118
    6.5.1 卷積神經(jīng)網(wǎng)絡(luò ) 118
    6.5.2 長(cháng)短時(shí)記憶網(wǎng)絡(luò ) 121
    6.5.3 門(mén)控循環(huán)單元 123
    6.5.4 時(shí)延神經(jīng)網(wǎng)絡(luò ) 123
    本章小結 125
    課后習題 125
    第7章 端到端語(yǔ)音識別 126
    7.1 CTC 127
    7.2 RNN-T 130
    7.3 Encoder-Decoder框架和Attention模型 131
    7.4 Hybrid CTC/Attention 136
    7.5 Transformer 137
    本章小結 139
    課后習題 139
    第8章 Kaldi實(shí)戰 140
    8.1 下載與安裝Kaldi 141
    8.1.1 獲取源代碼 141
    8.1.2 編譯 141
    8.2 創(chuàng )建與配置基本的工程目錄 142
    8.3 aishell語(yǔ)音識別工程 143
    8.3.1 數據映射目錄準備 143
    8.3.2 詞典準備和lang目錄生成 145
    8.3.3 語(yǔ)言模型訓練 147
    8.3.4 聲學(xué)特征提取與倒譜均值歸一化 148
    8.3.5 聲學(xué)模型訓練與強制對齊 149
    8.3.6 解碼測試與指標計算 151
    本章小結 152
    課后習題 153
    第9章 語(yǔ)音交互系統 154
    9.1 語(yǔ)音識別模塊 154
    9.1.1 LAS 155
    9.1.2 Transformer 156
    9.1.3 數據分析 157
    9.1.4 LAS模型對比實(shí)驗  159
    9.1.5 Focal loss 161
    9.2 基于序列到序列模型的問(wèn)答系統 164
    9.2.1 數據分析 164
    9.2.2 詞向量 165
    9.2.3 模型設計 166
    9.2.4 實(shí)驗結果與分析 170
    9.3 語(yǔ)音交互系統的構建 171
    9.3.1 系統搭建 171
    9.3.2 系統測試 173
    本章小結 174
    課后習題 175
    參考文獻 176
    附錄 課后習題答案 178





最新評論共有 0 位網(wǎng)友發(fā)表了評論
發(fā)表評論
評論內容:不能超過(guò)250字,需審核,請自覺(jué)遵守互聯(lián)網(wǎng)相關(guān)政策法規。
用戶(hù)名: 密碼:
匿名?
注冊
高要市| 茂名市| 达日县| 繁峙县| 嘉荫县| 灵宝市| 朔州市| 汕尾市| 灵台县| 成都市| 甘洛县| 新丰县| 灵宝市| 牙克石市| 固原市| 远安县| 淳安县| 泸溪县| 白沙| 山阴县| 扎兰屯市| 崇仁县| 安福县| 农安县| 共和县| 天峨县| 正蓝旗| 乐至县| 柳林县| 临泽县| 区。| 温泉县| 买车| 平江县| 冕宁县| 博兴县| 周口市| 桐乡市| 临清市| 景宁| 巨鹿县|