大数据、机器学习及人工智能必读书目——《数学之美》

x
用微信扫描二维码
分享至好友和朋友圈

  计分析、机器学习即人工智能必读书目系列之数学之美

  

我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经渗透到每一个行业和业务领域,成为当今以及未来商业运作的基础资产。可以说,只有掌握数据并善于运用数据的人,才会在竞争日益激烈的环境中寻得先机。 那么我们该怎么样学习大数据分析、机器学习以及人工智能?对于这个问题,不同的人有不同的看法,这里简单谈一下自己的看法。作者认为,学习大数据、机器学习和人工智能,所需的知识分为四个层次,一是数学知识;二是统计学知识;三是算法知识;四是工具知识。五是哲学知识。我们会分别介绍这五个层次所需要看的书,希望对大家有用。

  一、数学之美

  

  “数学之美”系列文章原刊载于谷歌黑板报,2012年由人民邮电出版社,2014年再版。作者为吴军博士,毕业于清华大学(本科、硕士)和美国约翰·霍普金斯大学(博士)。在清华大学和约翰·霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。曾任腾讯公司主管搜索、在线广告和云计算基础架构的副总裁。

  吴军博士在数学之美中,将高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。通过具体实例教会读者在解决问题时如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新等。可以说,读过这本书,你也许才会第一次真切地体会到数学原来并不只是枯燥的考试题,数学真正蕴含着人类的认知之美,而且与我们的生活息息相关,非常的有用。

  在读这本书之前,作者本来以为这是一本充满各种数学专业术语的书。然而,让作者非常震撼的是,吴军博士以高屋建瓴、深入浅出的架构,用非常通俗的语言将自然语言处理、统计语言模型、马尔科夫链、贝叶斯网络等等前沿高深的理论解释的非常强出,让您一下子就能把握住其中潜藏的美,让作者一下子将之前全部还给老实的高等数学知识由有机联系起来,并有了更加深入的理解。

  不说了,再多的溢美之词都无法形容我对这本书的喜爱,上目录。

  数学之美(第二版) 目录:

  第一版读者赞誉

  第二版出版说明

  第一版序言

  第二版序言

  第二版前言

  第1章 文字和语言 vs 数字和信息

  1 信息

  2 文字和数字

  3 文字和语言背后的数学

  4 小结

  第2章 自然语言处理——从规则到统计 15

  1 机器智能

  2 从规则到统计

  3 小结

  第3章 统计语言模型 27

  1 用数学的方法描述语言规律

  2 延伸阅读:统计语言模型的工程诀窍

  3 小结

  第4章 谈谈分词 41

  1 中文分词方法的演变

  2 延伸阅读:如何衡量分词的结果

  3 小结

  第5章 隐含马尔可夫模型 50

  1 通信模型

  2 隐含马尔可夫模型

  3 延伸阅读:隐含马尔可夫模型的训练

  4 小结

  第6章 信息的度量和作用 60

  1 信息熵

  2 信息的作用

  3 互信息

  4 延伸阅读:相对熵

  5 小结

  第7章 贾里尼克和现代语言处理 72

  1 早年生活

  2 从水门事件到莫妮卡·莱温斯基

  3 一位老人的奇迹

  第8章 简单之美——布尔代数和搜索引擎 82

  1 布尔代数

  2 索引

  3 小结

  第9章 图论和网络爬虫 89

  1 图论

  2 网络爬虫

  3 延伸阅读:图论的两点补充说明

  4 小结

  第10章 PageRank——Google的民主表决式网页排名技术 98

  1 PageRank 算法的原理

  2 延伸阅读:PageRank的计算方法

  3 小结

  第11章 如何确定网页和查询的相关性 104

  1 搜索关键词权重的科学度量TF—IDF

  2 延伸阅读:TF—IDF的信息论依据

  3 小结

  第12章 有限状态机和动态规划——地图与本地搜索的核心技术 111

  1 地址分析和有限状态机

  2 全球导航和动态规划

  3 延伸阅读:有限状态传感器

  4 小结

  第13章 Google AK—47的设计者——阿米特·辛格博士 121

  第14章 余弦定理和新闻的分类 127

  1 新闻的特征向量

  2 向量距离的度量

  3 延伸阅读:计算向量余弦的技巧

  4 小结

  第15章 矩阵运算和文本处理中的两个分类问题 136

  1 文本和词汇的矩阵

  2 延伸阅读:奇异值分解的方法和应用场景

  3 小结

  第16章 信息指纹及其应用 142

  1 信息指纹

  2 信息指纹的用途

  3 延伸阅读:信息指纹的重复性和相似哈希

  4 小结

  第17章 由电视剧《暗算》所想到的——谈谈密码学的数学原理 153

  1 密码学的自发时代

  2 信息论时代的密码学

  3 小结

  第18章 闪光的不一定是金子——谈谈搜索引擎反作弊问题和搜索结果的权威性问题 162

  1 搜索引擎的反作弊

  2 搜索结果的权威性

  3 小结

  第19章 谈谈数学模型的重要性 171

  第20章 不要把鸡蛋放到一个篮子里——谈谈最大熵模型 177

  1 最大熵原理和最大熵模型

  2 延伸阅读:最大熵模型的训练

  3 小结

  第21章 拼音输入法的数学原理 186

  1 输入法与编码

  2 输入一个汉字需要敲多少个键——谈谈香农第一定理

  3 拼音转汉字的算法

  4 延伸阅读:个性化的语言模型

  5 小结

  第22章 自然语言处理的教父马库斯和他的优秀弟子们 197

  1 教父马库斯

  2 从宾夕法尼亚大学走出的精英们

  第23章 布隆过滤器 204

  1 布隆过滤器的原理

  2 延伸阅读:布隆过滤器的误识别问题

  3 小结

  第24章 马尔可夫链的扩展——贝叶斯网络 209

  1 贝叶斯网络

  2 贝叶斯网络在词分类中的应用

  3 延伸阅读:贝叶斯网络的训练

  4 小结

  第25章 条件随机场、文法分析及其他 217

  1 文法分析——计算机算法的演变

  2 条件随机场

  3 条件随机场在其他领域的应用

  4 小结

  第26章 维特比和他的维特比算法 227

  1 维特比算法

  2 CDMA技术——3G移动通信的基础

  3 小结

  第27章 上帝的算法——期望最大化算法 238

  1 文本的自收敛分类

  2 延伸阅读:期望最大化和收敛的必然性

  3 小结

  第28章 逻辑回归和搜索广告 244

  1 搜索广告的发展

  2 逻辑回归模型

  3 小结

  第29章 各个击破算法和Google云计算的基础 249

  1 分治算法的原理

  2 从分治算法到MapReduce

  3 小结

  第30章 Google大脑和人工神经网络 254

  1 人工神经网络

  2 训练人工神经网络

  3 人工神经网络与贝叶斯网络的关系

  4 延伸阅读:Google大脑

  5 小结

  第31章 大数据的威力——谈谈数据的重要性 273

  1 数据的重要性

  2 数据的统计和信息技术

  3 为什么需要大数据

  4 小结

  附录 计算复杂度 295

  第二版后记 299

  索引 302

  书中一些经典的语句摘录如下:

  1.不同的文明,因为地域的原因,历史上相互隔绝,便会有不同的文字。随着文明的融合与冲突,不同文明下的人们需要交流,或者说通信,那么翻译的需求便产生了。翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息的能力上是等价的。

  2.基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至是相同的。因此,在数学意义上自然语言处理又和语言的初衷--通信联系在了一起。

  3.自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关特性建立数学模型。这个数学模型就是自然语言处理中常说的统计语言模型,它是今天所有自然语言处理的基础,并且广泛应用与机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。

  4.自古以来,信息和消除不确定性是相联系的。信息是消除系统不确定性的唯一办法。 一个事物内部存在着随机性,也就是不确定性,假定为U,而从外部消除这个不确定性唯一的办法是引入信息I,而引入的信息量取决于这个不确定性的大小,即I>U才行。当I<U时,这些信息可以消除一部分不确定性,也就是说新的不确定性U'=U=I。

  喜欢闲适安静的生活,懂一点计算机编程,懂一点统计学和数据分析。(爱编程爱统计)

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

跟贴 跟贴 0 参与 0
© 1997-2019 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 网站地图 | 意见反馈 | 不良信息举报

爱编程爱统计

专注儿童编程与数据分析

头像

爱编程爱统计

专注儿童编程与数据分析

10

篇文章

129

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码