人工智能(néng)-Python+Spark数据挖掘实战大纲

人工智能(néng)-Python+Spark数据挖掘实战大纲
    马上咨询


    尹老师  资深软件架构师,移动云计算专家

    多(duō)年从事大数据、云计算研发工作经验,数學(xué)博士,北航移动云计算硕士,资深软件架构师,移动云计算专家,主要研究方向包括云计算、大数据、移动开发、互联网营销、電(diàn)子商(shāng)務(wù)、项目管理(lǐ)等;某大型知名企业首席架构,负责PaaS平台研发。

    IT从业近二十年,秉承理(lǐ)论与实践相结合,在學(xué)习中实践,在实践中學(xué)习,积累了丰富的理(lǐ)论与实践经验,并且乐于将自己的经验分(fēn)享。尹老师具有(yǒu)敏锐的目光与头脑,发现并集成整合社会资源,為(wèi)企业节省资源并创造价值,达到為(wèi)合作伙伴创收的目的。曾為(wèi)多(duō)家國(guó)内知名企业提供培训与咨询,包含阿里集团、阿尔卡特朗讯、中國(guó)移动、中國(guó)電(diàn)信、当当网、中石油、中航國(guó)际等。拥有(yǒu)大数据、大流量、高并发、分(fēn)布式的大型网站架构和设计经验。曾主导过多(duō)个私有(yǒu)云建设项目,早些年也主导过ERP、CMS等软件项目,这些项目中包含多(duō)个数百万、上千万的大型项目。

    在工作中研究新(xīn)技术、新(xīn)框架、及时更新(xīn)知识體(tǐ)系,并長(cháng)期坚持编写架构核心代码。在技术平台方面,善于Hadoop、Spark、Docker、OpenStack、Storm等技术平台的应用(yòng)与运维。深入理(lǐ)解Hadoop、HDFS、HBase、MapReduce、Zookeeper、Hive、Sqoop、BigTable 等大数据技术和开源框架理(lǐ)论。对于云计算體(tǐ)系有(yǒu)深刻认识,及独到的见解,如OpenStack的技术架构、安装部署、运维等。在移动云计算方面,善于设计与建设云计算體(tǐ)系;也善于移动云计算相关的咨询与培训。在项目管理(lǐ)方面,善于使用(yòng)敏捷项目管理(lǐ)方法,把客户的需求变更作為(wèi)常态,作為(wèi)软件架构设计的一部分(fēn),减少需求变更带来的返工;善于捕捉、挖掘、分(fēn)析客户需求,為(wèi)用(yòng)户提供满意的产品,项目经历:贵州省政府云呼叫中心建设项目、广东发展银行電(diàn)营、运维大数据分(fēn)析项目、中石油工程设计西南分(fēn)公司云计算项目评审委员、中石油大数据挖掘项目,電(diàn)商(shāng)库存预测大数据分(fēn)析项目、大型ERP、電(diàn)子商(shāng)務(wù)、CRM、電(diàn)子政務(wù)等多(duō)个项目。

    2015年到2018年着重在AI人工智能(néng)方向研究,曾给平安,中國(guó)银行培训过。

    课程简介

    本课程是关于Python+Spark与深度學(xué)习实战的一门课程。本课程讲解Python+Spark中各种概念、操作和使用(yòng)方法,针对Python+Spark的基础知识,在传统数据分(fēn)析中应用(yòng)、CNN和RNN都进行详细讲解,并且给出了丰富的深度學(xué)习模型实战。

    目标收益

    通过本课程的學(xué)习,學(xué)员们能(néng)够在短时间内掌握深度學(xué)习原理(lǐ),學(xué)会使用(yòng)Python+Spark构建深度學(xué)习网络的技巧和方法,能(néng)够在图像识别、序列预测等深度學(xué)习项目上迅速入手。

    培训对象

    本课程适合从事数据分(fēn)析、数据挖掘、大数据分(fēn)析师和算法工程师等相关方面工作的學(xué)员。

    课程内容

    模块一:数据挖掘入门介绍

    • 人工智能(néng)概述
    • 什么是机器學(xué)习
    • 机器學(xué)习算法分(fēn)类
    • 机器學(xué)习开发流程
    • 學(xué)习框架和资料介绍
    • 可(kě)用(yòng)数据集
    • sklearn数据集使用(yòng)

    模块二:数据挖掘介绍

    • 数据挖掘技术介绍
    • 数据挖掘应用(yòng)场景介绍
    • 数据挖掘常用(yòng)的算法介绍
    • 数据挖掘应用(yòng)架构
    • 数据挖掘流程CRISP-DM模型介绍
    • 数据挖掘流程方法论介绍

    模块三:数据特征工程构建

    • 数据特征工程构建方法论
    • 字典特征抽取
    • 文(wén)本特征抽取CountVectorizer
    • 中文(wén)文(wén)本特征抽取
    • 文(wén)本特征抽取TfidfVevtorizer
    • 数据预处理(lǐ)-归一化
    • 数据预处理(lǐ)-标准化
    • 什么是降维
    • 删除低方差特征与相关系数
    • instacart降维案例
    • 主成分(fēn)分(fēn)析

    模块四:核心数据挖掘算法详解和实战

    • 转换器与预估器
    • KNN算法
    • 模型选择与调优
    • 朴素贝叶斯算法对文(wén)本分(fēn)类
    • 朴素贝叶斯算法原理(lǐ)
    • 认识决策树
    • 决策树算法对鸢尾花(huā)分(fēn)类
    • 泰坦尼克号乘客分(fēn)类案例流程分(fēn)析
    • 泰坦尼克号案例代码实现
    • 随机森林算法原理(lǐ)和调优

    模块五:模型优化实战

    • 损失函数
    • 線(xiàn)性模型
    • 优化方法1-正规方程
    • 梯度下降优化器
    • 正规方程与梯度下降对比
    • 优化方法2-梯度下降
    • 逻辑回归原理(lǐ)
    • 岭回归
    • 过拟合与欠拟合
    • 模型保存与加载
    • ROC曲線(xiàn)与AUC指标
    • 精确率、召回率、F1-score
    • 逻辑回归分(fēn)类案例实战
    • 聚类的模型评估
    • KMeans算法原理(lǐ)

    模块六:Spark使用(yòng)实战

    • Spark的编程模型
    • Spark编程模型解析
    • Partition实现机制
    • RDD的特点、操作、依赖关系
    • Transformation RDD详解
    • Action RDD详解
    • Spark的累加器详解
    • Spark的广播变量详解
    • Spark容错机制
    • lineage和checkpoint详解
    • Spark的运行方式
    • Spark的Shuffle原理(lǐ)详解
    • —Sort-Based原理(lǐ)
    • —Hash-Based原理(lǐ)
    • Spark3.0的新(xīn)特性
    • Spark DataFrame和DateSet介绍

    模块七:Spark SQL原理(lǐ)和实践

    • Spark SQL原理(lǐ)
    • Spark SQL的Catalyst优化器
    • Spark SQL内核
    • Spark SQL和Hive
    • DataFrame和DataSet架构
    • Fataframe、DataSet和Spark SQL的比较
    • SparkSQL parquet格式实战
    • Spark SQL的实例和编程
    • Spark SQL的实例操作demo
    • Spark SQL的编程

    模块八:Python+Spark数据挖掘实战

    • PySpark的原理(lǐ)和安装
    • PySpark特征工程构建
    • 基于PySpark实战决策树、贝叶斯、随机森林、聚类等
    • PySpark的优化