《数据挖掘技术与应用》教学大纲一、课程性质与地位
本课程属于专业核心课程,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。通过该课程学习,使学生掌握数据挖掘的技术与应用,结合实际的操作实验,巩固课堂教学内容,使学生掌握从数据中提取有价值的知识,进一步提高信息量利用率,以自动、智能和快速地分析海量的原始数据,以使数据得以充分利用能力。
二、课程设置知识要求、能力要求及达成目标
课程设置知识要求:数据采集集成与预处理,数据分析与组织,各种数据挖掘模型的原理、算法步骤与实际应用过程。
课程设置能力要求:建立以及评估模型的预测质量的方法,并且使用数据挖掘工作平台python进行解析,数据挖掘的基本理论与实践方法。主要内容包括:各种模型(决策树,关联规则、线性模型、聚类、贝叶斯网以及神经网络)以及在实践中的运用
课程达成目标:培养学生了解数据挖掘产生的背景、技术、多种相关方法及具体应用,能够学会数据挖掘的知识推理,并具备使用数据挖掘算法在传统领域与新领域中实现实现价值的提取与应用。
三、课程教学内容与要求
第一章 数据挖掘概述
教学内容:
1.数据挖掘发展简述
2.数据挖掘的功能与价值实现
3.数据挖掘的典型应用领域
4.数据挖掘的研究方向
教学要求:
1. 学生对数据挖掘有初步的认识
2. 学生对数据挖掘可应用领域有认识
3. 学生对数据挖掘流程初步掌握
第二章 Pandas
教学内容:
1.Pandas入门基础
2.股票数据分析
教学要求:
1.学生对pandas有所认识
2.学生能对简单案例进行数据挖掘分析
第三章 数据挖掘与机器学习
教学内容:
1.数据挖掘中的机器学习
2.机器学习的模型
3.模型的评判
4.支持向量机
5.过拟合问题
教学要求:
1.学生对机器学习有初步认识
2.学生对框架有了解
3.学生掌握机器学习在数据挖掘中的运用能力
第四章 分类分析方法与应用
教学内容:
1.数据挖掘分类问题
2.概论模型
3.朴素贝叶斯分类
4.空间向量模型
5.knn算法
6.多类问题
教学要求:
1.学生对分类分析有初步认识
2.学生对分类分析算法原理与结果了解
3.学生掌握对数据初步分类挖掘的操作能力
第五章 无监督学习算法
教学内容:
1.数据挖掘的聚类问题
2.扁平聚类
3.k均值算法
4.层次聚类
5.全链接,组平均,质心聚类
6.降维算法
教学要求:
1.学生对聚类分析有初步认识
2.学生对聚类分析算法原理与结果了解
3.学生掌握对数据初步聚类挖掘的操作能力
第六章 回归模型算法与应用
教学内容:
1.回归预测问题
2.线性回归
3.多元回归问题
4.逻辑回归
教学要求:
1.学生对回归模型有初步认识
2.学生对回归模型算法原理与结果了解
3.学生掌握对数据初步的回归模型的操作能力
第七章 集成学习
教学内容:
1.数据挖掘中多模型数据挖掘问题
2.决策树
3.随机森林
4.Adaboost算法
教学要求:
1.学生对多模型算法有初步认识
2.学生对多模型算法原理与结果了解
3.学生掌握集成学习在数据挖掘中的运用能力
第八章 关联规则模型及应用
教学内容:
1.相关规则
2.apriori算法
3.协同过滤(基于item)
4.协同过滤(基于users)
教学要求:
1.学生对关联规则有初步认识
2.学生对关联规则算法原理与结果了解
3.学生掌握对数据初步关联规则挖掘的操作能力
第九章 图像数据分析
教学内容:
1.图像大数据分析
2.图像数据分析案例
教学要求:
1. 学生对图像数据有初步认识
2. 学生对图像数据具备初步分析能力
3. 学生对图像数据具备操作能力
第十章 文本数据分析
教学内容:
1.文本数据分析
2.NLTK的使用
3.使用NLTK进行文本分析案例
教学要求:
1. 学生对文本数据有初步认识
2. 学生对文本数据具备初步分析能力
3. 学生对文本数据具备操作能力
四、课程重点及难点
课程重点:
1. 建立以及评估模型的预测质量的方法
2. 使用数据挖掘工作平台python进行解析
课程难点:
1. 分类、关联规则、聚类
2. 数据挖掘的基本理论与实践方法
3. 各种模型(决策树,关联规则、线性模型、聚类、贝叶斯网以及神经网络)以及在实践中的运用
五、学时分配表
| 序号 | 教 学 内 容 | 学时 | 备注 |
| 讲授 | 实验 | 上机 |
| 1 | 数据挖掘概述 | 2课时 | | 2课时 | |
| 2 | Pandas | 3课时 | | 3课时 | |
| 3 | 数据挖掘与机器学习 | 3课时 | | 3课时 | |
| 4 | 分类分析方法与应用 | 3课时 | | 3课时 | |
| 5 | 无监督学习算法 | 3课时 | | 3课时 | |
| 6 | 回归模型算法与应用 | 4课时 | | 4课时 | |
| 7 | 集成学习 | 4课时 | | 4课时 | |
| 8 | 关联规则模型及应用 | 4课时 | | 4课时 | |
| 9 | 图像数据分析 | 3课时 | | 3课时 | |
| 10 | 文本数据分析 | 3课时 | | 3课时 | |
| 合 计 | 32 | | 32 | |
六、课程考核与成绩评定本课程为考查课,考核方式采用笔试,闭卷;
总评成绩为:考试成绩(60%)+ 平时成绩(40%);
平时成绩主要由学生的出勤(40%)和作业(60%)情况进行评定。