数据市场支持在线更新,保证数据市场的永久使用权限,终端用户数需不 受限制. 数据思维与实训 在学生修完大数据通识/基础课的基础上,对大数据思维和能力方面进一步拓展学习,分为四大模块深入展开,包括数据源与数据湖模块、数据加工模块、分析挖掘模块、可视化模块。课程覆盖大数据深入全面的知识结构和技术体系,包括大数据全链路的各个环节:企业常见的各种数据源和汇集的方法、数据湖存储方法、业务数据的数据加工方法、数据分析和挖掘的算法、以及各种可视化手段。 一、数据源与数据湖 包括:关系型数据库、关系型数据库简介、关系型数据库应用场景、关系型数据库运行环境、关系型数据库数据存储结构和约束、关系型数据库写入数据、关系型数据库读取数据、关系型数据库删除和修改、小结 NoSQL、NoSQL简介、应用场景、运行环境、数据存储结构、写入数据、读取数据、删除和修改、优缺点、消息、简介、应用场景、运行环境、数据存储结构和约束、写入数据、读取数据、优缺点、网页数据、简介、应用场景、运行环境、数据存储结构和约束、读取数据、优缺点、应用系统、简介、应用场景、运行环境、数据存储结构、数据操作、优缺点。实验清单:Ubuntu 安装 MySQL、关系型数据库 MySQL 数据库运行环境、MySQL 插入带约束的学生信息、Java 使用 MySQL 事务写入学生信息、MYSQL 导出导入学生数据、MySQL 创建学生信息表、用 Java 语言读取学生信息表元数据、MYSQL 查询学生信息、MySQL 更新 与删除学生信息-Java、MySQL 分区写入销售数据、MySQL 删除和修改学生表 约束、MySQL 更新与删除学生信息、MYSQL 从视图查询学生信息、MYSQL 多表联合操作实验、用 MYSQL 语言读取学生信息表元数据、MySQL 使用事务语言写入学生信息、关系型数据库运行环境、mongodb 安装、mongodb 写入、mongodb创建索引、mongodb 普通查询、mongodb 高级查询、mongodb 的修改与删除、 ActiveMQ 安装及环境配置、ActiveMQ 点对点传输模式、ActiveMQ 发布订阅模式、安装 kafka、kafka 消息读写、Tomacat 部署及发布、通过爬虫抓取网络图片、通过 TCPIP 协议实现客户端与服务端通信、java 实现 http 通信、获取 12306 火车车票信息、通过 API 获取天气信息。 二、数据加工 包括:选择,变换,条件判断,关联,聚合,排序,窗口,标签,旋转,缺值处理,数据冲突处理,数据探索,数据画像,数据抽样,数据统计描述,数据相似性,数据异常,数据去重,维规约,数值规约,噪音数据,数据量化,数据离散化。实验清单:获取语文成绩至少 100 分的学生、获取语文成 绩至少 100 分的学生-py、从网络日志中提取用户访问页面、从身份证号中获取用户信息、从天气数据中获取地区和温度、通过用户身份证号判断用户性别、对学生英语成绩进行分类、从网络日志中提取用户访问页面-py、从身份证号中获取用户信息-py、从天气数据中获取地区和温度-py、通过用户身份证号判断用户性别-py、对学生英语成绩进行分类-py、通过用户身份证号获取户口所在地、通过用户身份证号获取户口所在地-py、各班成绩聚合查询、用户访问所有页面汇总、各班成绩聚合查询-py、用户访问所有页面汇总-py、航班飞行数据打标签、学生成绩表格行转列、学生成绩缺值替换、数据缺值删除、单值个数统计、数据冲突处理之计算非空值百分比、房屋价格标准差、城镇人均犯罪率与业主自用房价因素方差分析、业主自用房价格中位数 (MEDV)的分位值、房价峰度计算、城镇人均犯罪率与业主自用房价相关系数分析、业主自用房价的移动平均值、用户年收入数据画像、搜狗用户查询词数据画像、鸢尾花抽样、数据相似性计算、年龄中异常数据的检测、去除年龄中的异常数据、鸢尾花种类去重、鸢尾花特征主成分分析、鸢尾花特征线性回归、鸢尾花特征主成分分析-py、鸢尾花特征线性回归-py、量化用户上班距离、量化用户上班距离-py、年龄离散化、年龄离散化-py。 三、分析与挖掘 包括:数据分析与挖掘、描述性统计分析、描述性统计分析、时间序列分析、时间序列分析、单因素方差分析、单因素方差分析、数据正规化、数据正规化、主成分分析、主成分分析、线性回归、线性回归、逐步回归、偏最小二乘回归、偏最小二乘回归、逻辑回归分析、逻辑回归分析、聚类、聚类、朴素贝叶斯、朴素贝叶斯、支持向量机、支持向量机、神经网络、神经网络、关联规则、关联规则、决策树、决策树、随机森林、随机森林。实验清单:鸢尾花的描述性统计分析、鸢尾花的统计综合指数分析、鸢尾花的统计平均指数分析、鸢尾花的众数统计分析、鸢尾花的中位数统计分析、鸢尾花的方差统计分析、鸢尾花的标准差统计分析、计算鸢尾花的峰度、计算鸢尾花的相关系数、计算上海房价的百分位数、鸢尾花的描述性统计分析-python、鸢尾花的众数统计分析-python、鸢尾花的中位数统计分析-python、计算鸢尾花的相关系数-python、计算鸢尾花的峰度与偏度-python、计算上海房价的百分位数-python、用移动平均法预测房价、用移动平均法预测人均 GDP、用移动平均法预测房价-python、用移动平均法预测人均 GDP-python、水稻不同品种亩产量的单因素方差分析、水稻不同品种亩产量的单因素方差分析 -py、鸢尾花数据的正规化、鸢尾花数据的正规化-python、青蛙叫声数据的 主成分分析、青蛙叫声数据的主成分分析-python、用线性回归预测足球运动 员身价、用线性回归预测发电站电力输出、用线性回归预估商品的销售额、 对工资水平进行逐步回归、用岭回归预测街道上公共自行车使用量、用 Lasso 回归预测房价、用线性回归预测足球运动员身价-py、用线性回归预测发电站 电力输出-py、用线性回归预估商品的销售额-py、用岭回归预测街道上公共 自行车使用量-py、用 Lasso 回归预测房价-py、用偏最小二乘预测楼房的能 源效率、用偏最小二乘预测楼房的能源...