大数据和机器学习阶段的区别和联系
- 大数据做的是基础的数据的存储和统计计算,而如果需要从大量的数据中发现或挖掘潜在的价值的需要利用机器学习算法结合数据构建模型,通过模型对现实事件作出预测
大数据时代究竟改变了什么?
- 思维方式
-
数据的重要性
- 数据资源
- 数据资产
- 数据 增值
-
方法论
- 基于知识的理论完美主义
- 基于数据的历史经验主义
- 如:推荐系统-需要拿到所有的用户数据UserCF和ItemCF
- 基于数据的历史经验主义
- 基于知识的理论完美主义
-
数据分析
- 统计学
- 数据科学
- 数据科学家(大数据架构师)
- 数据科学
- 统计学
- 计算智能
- 复杂算法
- 简单算法
- 目标决策
- 基于目标决策
- 基于数据决策
- 业务方面
- 业务的数据化
- 数据 业务化
- 产业竞合
- 以战略为中心
- 以数据为中心
大数据4V特征
- 大数据数据量大
- TP-PB-ZB
- 利用Hadoop中HDFS存储
- 数据种类多
- 结构化数据
- mysql
- 非结构化数据
- 视频、文本、音频
- 半结构化数据
- XML/HTML为主
- 结构化数据
- 速度快
- 数据增长速度快
- 数据处理的速度快
- 离线处理-实时处理
- 价值密度低-价值高
- 机器学习从大量数据中寻找有价值的数据
大数据架构
- 数据的采集
- Ftp数据采集的是用户的访问数据,每个小时上传上一个小时的数据,使用shell进行小文件合并,数据以|分割,Socket采集的是用户的安全日志
- 数据的存储
- 使用HDFS的分布式文件系统
- 数据的ETL
- 使用MR进行数据清洗
- 对异常值的处理
- 对缺失值的处理
- ……
- MR和Redis进行交互
- 将访问日志中地区码更改为地区名字
- MR将处理后的数据入库到Hive或HBase中
- 使用MR进行数据清洗
- 数据的分析
- Hive
- 完成对实时性要求不高的需求
- 完成小文件合并
- 将处理后的数据加载到Impala中进一步分析
- Impala
- 实时性要求较高的使用impala
- HBase
- 完成固定查询条件的访问日志的查询
- Spark
- 完成了单一数据源40个指标需要加载到内存中进行计算以及TopN
- Hive
- 数据的建模
- 机器学习阶段
- 数据的展示
- oracle
- SSM
人工智能
- 人工智能 应用场景
- 图像识别
- 人脸识别
- 无人驾驶
- 智能翻译
- 语音识别
- 智能医疗诊断
- 数据挖掘
- 人工智能的发展
- 1956-AI-人工智能
- 跳棋
- 占有主导地位-专家系统
- 国际象棋
- IBM深蓝暴力穷举的方式战胜了人类高手
- 统计主义流派
- 围棋
- AplhaGo战胜了李世石
- 深度学习、神经网络、大数据流派
- 人工智能、机器学习、深度学习区别和联系
- 机器学习是人工智能的一个分支,深度学习是机器学习的一种方法
- 数据、数据分析、信息、数据挖掘
- 数据
- 测试量或观测值
- 信息
- 可信的数据
- 数据分析
- 数据—-信息
- 数据挖掘
- 信息–有价值的信息
- 机器学习一种方法
- 实现数据挖掘这件事情
- 实现模式识别这件事情
- 数据
机器学习
- 什么是机器学习?
- 机器学习是致力于通过CPU或Gpu的手段,利用数据结合机器学习算法,从而改善自身的性能。
- 机器学习模型
- 数据
- 机器学习算法
- 什么不是机器学习?
- 对于数值计算
- 对于确定性问题
- 对于统计问题
拜师教育学员文章:作者:587-王同学,
转载或复制请以 超链接形式 并注明出处 拜师资源博客。
原文地址:《机器学习导论(一)》 发布于2020-03-24
评论 抢沙发