决策树

1138-魏同学

发表文章数:75

热门标签

, ,
首页 » 算法 » 正文

决策树的使用

#%%

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import tree
from sklearn.model_selection import train_test_split
#%%
X,y = datasets.load_iris(True)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1024)

clf = DecisionTreeClassifier(criterion="entropy")
clf.fit(X_train,y_train)
y_ = clf.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_)

#%%

sklearn使用的步骤
1.数据清洗
2.特征工程
3.使用模型进行训练
4.模型参数调优

随机森林

随机森林由多棵决策树构建(集成算法)
随机森林的随机在于:随机抽样,子样本不同
在随机森林中,集合中的每棵树都是根据训练集中的替换样本(即引导样本)构建的。
此外,在树的构造中拆分每个节点时,可以从所有输入要素或size的随机子集中找到最佳拆分。(信息增益最大)
随机性来源的目的是减少森林估计量的方差。单个决策树通常表现出较高的方差并且倾向于过拟合。通过取预测的平均值,可以消除一些误差。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets
import pandas as pd
from sklearn.model_selection import train_test_split

wine = datasets.load_wine()
wine

X = wine['data']
y = wine['target']
X.shape

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2)
clf = RandomForestClassifier()
clf.fit(X_train,y_train)
y_= clf.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_)

未经允许不得转载:作者:1138-魏同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《决策树》 发布于2020-10-05

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录