決策樹算法是什么


決策樹算法是什么


決策樹算法是一種逼近離散函數值的方法 。它是一種典型的分類方法,首先對數據進行處理,利用歸納算法生成可讀的規則和決策樹,然后使用決策對新數據進行分析 。本質上決策樹是通過一系列規則對數據進行分類的過程 。
簡介:
【決策樹算法是什么】決策樹方法最早產生于上世紀60年代,到70年代末 。由J Ross Quinlan提出了ID3算法,此算法的目的在于減少樹的深度 。但是忽略了葉子數目的研究 。C4.5算法在ID3算法的基礎上進行了改進,對于預測變量的缺值處理、剪枝技術、派生規則等方面作了較大改進,既適合于分類問題,又適合于回歸問題 。
決策樹算法構造決策樹來發現數據中蘊涵的分類規則.如何構造精度高、規模小的決策樹是決策樹算法的核心內容 。決策樹構造可以分兩步進行 。第一步,決策樹的生成:由訓練樣本集生成決策樹的過程 。一般情況下,訓練樣本數據集是根據實際需要有歷史的、有一定綜合程度的,用于數據分析處理的數據集 。第二步,決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用新的樣本數據集(稱為測試數據集)中的數據校驗決策樹生成過程中產生的初步規則,將那些影響預衡準確性的分枝剪除 。

    猜你喜歡