博碩士論文 etd-0728108-144440 詳細資訊


[回到前頁查詢結果 | 重新搜尋]

姓名 楊佶憲(Chi-hsien Yang) 電子郵件信箱 E-mail 資料不公開
畢業系所 資訊管理學系研究所(Information Management)
畢業學位 碩士(Master) 畢業時期 96學年第2學期
論文名稱(中) 綜合法則歸納系統中變項交互作用之處理 
論文名稱(英) Attribute Interaction Effects in Rule Induction
檔案
  • etd-0728108-144440.pdf
  • 本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
    請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
    論文使用權限

    電子論文:校內一年後公開,校外永不公開

    論文語文/頁數 中文/111
    統計 本論文已被瀏覽 5384 次,被下載 10 次
    摘要(中) 法則歸納法為資料探勘的一種技術,可透過“If -Then”的方式來表示規則,且普遍地應用於知識擷取與資料探勘領域。但大多數的技術皆以單一的準則來分析類別與非類別特徵值,由於這兩種特徵值本身具備不同的特性,若是單一的方式來處理,則可能無法建立較理想的分類模型。
        為了讓法則歸納技術以不同的方式來處理類別與連續型屬性,Liang過去提出『綜合法則歸納系統』(Composite Rule Induction System),利用統計學的Tabular Approach與Statistical Elaboration方式,分別分析Qualitative與Quantitative兩種特徵值來產生較精確之分類法則。而楊元琪在“綜合法則歸納系統之延伸研究”論文中將該演算法改良為多類別的multi-Category-CRIS。但該方法目前只有建立一階的假說法則,尚未能夠建立二階假說法則,因此當變項間存在交互作用時,該演算法便無法有效處理高階的互動效果,另外該方法沒有針對非類別常態假說法則的錯誤區機率大小作判定,以及無法建立類別型資料中小比例目標類別的分類模型。
        本研究針對變項間交互作用提出『交互作用法則的產生方式』、同時加上『常態假說法則之錯誤區機率判定』及『類別型資料於小比例目標類別之分類模型建立』等處理,克服過去CRIS無法處理交互作用的限制,同時讓該方法可以根據資料的峰度與偏度來調整錯誤區機率,改善連續型資料非常態分配的影響,且解決類別型資料無法建立小比例目標類別分類模型的問題。為了評估改良後演算法的績效,本研究開發一雛型系統,與先前的multi-category-CRIS演算法,SPSS軟體中的CART演算法與PolyAnalyst 5.0軟體中的C4.5演算法進行比較,結果顯示本研究改良後的歸納法所歸納的知識模式,其預測準確度比標竿系統高的機會非常顯著。
    摘要(英) Rule induction is a popular technique for knowledge acquisition and data mining. Many techniques, such as ID3, C4.5, CART (tree induction tecniques) and Artificial Neural Networks have been developed and widely used. However, most techniques are either based on categorical or numerical mechanisms to assess the importance of different input variables, which may not produce the optimal rule when a mixture of variables exists.
       In 1992, Liang proposed a composite approach called CRIS that use different method to analyze different types of data in inducing rules for binary classification. Yang conducted a follow-up research to extend the original algorithm to multiple categories. However, both methods do not take variable interaction into consideration.
       The purpose of this research is to extend previous approach and extend by including second-order interaction. We also take into consideration the kurtosis and skewness of data for numerical variables. For categorical data, we also adopt ID3 algorithm to handle classes with low representation in the sample. In order to evaluate this technique, we develop a prototype CRIS 3.0 and compare with existing techniques, including multi-category-CRIS, CART and C4.5 as benchmark. The results show that CRIS 3.0 has the highest probability of producing the highest prediction accuracy.
    關鍵字(中)
  • 法則歸納
  • 資料探勘
  • 專家系統
  • 知識擷取
  • 交互作用
  • 關鍵字(英)
  • Knowledge Acquisition
  • Data Mining
  • Interaction Effect
  • Rule Induction
  • Expert Systems
  • 論文目次 目 錄
    第壹章、緒論 1
    第一節、研究背景與動機 1
    第二節、研究目的 4
    第三節、研究方法與步驟 5
    第四節、論文架構 7
    第貳章、文獻探討 8
    第一節、資料探勘簡介 8
    第二節、決策樹歸納學習法 10
    第三節、複類別綜合法則歸納系統技術簡介 21
    第四節、變項交互作用簡介 30
    第参章、綜合法則歸納系統演算法改良 32
    第一節、交互作用法則的產生方式 33
    第二節、常態假說法則之錯誤區機率判定 36
    第三節、類別型資料於小比例目標類別之分類模型建立 44
    第肆章、綜合法則歸納系統實作與績效評估 51
    第一節、系統需求分析 51
    第二節、綜合法則歸納系統介紹 53
    第三節、演算法績效評估 63
    第伍章、結論與建議 82
    第一節、研究貢獻 82
    第二節、研究限制 83
    第三節、後續研究建議 84
    參考文獻 85
    附錄、CART與C4.5實驗過程說明 89
    附 表 目 錄
    表 一、高爾夫球賽決策資料集 13
    表 二、常見決策樹演算法之比較 20
    表 三、類別關聯次數分析表 22
    表 四、非類別特徵值統計量表 22
    表 五、類別變項交互作用的例子 31
    表 六、類別二階交叉分表 33
    表 七、非類別交互作用項統計量表 34
    表 八、CAR EVALUATION資料集描述 44
    表 九、連續型資料集描述 67
    表 十、類別資料集描述 67
    表 十一、混合型資料集描述 67
    表 十二、實驗一之連續型資料集績效測試結果 69
    表 十三、實驗一之連續型資料集顯著性檢定結果 69
    表 十四、實驗一之類別型資料集績效測試結果 70
    表 十五、實驗一之類別型資料集顯著性檢定結果 70
    表 十六、實驗一之混合型資料集績效測試結果 71
    表 十七、實驗一之混合型資料集顯著性檢定結果 71
    表 十八、實驗一之各分類技術之最佳預測資料集個數統計表 71
    表 十九、實驗二之連續型資料集績效測試結果 74
    表 二十、實驗二之連續型資料集ACCURACY差值 74
    表 二十一、實驗二之類別型資料集績效測試結果 75
    表 二十二、實驗二之類別型資料集ACCURACY差值 75
    表 二十三、實驗二之混合型資料集績效測試結果 76
    表 二十四、實驗二之混合型資料集ACCURACY差值 76
    表 二十五、實驗二之各分類技術之最佳預測資料集個數統計表 76
    附 圖 目 錄
    圖 一、研究流程圖 6
    圖 二、ID3演算法 12
    圖 三、高爾夫球賽決策樹 15
    圖 四、非類別特徵值分類圖 23
    圖 五、複類別綜合法則歸納系統流程圖 29
    圖 六、非類別屬性分類圖 35
    圖 七、各種峰度 37
    圖 八、對稱分配 38
    圖 九、正偏分配圖 38
    圖 十、負偏分配 38
    圖 十一、CLASS1峰度較CLASS2高 39
    圖 十二、CLASS1與CLASS2皆為右偏 40
    圖 十三、CLASS1與CLASS2皆為右偏 40
    圖 十四、CLASS1右偏 CLASS2左偏 41
    圖 十五、CLASS1左偏CLASS2右偏 41
    圖 十六、原CRIS演算法所建立之CAR EVALUATION資料集分類模型 45
    圖 十七、CAR EVALUATION資料集分類模型(A) 47
    圖 十八、CAR EVALUATION資料集分類模型(B) 48
    圖 十九、BANKRUPTCY混合型資料集所建立之分類模型 49
    圖 二十、CRIS 3.0演算法執行流程圖 50
    圖 二十一、CRIS 3.0資料表設定介面 54
    圖 二十二、CRIS 3.0基本設定表單 55
    圖 二十三、CRIS 3.0系統流程圖 57
    圖 二十四、鳶尾花資料集之一階分類模型 58
    圖 二十五、鳶尾花資料集之二階分類模型 59
    圖 二十六、RUN BENCHMARK績效評估 60
    圖 二十七、高爾夫球賽決策的一階分類模型 61
    圖 二十八、高爾夫球賽決策的二階分類模型 62
    圖 二十九、TEACHING ASSISTANT EVALUATION資料集之一階分類模型 80
    圖 三十、TEACHING ASSISTANT EVALUATION資料集之二階分類模型 81
    圖 三十一、屬性型態設定 89
    圖 三十二、資料集隨機抽樣分割 90
    圖 三十三、資料集分割比例設定 90
    圖 三十四、以補集合建立測試資料集 91
    圖 三十五、C4.5演算法使用DECISION TREE功能 92
    圖 三十六、C4.5之參數設定 93
    圖 三十七、應用分類模型於測試資料集 94
    圖 三十八、C4.5測試結果 95
    圖 三十九、CART之亂數產生器 96
    圖 四十、CART之亂數種子設定 96
    圖 四十一、SPSS的TREE功能 97
    圖 四十二、SPSS的CART演算法 98
    圖 四十三、VALIDATION參數設定 99
    圖 四十四、CART之GROWTH LIMITS設定 100
    圖 四十五、CART之CRT設定 101
    圖 四十六、CART之PRUNING設定 101
    圖 四十七、CART之測試結果 102
    參考文獻 參考文獻
    ㄧ、參考網站
    UC Irvine Machine Learning Repository﹐http://archive.ics.uci.edu/ml/
    二、中文部份
    1. 梁定澎 (民 95)「決策支援系統與企業智慧」,智勝文化。
    2. 曾憲雄,蔡秀滿,蘇東興,曾秋蓉,王慶堯(民 95)「資料探勘」,旗標出版社。
    3. 楊元琪 (民 96), 綜合法則歸納系統之延伸研究,國立中山大學資訊管理學系
      碩士論文。
    三、英文部份
    4. Alex A. Freitas (2001), "Understanding the Crucial Role of Attribute Interaction in Data 
     Mining," Artificial Intelligence Review, Vol.16, Page 177-199.
    5. Berry, M., and Linoff, G. (2000), "Mastering Data Mining: The Art & Science of
     Customer Relationship Management," John Wiley &Sons, New York.
    6. Breiman, L., J. H. Friedman and C. J. Stone (1984), "Classification and Regression 
     Trees," Wadsworth & Brooks, Monterey, CA.
    7. Chandler, J. C. and T. P. Liang (1990), "Developing Expert Systems for Business
     Applicalians," Merrill Publishing Co., Columbus. OH..
    8. Callahan J. D. and Sorensen S. W. (1991) "Rule Induction for Group Decisions with 
     Statistical Data -- An Example" The Journal of the Operational Research Society, Vol.
     42, No.3, Page 227-234.
    9. Feigenbaum, E.A. (1981), "Expert systems in the 1980s," State of the Art Report on
      Machine Intelligence, (A. Bond, Ed.).
    10. Fisher, R. A. (1936). "The Use of Multiple Measurements in Axonomic Problems,"
      Annals of Eugenics, Vol.7, 179-188.
    11. Hung, S.Y. and Liang, T.P. and Liu, Victor W.C. (1996), "Integrating Arbitrage Pricing
      Theory and Artificial Neural Networks to Support Portfolio Management," Decision 
      Support Systems, Vol.18, Issue 3-4, Page 301-316.
    12. Jakulin A.& Bratko I. (2004), "Testing the Significance of Attribute Interactions,"
      Proceedings of the twenty-first international conference on Machine learning.
    13. Jakulin A. & Bratko I. (2004), "Analyzing Attribute Dependencies," Lecture Notes
      in Computer Science, Page 229-240.
    14. Jeng B.C., Liang T.P. and Hong M.Y. (1996), "Interactive Induction of Expert 
      Knowledge," Expert Systems With Applications, Vol.10, Issue 3-4, Page 393-401.
    15. Jeng B. C., Jeng Y.M., Liang T.P. (1997), "FILM: a fuzzy inductive learning method 
      for automated knowledge acquisition," Decision Support Systems, Vol.21, Page 61-73.
    16. Jiawei Han and Micheline Kamber (2006),"Data Mining - Concepts and Techniques,"
      Morgan Kaufmann.
    17. Joseph C. Giarratano and Gary D. Riley (2005), "Expert Systems Principles and 
      Programming," Thomson.
    18. John Mingers, (1987) "Expert Systems-Rule Induction with Statistical Data," The 
      Journal of the Operational Research Society, Vol.38, No.1, Page 39-47.
    19. John Mingers, (1987)"Rule Induction with Statistical Data-A Comparison with 
      Multiple Regression," The Journal of the Operational Research Society, Vol.38, No.4,    
      Page 347-351.
    20. Kenneth Sorensen, Gerrit K. Janssens (2003), "Data mining with genetic algorithms on 
      binary trees," European Journal of Operational Research, Vol.151, Page 253-264.
    21. Konda, R., Rajurkar, K. P. (2005), "A Rule Induction Algorithm for Continuous Data
      Using Analysis of Variance," SoutheastCon, 2005. Proceedings. IEEE, Page 489-494.
    22. Liang, T.P. (1992), "A Composite Approach to Inducing Knowledge for Expert
      Systems Design," Management Science, Vol.38, Issue 1.
    23. Liang, T.P., Chandler, J. S., Han I. and Roan J. (1992) " An empirical investigation of 
      some data effects on the classification accuracy of probit, ID3, and Neural Networks," 
      Contemporary Accounting Research, Vol.9, No.1, Page 306-328.
    24. Liang, T.P., Chandler, J. S. and Han I. (1990) "Integrating Statistical and Inductive
      Learning Methods for Knowledge Acquisition," Expert Systems With Applications, 
      Vol.1, Page 391-401.
    25. Matsatsinis, Nikolaos F. (2002), "CCAS: An Intelligent Decision Support System for
      Credit Card Assessment," Journal of Multi-Criteria Decision Analysis, Vol.11, Page
      213-235
    26. Merel van Diepen, Philip Hans Franses (2006) "Evaluating chi-squared automatic 
      interaction detection," Information Systems, Vol.31 Page 814-831.
    27. Michael, H. Kutner, Christopher J. Nachtsheim, John Neter (2005) "Applied linear 
      regression models," McGraw-Hill.
    28. Michie, D. (1983), "Inductive rule generation in the context of the Fifth Generation,"
      Proceedings of the Secound International Machine Learning Workshop
    29. Quinlan, J. R. (1986), "Induction of Decision Trees", Machine Learning, Vol.1, Issue 1
    30. Quinlan, J. R. (1989). "Unknown Attributes Values in Induction," Machine Learning,
      Vol.4 Page 89-116.
    31. Quinlan, J. R. & Rivest, R. L. (1989), "Inferring Decision Trees Using the Minimum
      Description Length Principle," Information and Computation, Vol.80, Page 227-248.
    32. Quinlan, J. R. (1993), "C4.5: The Programs for Machines Learning," Morgan 
      Kaufmann Publishers.
    33. Quinlan, J. R. and Cameron-Jones, R. M. (1995). "Oversearching and layered search in 
      empirical learning," In Proceedings of the 14th International Joint Conference on  
      Artificial Intelligence, Montreal, Vol.2 (Edited by Morgan Kaufman), 1019-1024.
    34. Quinlan, J. R. (1996), "Improved Use of Continuous Attributes in C4.5," Journal of 
      Artificial Research, Vol.4, Page 77-90.
    35. Sam Chao, Yiping Li. (2006), "Uncovering Potential Attribute Relevance via
      MIA-Processing in Data Mining," Sixth IEEE International Conference on Data 
      Mining – Workshops.
    36. Wei-Yin Loh and Yu-Shan Shih (1997), "Split Selection Methods for Classification 
      Trees," Statistica Sinica, Vol.7, Page 815-840.
    口試委員
  • 魏志平 - 召集委員
  • 陳燈能 - 委員
  • 梁定澎 - 指導教授
  • 口試日期 2008-07-24 繳交日期 2008-07-28

    [回到前頁查詢結果 | 重新搜尋]


    如有任何問題請與論文審查小組聯繫