Nhận xét Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka

Bình luận Link Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka là conpect trong bài viết bây giờ của Tên game hay Hakitoithuong.vn. Đọc nội dung để biết chi tiết nhé.


Share Like Download …

Báo cáo này sẽ hướng dẫn: lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA. Chi tiết thêm về dataset xin mời truy cập blog của chúng tôi tại: http://bit.ly/weka-luat-ket-hop

3 Comments 1 Like Statistics Notes

12 hours ago   Delete Reply Block
phan thi thuy kieu , nhan vien chez khong co at khong co

Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

1. LỰA CHỌN THUỘC TÍNH & KHAI PHÁ LUẬT KẾT HỢP TRÊN WEKA THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ KHAI PHÁ LUẬT KẾT HỢP DATA MINING 1 2. MỤC LỤC 1. GIỚI THIỆU VỀ BÀI TOÁN 2. CHUẨN BỊ DỮ LIỆU 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU 4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT KẾT HỢP 5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH DATA MINING 2 3. 1. Giới thiệu về WEKA và dữ liệu WEKA – Waikato Enviroment for Knowledge Analysis – là một tập hợp các giải thuật học máy và các công cụ xử lý dữ liệu. Ngôn ngữ: Java, phân phối dưới giấy phép GNU General Public Hình 1. Logo của Weka khi chương trình được khởi động DATA MINING 3 4. Mô tả dữ liệu bank-data Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ mô phỏng từ dữ liệu ngân hàng Trong thực tế dữ liệu – dữ liệu bank-data – được tập hợp từ các đơn đăng ký của các khách hàng đến mở dịch vụ và thực hiện đăng ký online của 1 ngân hàng DATA MINING 4 5. id Số định danh (mỗi tài khoản 1 thứ tự) age Số tuổi của khách hàng (tính bằng năm, dạng số) sex 2 giá trị giới tính: MALE/FEMALE region 4 giá trị về khu vực: inner_city/rural/suburban/town income Thu nhập của khách hàng (dạng số) married Khách hàng đã kết hôn hay chưa, 2 giá trị: YES/NO children Số lượng con cái của khách hàng (dữ liệu dạng số) car Khách hàng có xe hơi hay không: YES/NO save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO current_acc Khách hàng có TK vãng lai hay không: YES/NO mortgage Khách hàng có tài sản thế chấp hay không: YES/NO pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên lạc gần nhất: YES/NO DATA MINING 5 6. 2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA Chuyển file CSV > ARFF: dữ liệu dạng Attribute- Relation File Format (ARFF) là dữ liệu được Weka chấp nhận, trong khi dữ liệu chúng ta thường có ở dạng csv hoặc tsv DATA MINING 6 7. Chuyển file CSV > ARFF Chọn Tools > ArffViewer để mở hộp thoại ArffViewer Mở file định dạng CSV, sau đó lưu lại với định dạng ARFF DATA MINING 7 8. Lưu ý Chọn Invoke options dialog là vì các giải thuật khai phá luật kết hợp như Apriori, FPGrowth yêu cầu thuộc tính dạng Nominal attributes (dữ liệu phân loại DATA MINING 8  9. DATA MINING 9 10. 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU Mục đích: Tìm, sửa đổi hoặc loại bỏ các record dữ liệu không hoàn thiện, không chính xác hoặc không liên quan đến dữ liệu hiện có Data Cleansing là 1 phần trong quá trình Tiền xử lý dữ liệu DATA MINING 10 11. DATA MINING 11 Tại sao cần làm sạch dữ liệu? 12. Thực hiện data cleaning bằng weka Với các giá trị bị mất ◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất ◦Dùng bộ lọc: ReplaceMissingValues Với dữ liệu nhiễu ◦Weka sẽ báo cáo về các dữ liệu cá biệt ◦Các bộ lọc có thể sử dụng: RemoveMisclassified, MergeTwoValues DATA MINING 12 13. Thực hiện làm sạch dữ liệu bank-data DATA MINING 13 Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ liệu và cũng không có dữ liệu ngoại lai 14. Làm sạch dữ liệu bầu cử: vote Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ liệu ngoại lai DATA MINING 14 15. Xử lý dữ liệu bị mất DATA MINING 15 16. Các ô bị mất sẽ được tô đậm DATA MINING 16 17. DATA MINING 17 18. Làm sạch dữ liệu segment-test Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có số lượng dữ liệu ngoại lai: 34, chiếm 4% DATA MINING 18 19. Xử lý dữ liệu ngoại lai DATA MINING 19 RemoveMisclassified MergeTwoValues 20. Dùng RemoveMisclassified DATA MINING 20 21. Dùng MergeTwoValues DATA MINING 21 22. 5. KHAI PHÁ LUẬT KẾT HỢP Mục đích: của luật kết hợp (Association Rule – AR) là tìm ra các mối kết hợp (association) hay tương quan (correlation) giữa các đối tượng trong khối lượng lớn dữ liệu. DATA MINING 22 23. Ứng dụng: trong nhiều lĩnh vực, nhất là trong kinh doanh như Market Basket Analysis: Cross selling – bán hàng chéo, Product placement – sắp xếp sản phẩm, Affinity promotion – quảng cáo liên kết, Customer behavior Analysis – phân tích hành vi khách hàng. DATA MINING 23 24. Một số khái niệm thường gặp khi khai phá luật kết hợp với weka: •Item: phần tử •ItemSet: tập phần tử •Transaction: giao dịch •Association: sự kết hợp •Association rule: luật kết hợp •Support: độ hỗ trợ •Confidence: độ tin cậy DATA MINING 24 25. •Frequent itemset: tập phần tử phổ biến •Strong association rule: luật kết hợp mạnh •Minimum support threshold: ngưỡng hỗ trợ tối thiểu •Minimum confidence threshold: ngưỡng tin cậy tối thiểu DATA MINING 25 26. Thực hiện khai phá luật kết hợp với giải thuật Apriori: Mục tiêu khai phá được mối quan hệ của các thuộc tính thu thập được từ khách hàng DATA MINING 26 27. DATA MINING 27 28. DATA MINING 28 • car: khai phá luật kết hợp phân lớp • classindex: -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải – ở trường hợp này: Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa giá trị • significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence • treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quá trình Một số thông số lưu ý: 29. Chi tiết các thông số • car: khai phá luật kết hợp phân lớp • classindex: index của lớp dùng trong trường hợp “car=true”, -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa giá trị • significanceLevel: mức ý nghĩa, chỉ hoạt động với metric type là Confidence • treatZeroAsMissing: loại bỏ giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quá trình DATA MINING 29 30.

Bạn đang xem: Weka là gì

Xem thêm: Baud Rate Là Gì – Nghĩa Của Từ Baud Rate

Xem thêm: Buffet Là Gì – ăn Cách ăn Buffet đúng Cách

5. ATTRIBUTE SELECTION Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc tính, nhưng không phải tất cả chúng đều cần thiết để khai phá tri thức. DATA MINING 30 31. Lựa chọn thuộc tính trong Weka Để chọn lựa thuộc tính trong weka bạn cần xác định attribute evaluator và serch method, sau đó nó sẽ tìm kiếm trong không gian các thuộc tính con, và đánh giá từng tập con một. Mỗi attribute evaluator được sử dụng với một phương pháp tìm kiếm tương ứng 31 32. Attribute Subset Evaluators Subset Evaluators sẽ lấy một tập thuộc tính con và trả ra một giá trị để tìm kiếm. 32 33. “Wrapper” method Đánh giá tập thuộc tính bằng một giải thuật học. Độ chính xác của giải thuật học trên tập thuộc tính này được xấp xỉ nhờ cross-validation. 33 34. “Wrapper” method •Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation •Search method: BestFirst, chọn backward. •Áp dụng với bank-data, ta được tập thuộc tính là income, married, children, save_act, mortgage có merit = 0.863 •Tổng số tập được đánh giá: 72 với search termination là 5 34 35. • Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6). • Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính. • Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit = 0.863 Chú ý: tối ưu cục bộ vs tối ưu toàn cục • search termination > 1 sẽ giúp bạn vượt qua được thung lũng. • Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau. • Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm. 35 36. Scheme-Indepedent attribute selection Wrapper đơn giản, trực tiếp nhưng rất chậm. Chúng ta chú ý: 1. Sử dụng single-attribute evaluator với ranking. – Giúp loại bỏ những thuộc tính không thích hợp 2. Sử dụng attribute subset evaluator cùng với search method. – Giúp loại bỏ những thuộc tính dư thừa. Attribute subset evaluator: – wrapper method là scheme-dependent subset evaluators – Còn có scheme-independent subset evaluators 36 37. Scheme-Indepedent attribute selection CfsSubsetEval: là một scheme-independent subset evaluators Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn: – Có tương quan cao với thuộc tính phân lớp (class attribute). – Tương quan yếu với các thuộc tính trong cùng tập. Nó được thể hiện qua công thức sau: C là hàm đánh giá tương quan giữa 2 thuộc tính 37 38. Attribute Selected classifier 38 39. Attribute Selected classifier AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên tập huấn luyện, thậm chí khi được đánh giá bằng cross- validation. Đây là cách làm đúng. Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc wrapper. 39 40. Attribute Selected classifier So sánh CfsSubsetEval với Wrapper trên bank-data.arff Naive Bayes J48 IBK No attribute selection 70.33% 85% 75.33% Attribute selection sử dụng AttributeSelectedClassifier CfsSubsetEval (rất nhanh) 69.83% 79% 77.66% Wrapper selection (khá chậm) 72% 85.5% 85.16% GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83% (giữ lại 4 thuộc tính) Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper selection nhưng nhanh hơn nhiều. 40 41. Fast attribute selection sử dụng ranking Single-attribute evaluator: có thể loại bỏ những thuộc tính không thích hợp, nhưng thuộc tính dư thừa thì không. – Sử dụng với ranker search, nó dùng để sắp xếp thuộc tính theo giá trị đánh giá. – Single-attribute evaluator đánh giá mối tương quan của từng thuộc tính với với thuộc tính phân lớp. Mỗi phương pháp thì có công thức riêng. VD: InfoGainAttributeEval sử dụng information gain, hay GainRatioAttributeEval sử dụng công thức gain ratio. 41 42. Ranker method có các tham số: số lượng tham số cần giữ, ngưỡng cần chọn. Do đó Single-attribute evaluation tuy nhanh nhưng khó xác định số lượng tham số cần giữ lại. Không loại được thuộc tính dư 42 43. Thành viên đóng góp Tên Nguyễn Tuấn Vũ Nguyễn Anh Việt Hồ Quang Thanh Đoàn Vương Bính Tú Vũ Văn Thống Nguyễn Tường Vi DATA MINING 43

Chuyên mục: Hỏi Đáp