Download Bao Cao Tot Nghiep KPDL PDF

TitleBao Cao Tot Nghiep KPDL
File Size726.1 KB
Total Pages67
Table of Contents
                            NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
LỜI NÓI ĐẦU
TÓM TẮT ĐỒ ÁN
SUMMARY OF THE PROJECT
DANH SÁCH BẢNG BIỂU
DANH SÁCH CÁC TỪ VIẾT TẮT

MỞ ĐẦU
Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU
	1.1. Đặt vấn đề
	1.2. Khai phá dữ liệu và phát hiện tri thức
	1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu
		Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu
		1.3.1. Xác định bài toán
		1.3.2. Thu thập và tiền xử lý
			Hình 1.2. Quá trình phát hiện tri thức
			1.3.2.1. Gom dữ liệu
			1.3.2.2. Chọn lọc dữ liệu
			1.3.2.3. Làm sạch
			1.3.2.4. Làm giàu dữ liệu
			1.3.2.5. Mã hoá dữ liệu
			1.3.2.6. Đánh giá và trình diễn
		1.3.3. Khai phá dữ liệu
		1.3.4. Phát biểu và đánh giá kết quả
		1.3.5. Sử dụng tri thức đã phát hiện
	1.4. Khai phá dữ liệu có những lợi ích gì
		Hình 1.3: Mô hình lợi ích của khai phá dữ liệu
	1.5. Các kỹ thuật khai phá dữ liệu
		1.5.1. Kỹ thuật khai phá dữ liệu mô tả
		1.5.2. Kỹ thuật khai phá dữ liệu dự đoán
	1.6. Nhiêm vụ chính của khai phá dữ liệu
		1.6.1. Phân lớp (Classification)
		1.6.2. Hồi quy (Regression)
		1.6.3. Gom nhóm (Clustering)
		1.6.4. Tổng hợp (Summarization)
		1.6.5. Mô hình ràng buộc (Dependency modeling)
		1.6.6. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
	1.7. Các phương pháp khai phá dữ liệu
		1.7.1. Các thành phần của giải thuật khai phá dữ liệu
		1.7.2. Một số phương pháp khai thác dữ liệu phổ biến
			1.7.2.1. Phương pháp quy nạp (Induction).
			1.7.2.2. Cây quyết định và luật
			1.7.2.3. Phát hiện các luật kết hợp
			1.7.2.4. Mạng Neuron
				Hình 1.4.Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neunon.
			1.7.2.5. Giải thuật di truyền
	1.8. Ứng dụng của khai phá dữ liệu
	1.9. Một số thách thức đặt ra cho việc khai phá dữ liệu
Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
	2.1. Mở đầu
	2.2. Các khái niệm cơ bản
		2.2.1. Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu
		2.2.2. Định nghĩa 2. 2. 2: Các kết nối Galois
		2.2.3. Định nghĩa 2.2.3: Độ hỗ trợ (Support)
		2.2.4. Định nghĩa 2 2.4: Độ tin cậy ( Confidence)
			2.2.4.1. Tính chất 2. 2.4.1: Hỗ trợ của tập con.
			2.2.4.2. Tính chất 2.2.4.2
			2.2.4.3. Tính chất 2.2.4.3
			2.2.4.4. Tính chất 2. 2.4.4
		2.2.5. Định nghĩa 2.2.5: Tập mặt hàng phổ biến
		2.2.6. Định nghĩa 2.2.6: Luật kết hợp
			2.2.6.1. Tính chất 2.2.6.1: Luật kết hợp không có hợp thành.
			2.2.6.2. Tính chất 2.2.6.2: Luật kết hợp không có tính tách.
				Hình 2.5. Minh họa luật kết hợp không có tính tách
			2.2.6.3. Tính chất 2.2.6.3: Luật kết hợp không có tính bắc cầu.
			2.2.6.4. Tính chất 2.2.6.4
	2.3. Tìm tập phổ biến
		2.3.1. Một số khái niệm
		2.3.2. Thuật toán Apriori
			2.3.2.1. Mô tả thuật toán
			2.3.2.2. Ví dụ minh hoạ cho thuật toán Apriori
				Bảng 2.1. CSDL sử dụng minh hoạ thuật toán Apriori
				Bảng 2. 2. Kết quả thực hiện thuật toán Aprori cho CSDL D
			2.3.2.3. Procedure-Code.
			2.3.2.4. Tạo tập ứng viên (k+1)- hạng mục.
	2.4. Tìm luật kết hợp
		2.4.1. Phát biểu bài toán khai phá luật kết hợp
			Bảng 2. 3. Ví dụ về một CSDL giao dịch – D
			Bảng 2.4. Tập mục thường xuyên Minsup = 50%
			Bảng 2.5. Luật kết hợp sinh từ tập mục phổ biến ABE
		2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp
	2.5. Quy trình khai thác luật kết hợp
	2.6. Một số thuật toán khác
		2.6.1. Thuật toán khai phá song song cho luật kết hợp mờ
		2.6.2. Thuật toán FP-Growth
			2.6.2.1 Bản chất.
			2.6.2.2. Qui trình.
				Bảng 2.6. Cây FP
				Bảng 2.7. Cây FP
				Bảng 2.8. Cây FP
				Bảng 2.9. Cây FP
				Bảng 2.10. Cây FP
				Bảng 2.11. Cây FP
				Bảng 2.12. Cây FP
				Bảng 2.13. Cây FP
				Bảng 2.14.Cơ sở dữ liệu
			2.6.2.3. Thuật toán FP_Growth
Chương III: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP
	3.1. Phát biểu bài toán.
	3.2. Lựa chọn thuật toán để cài đặt phần mềm.
	3.3. Yêu cầu khi cài đặt thuật toán.
	3.4. Cơ sở dữ liệu.
		3.4.1. Giao diện chính của cơ sở dữ liệu.
			Hình 3.1. Giao diện chính của cơ sở dữ liệu
		3.4.2. Bảng danh mục các Nhà cung cấp hàng hóa.
			Hình 3.2. Danh mục nhà cung cấp
		3.4.3. Bảng danh mục các Hàng Hoá.
			Hình 3.3. Danh mục hàng hóa
		3.4.4. Bảng danh mục các Khách Hàng.
			Hinh 3.4.Danh mục khách hàng
		3.4.5. Bảng danh mục các Hoá Đơn.
			Hình 3.5. Danh mục hóa đơn
		3.4.6. Bảng danh mục chi tiết Hoá Đơn.
			Hình 3.6. Danh mục chi tiết hóa đơn
		3.4.7. Ghi XML.
			Hình 3.7. Ghi XML
	3.5. Giao diện chính chương trình.
		Hình 3.8. Giao diện chính của chương trình
	3.6. Kết nối dữ liệu.
		Hình 3.9. Kết nối dữ liệu
	3.7. Thêm dư liệu  Xml
		Hình 3.10. Thêm dư liệu  XML
	3.8. Kết quả phân tích
		Hình 3.11. Kết quả phân tích
	3.9. Kết quả lọc MinSup = 10
		Hình 3.12. Kết quả lọc độ phổ biến tối thiểu
	3.10. Kết quả lọc MinCon = 40%
		Hình 3.13. Kết quả lọc độ tin cậy
KẾT LUẬN CHUNG
HƯỚNG PHÁT TRIỂN ĐỀ TÀI
TÀI LIỆU THAM KHẢO
BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT - ANH
                        
Document Text Contents
Page 2

LỜI NÓI ĐẦU
Ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một phát triển mạnh mẽ.

Đặc biệt là nghành khoa học máy tính rất phát triển, nó được ứng dụng rất nhiều
trong các lĩnh vực khác nhau của cuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học,
Xây dưng, Nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng
ngày của con người.Việc dùng các phương tiện tin học để tổ chức và khai thác các
cơ sở dữ liệu đã được phát triển từ những năm 60. Đặc biệt trong những năm gần
đây vai trò của máy tính trong việc lưu trữ và xử lý thông tin ngày càng trở lên quan
trọng. Bên cạnh đó các thiết bị thu thập dữ liệu tự động tương đối phát triển đã tạo
ra những kho dữ liệu khổng lồ. Với sự phát triển mạnh mẽ của công nghệ điện tử
tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống
mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hoá
mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên
không ngừng ví ngay từ các các giao dịch đơn gian nhất như một cuộc điện thoại,
kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v.đều được ghi vào trong máy tính. Cho
tới nay con số này đã trở lên khổng lồ, bao gồm các cơ sở dữ liệu, thông tin khách
hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử
dụng vốn,..Vấn đề đặt ra là làm thế nào để sử lý khối lượng thông tin cực lớn như
vậy để phát hiện ra các tri thưc tiềm ẩn trong nó.

Để làm được điều đó người ta đã sử dụng quá trính Phát hiện tri thức trong
cơ sở dữ liệu( Knowledge Discovery in Database-KDD). Nhiệm vụ của KDD là từ
dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được
phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên
chúng .Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó
được gọi là kỹ thuật Khai phá dữ liệu( Data Mining).

Từ những lý do đó chúng em đã hiểu về đề tài Khai phá dữ liệu bằng luật
kết hợp. Nhằm phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu
thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong
muốn, đồng thời để áp dụng vào bài toán Quản lý bán hàng tại siêu thị.

Trong quá trình làm đồ án để hoàn thành đề tài này chúng đã nhận được sự
giúp đỡ chỉ bảo tận tình của các thầy cô giáo trong khoa công nghệ thông tin và các
bạn trong lớp, đặc biệt là thầy giáo Trần Hùng Cường. Nhưng do thời gian có giới
hạn và năng lực còn hạn chế nên không tránh khỏi những sai sót, chúng em mong
nhận được sự góp ý hơn nữa của thầy cô và các bạn.

Chúng em cũng xin chân thành cảm ơn các thầy giáo, cô giáo trong khoa
Công Nghệ Thông Tin đã tạo điều kiện giúp đỡ chúng em trong xuốt thời gian làm
đồ án và học tập tại trường.

2

Page 66

BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT - ANH

Tiếng Anh Tiếng Việt

Data Mining Khai phá dữ liệu

Data Dữ liệu

Knowledge Discovery in Database-KDD Phát hiện tri thức trong cơ sở dữ liệu

Target Mục đích, mục tiêu.

Clearsed Preprocessed Prepadated Làm sạch - Tiền xử lý - Chuẩn bị trước

Transform Chuyển đổi

Pattern Discovery Khám phá mô hình

Knowlege Tri thức

Clustering Phân cụm

Summerization Tóm tắt

Visualiztion Trực quan hoá

Evolution and deviation analyst Phân tích sự phát triển và độ lệch

Association rules Phân tích luật kết hợp

Classification Phân lớp

Regression Hồi quy

Clustering Gom nhóm

Summarization Tổng hợp

Dependency modeling Mô hình ràng buộc

Change and Deviation Dectection Dò tìm biến đổi và độ lệch

Hồi qui Regression

Cross validation Đánh giá chéo

Support Phổ biến

Minimum Support Độ phổ biến tối thiểu

Confidence Độ tin cây

Minimum Confidence Độ tin cây tối thiểu

Itemset Hạng mục

Procedure Thủ tục

Code Mã, cốt

Input Đầu vào

Output Đầu ra

66

Similer Documents