ứng dụng hồi quy logistic dự đoán chất lượng nguồn nước

Mô tả chung về dữ liệuDữ liệu được sử dụng trong đề tài này là về các chỉ số chất lượng nguồn nước củacác mẫu nước ở các vùng khác nhau, với các thông tin chi tiết về dữ liệu như sau:Chủ

Trang 1

ỨNG DỤNG HỒI QUY LOGISTICDỰ ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC

GVHD: PGS.TS Võ Hoàng HưngTrường Đại học Bách Khoa - ĐHQG-HCM

Tháng 11 năm 2023

Trang 3

Nội dung trình bày

Trang 4

Mô tả chung về dữ liệu

Dữ liệu được sử dụng trong đề tài này là về các chỉ số chất lượng nguồn nước củacác mẫu nước ở các vùng khác nhau, với các thông tin chi tiết về dữ liệu như sau:

Chủ đề: Water QualityNguồn dữ liệu:

· Pune, Maharashtra, Ấn Độ

Số lượng tổng thể: 325 mẫu nước (208 mẫu nước uống được và 117 mẫu

nước không uống được)

Số lượng biến: 10 tiêu chí, bao gồm: pH, độ cứng, hàm lượng chất rắn,chloramines, sulfate, tính dẫn điện, hàm lượng carbon hữu cơ,

trihalomethanes, độ đục và tính uống được.

Trang 5

Mô tả biến

BiếnLoại dữ liệu

(rr = rời rạc, lt = liên tục)

Tiêu chuẩnĐơn vịMô tả

pH x∈ R| 0 ≤ x ≤ 14, rr6.5≤ x ≤ 8.5 không có Đánh giá tính acid haybase của nướcĐộ cứng x∈ R| 47.4 ≤ x ≤ 323, rrx≤ 300 (TCVN)mg/L Khả năng nước tạo kếttủa với xà phòng

Chất rắn x∈ R| 321 ≤ x ≤ 61.2 · 103, rrx≤ 500 (mong muốn)

x≤ 1000 (tối đa)ppm

Tổng lượng chất rắn hòatan trong nước

Chloramines x∈ R| 0.35 ≤ x ≤ 13.1, rrx≤ 4ppm Lượng Chloramines trongnước

Sulfate x∈ R| 129 ≤ x ≤ 481, rrx≤ 250mg/L

Lượng ion Sulfate hòa tanchảy

Tính dẫn điện x∈ R| 181 ≤ x ≤ 753, rrx≤ 400µS/cm Khả năng dẫn điện củanước

Carbon hữu cơ x∈ R| 2.2 ≤ x ≤ 28.3, rrx≤ 4ppm

Tổng lượng carbon trongtrong nước

Trihalomethanes x∈ R| 0.74 ≤ x ≤ 124, rrx≤ 80µg/L

Độ đục x∈ R| 1.45 ≤ x ≤ 6.74, rrx≤ 5N T U Mức độ trong suốt củanước

Tính uống được x = 0 hoặc x = 1, rr

Mức độ an toàn khi uốngnước (=1 khi uốngđược, =0 khi khônguống được)

Trang 6

Trang 7

Các đặc trưng của đại lượng ngẫu nhiên

Kỳ vọng: là trung bình có trọng số của tất cả các giá trị cụ thể của biến ngẫu

nhiên, ký hiệu là E(X).

Trang 8

Các đặc trưng của đại lượng ngẫu nhiên

Mốt: là số có khả năng nhất của biến ngẫu nhiên, ký hiệu là mod(X).

Nếu X là BNN rời rạc có xác suất p:

Trang 9

Hồi quy logistic là gì?

Hồi quy logistic là một thuật toán được ứng dụng rộng rãi trong nhiều lĩnhvực

Hồi quy logistic được xem như là một kỹ thuật phân tích dữ liệu để tìm ramối quan hệ (mối tương quan)giữa hai yếu tố dữ liệu, sau đó từ mối quanhệ này dự đoán giá trị của những yếu tố đó dựa trên các yếu tố còn lại.Dự đoán thường cho rakết quả hữu hạn, như có hoặc không.

Trang 10

Các loại hồi quy logistic

Có03 cáchtiếp cận phân tích hồi quy logistic dựa trên kết quả của biến phụ thuộc:

Hồi quy logistic nhị phân

Khi kết quả (hay biến phụ thuộc) mang bản chất nhị phân - tức là chỉ có2 kếtquảcó thể xảy ra (ví dụ: có và không, 0 và 1).

Dù hàm logistic tính toán một phạm vi giá trị giữa 0 và 1, mô hình hồi quy nhịphân vẫn sẽlàm tròn kết quảđến các giá trị gần nhất.

Hồi quy logistic đa thức

Khi kết quả (hay biến phụ thuộc) có 3 hoặc nhiều kết quả có thể xảy ra; tuynhiên, các kết quảkhông có thứ tự cụ thể.

Hồi quy logistic thứ tự

Khi kết quả (hay biến phụ thuộc) có 3 hoặc nhiều kết quả có thể xảy ra, nhưngtrong trường hợp này, các kết quảcó thứ tự xác định.

Trang 11

Xây dựng mô hình hồi quy logistic

Xây dựng mô hình hồi quy logistic là phương pháp nhằmxác định mối liên hệ

giữa các biến độc lập x với biến phụ thuộc y.

Cho một tần số biến cố x ghi nhận từ n đối tượng, chúng ta có thể tính xác suất

của biến cố đó là:

P =xn

P có thể xem là mộtchỉ số đo lường nguy cơ của một biến cố.

Một cách thể hiện nguy cơ khác làodds(tạm dịch odds làkhả năng) Khả năngcủa một biến cố được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trênxác suất biến cố không xảy ra:

Odds =P

1− P

Trang 12

Chỉ số odds

Trong trường hợp đang xét, odds chính là:

Odds =P (y = 1|x1, x2, )P (y = 0|x1, x2, ) =

P (y = 1|x1, x2, )

1− P (y = 1|x1, x2, )

Trong đó:

x1, x2, các biến cố độc lập (như pH, độ cứng, nồng độ sulfate, )

P (y = 1|x1, x2, ) là xác suất để trường hợp nước uống được xảy ra trong cácđiều kiện x1, x2,

P (y = 0|x1, x2, ) là xác suất để trường hợp nước không uống được xảy raxuất hiện trong các điều kiện x1, x2,

Odds là tỉ lệ xác suất giữa trường hợp y = 1 (nước uống được) với y = 0(nước không uống được) trong các điều kiện x1, x2,

Trang 13

Chỉ số odds

Chỉ số odds

Odds =P (y = 1|x1, x2, )P (y = 0|x1, x2, ) =

Trang 14

Hàm logit của P

Hàm logit của P được định nghĩa là:

logit(P ) = logb(odds) = logb

1− P

Trong hầu hết mọi trường hợp, cơ số b thường được dùng là sốe.

Mô hình hồi quy logistic được phát biểu rằng logit(P ) phụ thuộc vào giá trị củacác biến cố x1, x2, độc lập (có thể là liên tục hay không liên tục) thông qua hàm

logit(P ) = β0+ β1x1+ β2x2+ + βnxn (1)Trong đó:

log(Odds) hay còn được gọi là logit(p)x1, x2, , xn là các biến cố độc lập

β1, β2, , βnlà hệ số tương quan giữa các biến cố độc lập x và biến phụ thuộcy

β là hệ số tự do

Trang 15

Sử dụng mô hình hồi quy logistic để dự đoán kết quả

Bằng phép biến đổi ta có:

P (y = 1|x1, x2, ) = 1

1 + e−(β0+β1x1+β2x2+ +βnxn) (2)Biểu thức (2) dùng để dự đoán xác suất một sự kiện xảy ra, trong trường hợp này

là khả năng nước uống được trong các điều kiện x1, x2, Hệ số βứng với biến x:

β > 0 : x càng lớn, xác suất để y = 1 càng lớnβ < 0 : x càng lớn, xác suất để y = 1 càng nhỏ

Trang 16

Figure:Đồ thị hàm hồi quy logistic

Trang 17

Phương pháp

Hồi quy logistic sử dụng hàm phi tuyến tính để xác định xác suất của hai lớp 0 và1:

- Phép biến đổi nhằm dự báo giá trị xác suất luôn nằm trong đoạn [0;1].

- Mô hình hồi quy logistic ước lượng các hệ số cho từng biến độc lập, cho biếtmức độ tác động của từng biến đến xác suất dự đoán Các hệ số này đượcước lượng sao cho:

Dự báo xác suất lớn cho sự kiện đó xảy raDự báo xác suất nhỏ cho sự kiện đó không xảy ra

Trang 18

Giá trị ngưỡng

Khi dự báo giá trị thực tế Y = 1 hay Y = 0, ta có thể sử dụng một giá trịngưỡng t (0 < t < 1) để so sánh:

P (Y = 1)≥ t thì dự báo Y = 1P (Y = 1) < t thì dự báo Y = 0

Figure:Liên hệ giữa giá trị ngưỡng và dự báo

Trang 19

Chỉ số Odds Ratio

Mô hình hồi quy logistic cho thấy xác suất xảy ra của y (P ) phụ thuộc vào giá trịcủa x, vì thế mô hình trên có thể viết một cách chính xác hơn rằng khả năng xảyra y với điều kiện x là:

Trang 20

Ma trận nhầm lẫn (confusion matrix)

Ma trận nhầm lẫn (confusion matrix) là một bảng biểu thể hiện số lượng các

quan sát được phân loại đúng hoặc sai bởi một mô hình phân loại, so với cácnhãn thực tế của chúng.

Thực tế Âm tính thực Dương tính giả

0 (TN - True Negative) (FP - False Positive)

Thực tế Âm tính giả Dương tính thực

1 (FN - False Negative) (TP - True Positive)

Trang 21

Độ nhạy (Recall):

Recall =T PT P + F N

Độ đặc hiệu (Specificity):

Specificity =T NT N + F P

Precision =T PT P + F P

Trang 22

Đường ROC (Receiver Operating Characteristic Curve)

Đường cong ROC là một biểu đồ biểu diễn độ nhạy (Sensitivity) và độ đặc hiệu

(Specificity) của một mô hình phân loại dựa trên các giá trị ngưỡng t khác nhau.

Trong hồi quy logistic, ROC được sử dụng đểxác định giá trị ngưỡng tốt nhất

nhằm dự đoán liệu một quan sát mới là “không xảy ra” (Y = 0) hay “có xảy ra”(Y = 1).

Figure:Đồ thị đường biểu diễn ROC

Trang 23

Chỉ số AUC (Area Under the ROC Curve)

AUC là diện tích nằm dưới đường cong ROC AUC là một đánh giá tổng thể vềhiệu suất của mô hình phân loại.

dsffdsFigure:AUC - diện tích nằm dưới đường cong ROC (phần tô màu)

Kết luận

Giá trị AUC càng gần 1 thì mô hình phân loại càng tốt.

Trang 24

Trang 26

Xem cấu trúc dữ liệu

Sử dụng lệnhstrđể xem cấu trúc dữ liệu.

Kết quả:

Figure:Cấu trúc của bộ dữ liệu

Trang 27

Đặt tên biến và làm sạch dữ liệu

Đặt lại tên cho các biến

Để đơn giản trong việc gọi các biến, chúng ta đặt lại tên các biến.

colnames(dulieu1 = c("ph", "har", "TDS", "chl", "sul", "EC","TOC", "THMs", "tur", "Potability")

Kiểm tra các dữ liệu khuyết

Để đảm bảo bộ dữ liệu không có dữ liệu khuyết, ta tiến hành kiểm tra bộ dữ liệu.

Figure:Kết quả kiểm tra dữ liệu

Như vậy dữ liệu không có giá trị khuyết, tiếp tục làm các bước khác.

Trang 28

Đặt biến phân loại

Sử dụng lệnhas.factorđể phân biệt biến phân loại Potability với các biến rờirạc khác.

Kết quả:

Figure:Đặt biến phân loại

Trang 29

Trang 30

Tóm tắt dữ liệu

Để có cái nhìn rõ hơn về bộ dữ liệu, đầu tiên chúng ta biểu diễn tổng quan dữ liệucho các biến Hiển thị tổng quan về dữ liệu bằng cách sử dụng lệnhsummary.

Trang 31

Biểu đồ thống kê tần số cho biến PotabilitySau khi lập bảng tần số, ta vẽ được đồ thị thống kê:

Nhận xét: số mẫu nước không uống được chiếm tần suất thấp hơn khoảng 1.8

lần mẫu nước uống được Điều này cho thấy mẫu dữ liệu không cân bằng.

Trang 32

Đồ thị Boxplot thể hiện phân phối các biến

Trang 33

Trang 34

Trang 35

Trang 36

Đồ thị Histogram thể hiện phân phối các biến

Trang 37

Trang 38

Trang 39

Xác định mối tương quan giữa các biến

Figure:Ma trận tương quan giữa các biến

Nhận xét: các hệ số tương quan gần 0 hơn là 1 nên các biến cótương quantrung bình, với|rXY| < 0.8 nên các biến độc lậpkhông xảy ra hiện tượng đa cộngtuyến.

Trang 40

Xác định mối tương quan giữa các biến

Figure:Đồ thị corrplot của dữ liệu thể hiện hệ số tương quan giữa các biến

Trang 41

Trang 42

Mục tiêu: xác định có những nhân tố nào và tác động như thế nào đến khả năng

uống được của mẫu nước.

Xét mô hình hồi quy logistic bao gồm:Biến phụ thuộc: Potability

Biến độc lập: ph, har, TDS, chl, sul, EC, TOC, THMs, turMô hình được biểu diễn như sau:

logit(P ) = β0+ β1· pH + β2· har + β3· T DS + β4· chl + β5· sul + β6· EC +β7· T OC + β8· T HMs + β9· tur

Trang 43

Chia dữ liệu ban đầu thành 2 bộ: MXDdùng để xây dựng mô hình (65%) vàMKDdùng để kiểm định mô hình (35%).

Trang 44

Sử dụng lệnhstepvà tiến hành xây dựng mô hình hồi quy tối ưu thông qua

Chỉ số AIC (Akaike information criterion)

AIC = Deviance + 2.(số thông số)Trong đó, Deviance =−2

[Yilog(pi) + (1− Yi)log(1− pi)]với:

Yilà giá trị quan sát (0,1)

pi là xác suất tiên lượng

Đây là một tiêu chí dùng để kiểm tra mô hình cóphù hợpvới dữ liệu quan sát

không (trong hàm glm còn được gọi là Residual Deviance).

Trang 45

Trang 46

Trang 47

Trang 48

Sau 8 bước tìm mô hình bằng câu lệnh trên, độ phù hợp của mô hình càng đượccải thiện khi lần lượt loại bỏ các biến không quan trọng nhất ra khỏi mô hình chođến khi một điều kiện dừng lại được đạt được.

R dừng lại với mô hìnhgồm 2 biến har và TOCvì cógiá trị AIC thấp nhất.Xem tóm tắt kết quả bằng lệnhsummary:

Trang 49

Xây dựng mô hình hồi quy logisticMô hình tối ưu có phương trình dạng:

logit(P ) = β0+ β1· har + β2· T OC

Từ kết quả phân tích ta thu được: ˆβ0= 63.03, ˆβ1=−0.29, ˆβ2=−0.19

Ta đưa ra giả thuyết kiểm định hệ số ˆβi:

H0: ˆβi= 0 với i = 0, 1, 2H1: ˆβi̸= 0 với i = 0, 1, 2

Tiêu chuẩn kiểm định: z value =βˆi− 0s×√n

P-value (mức ý nghĩa nhỏ nhất tại đó giả thiết H0bị bác bỏ): P (z value >|Zqs|)

Trang 50

Xây dựng mô hình hồi quy logisticThông thường, nguyên tắc kiểm định1:

0, 1≤ P − value: thừa nhận H0

0, 05≤ P − value < 0, 1: cân nhắc cẩn thận trước khi bác bỏ H0

0, 01≤ P − value < 0, 05: nghiêng về hướng bác bỏ H0

0, 001≤ P − value < 0, 01: có thể ít băn khoăn khi bác bỏ H0

P− value < 0, 001: có thể hoàn toàn yên tâm khi bác bỏ H0

Nhận xét

Các giá trị P-value (Pr(>|z|)) của các hệ số ˆβ0, ˆβ1, ˆβ2lần lượt là 2.83× 10−7,

3.22× 10−7, 0.0283 đềunhỏ hơn mức ý nghĩa α = 5% Như vậy có đủ bằng

chứng để kết luận rằngβˆi̸= 0 hay ˆβi đều có ý nghĩa thống kê.

1

Trang 51

Tìm khoảng tin cậy 95% của βi

Khoảng tin cậy 95% của β0 là (42.567, 91.250), của β1 là (−0.424, −0.197)và của β2 là (−0.376, −0.028).

Trang 52

Tìm khoảng tin cậy 95% của Odds Ratio (OR)

Nhập:exp(cbind(OR = coef(mohinh) , confint(mohinh)))

Nhận xét: Tỉ số odds (OR) của biếnharlà 0.747 nghĩa là khi độ cứng tăng lên 1

mg/L sẽ làm khả năng nước uống được giảm 1− 0.747 = 0.253 hay 25.3%.

Tương tự đối với biếnTOC.

Trang 53

Kiểm tra tính chính xác của mô hình

Chúng ta sử dụng mô hình tối ưu nhất thu được từ mẫu xây dựng để dự đoánbiến Potability của mẫu kiểm định.

Trang 54

Lập bảng so sánh kết quả dự đoán

Dòng Observation là dữ liệu quan sát từ thực tế, dòng Prediction là giá trị ướctính từ mô hình.

Trang 55

Đánh giá mô hình - Sử dụng ma trận nhầm lẫn

Trang 56

114 = 0.0965

Trang 57

Đánh giá mô hình - Sử dụng ma trận nhầm lẫnTa cụ thể hóa ma trận nhầm lẫn như sau:

Độ đặc hiệu (specificity) = 35

35 + 6 = 0.8537 (tỉ lệ âm tính thật)=> Tỉ lệ dương tính giả = 1 - Độ đặc hiệu = 0.1463

Trang 58

Đánh giá mô hình - Sử dụng chỉ số AUC

Trang 59

Đánh giá mô hình - Sử dụng chỉ số AUC

Nhận xét: đường cong ROC của mô hình này gần với đường ROC tối ưu nên có

thể dự đoán mô hình có hiệu suất cao Ta tính giá trị chỉ số AUC để có được kếtluận.

Nhận xét

Giá trị AUC - phần diện tích phía dưới ROC là0.9736, cho thấy mô hình có khảnăng dự đoán cao.

Trang 60

Trang 61

Mô hình nhóm tìm được đã thỏa các tiêu chuẩn trên cũng như các tiêu chíđể kiểm tra mô hình ở phần trước với kết quả tương đối cao

2Nguyễn Văn Tuấn, (2014) Phân tích dữ liệu với R NXB Tổng hợp TPHCM

Trang 62

Đề xuất mở rộng nghiên cứu

Thu thập dữ liệu mới

Sử dụng dữ liệu từ các nguồn khác nhauThử nghiệm thêm tham số

Kết hợp mô hình logistic với các phương pháp khác

Trang 63

Trang 64

Tài liệu tham khảo

[1] Nguyễn Đình Huy, Đậu Thế Cấp, Lê Xuân Đại, Giáo trình xác suất và thốngkê, Nhà xuất bán Đại học Quốc gia TP Hồ Chí Minh, 2022.

[2] Hosmer, David W.; Lemeshow, Stanley, Applied Logistic Regression, New

York, 2013.

[3] Dục Đoàn Trình, Logistic Regression trong R, 2022.

[4] Nguyễn Văn Tuấn, Phân tích hồi quy logistic.

[5] Peter Dalgaard, Introduction Statistics with R, Second Edition, Springer,

[6] Applied Statistics with R, 2020.

[7] Dục Đoàn Trình, Confusion Matrix là gì? Các yếu tố quan trọng, 2021.

Trang 65

Thank you for your attention!