Oan khiên vì xác suất

Vietsciences- Nguyễn Văn Tuấn             11/09/2010

 

Những bài cùng tác giả

http://www.mathworks.com/matlabcentral/fx_files/23978/3/probability.jpg

 
Con số thống kê có thể kết tội và bỏ tù một người, bất kể người đó thuộc thành phần xã hội nào.  Trong những phiên tòa mà chứng cứ bằng hiện vật không đầy đủ, các công tố viên có khi sử dụng con số xác suất để như là một chứng cứ để tác động đến bồi thẩm đoàn rằng khả năng bị báo vô tội là rất thấp.  Một khi công tố viên “chứng minh” khả năng vô tội quá thấp, thì việc kết tội bị cáo quá dễ dàng.  Nhưng trong thực tế, rất ít công tố viên và bồi thẩm đoàn am hiểu xác suất, hoặc hiểu nhưng diễn giải sai.  Ngay cả các chuyên gia làm chứng (expert witness) cũng có khi tính toán sai.  Vì những sai lầm sơ đẳng về cách hiểu và tính toán, nhiều người vô tội đã bị kết án, và đôi khi hệ quả rất bi thảm cho người bị kết án sai.

 

 

Trường hợp Sally Clark

Một trong những kết cục bi thảm do hiểu sai thống kê và kết án sai là trường hợp của bà Sally Clark. Bà là một luật sư, xuất thân từ một gia đình trung lưu ở Anh.  Bà hạ sinh hai người con trai, nhưng cả hai đều chết một cách đột ngột sau khi sinh.  Đứa con đầu lòng chết lúc 11 tuần tuổi (1996).  Đứa con thứ hai chết lúc 8 tuần sau khi sinh (1997).  Cả hai đều không rõ nguyên nhân.  Trong y văn, những trường hợp này được gọi là “hội chứng đột tử” (SIDS – sudden infant death syndrome).  Ngay sau khi người con trai thứ hai chết, bà Clark bị cảnh sát bắt, hầu tòa, và bị kết tội giết con, bởi vì theo một chuyên gia y khoa, xác suất mà hai người con chết một cách ngẫu nhiên trong một gia đình trung lưu như thế là chỉ 1 trên 73 triệu.  Nói cách khác, theo chuyên gia này, xác suất hai trẻ chết trong gia đình không do yếu tố ngẫu nhiên là rất cao (hàm ý cố sát) và do đó ông đã thuyết phục bồi thẩm đoàn kết án bà Clark.

Con số xác suất (1/73 triệu) nổi tiếng đó là “tác phẩm” của ông Roy Meadow, người làm nhân chứng chuyên gia trong phiên tòa kết tội Sally Clark.  Ông Roy Meadow là một giáo sư nhi khoa, một chuyên gia có nhiều công trình nghiên cứu về hội chứng đột tử, và cũng chính là cha đẻ của hội chứng “Munchausen syndrome by proxy” (có nghĩa là hội chứng tâm lí mà cha mẹ có ý gây tổn thương cho con cái để được chú ý).  Ông còn là một người đấu tranh chống lạm dụng trẻ em, và là tác giả của cuốn sách “The ABC of Child Abuse”.  Do đó, “bằng chứng” của ông mang tính thuyết phục khá cao đối với bồi thẩm đoàn.

sally clark

Bà Sally Clark

Cho đến nay, nguyên nhân của đột tử vẫn chưa rõ ràng, nhưng yếu tố môi trường và di truyền được xem là quan trọng.  Giới y tế biết được 3 yếu tố nguy cơ có thể làm tăng nguy cơ đột tử: (i) mẹ dưới 27 tuổi; (ii) có người hút thuốc lá trong nhà; và (iii) gia đình thuộc diện nghèo khó.  Nếu gia đình không có bất cứ yếu tố nguy cơ nào thì xác suất đột tử là 1 trên 8543; gia đình có một yếu tố nguy cơ thì xác suất tăng lên 1/1616; 2 yếu tố nguy cơ: 1/596; và 3 yếu tố nguy cơ thì xác suất đột tử là 1/214.

Gia đình của Sally Clark không có yếu tố nguy cơ nào.  Do đó, Giáo sư Meadow lí giải rằng xác suất đột tử trong một gia đình trung lưu như Clark là khoảng 1 trên 8543.  Ông lí giải tiếp rằng nếu 2 trẻ cùng chết trong một gia đình thì xác suất là 1/8543 x 1/8543 và kết quả là khoảng 1 trên 73 triệu.  Nói cách khác, ông cho rằng xác suất mà Sally Clark có tội là 1 trừ cho 1/73.000.000 = 0.99999999999 (tức bằng 1 hay 100%).  Khi tòa án hỏi gợi ý tư vấn một chuyên gia về thống kê, thì cả công tố viên và Giáo sư Meadow đều nói rằng đây không phải là “rocket science” (ý nói vấn đề đơn giản) nên không cần đến chuyên gia thống kê.  Họ tự tin rằng họ thành thạo về thống kê và xác suất.  Toà án kết án bà Sally Clark phạm tội giết người, và phạt tù chung thân.

Khi sự việc được báo chí tường thuật, các nhà thống kê học bắt đầu chú ý, và họ chỉ ra hai sai lầm cực kì sơ đẳng nhưng rất tai hại trong lí giải của Gs Meadow.  Sai lầm thứ nhất liên quan đến giả định đằng sau cách tính, và sai lầm thứ hai là sự nhầm lẫn về ý nghĩa của xác suất.

Sai lầm thứ nhất là ông giả định rằng xác suất 2 trẻ em chết trong một gia đình độc lập với nhau (nên nhân 2 xác suất với nhau).  Giả định này sai, vì đột tử có thể có nguyên nhân từ môi trường và di truyền, mà hai em là anh em, tức có thể có cùng gen và cùng mẹ (cùng môi trường) nên 2 hiện tượng không thể độc lập.  Thật ra, nếu 1 trẻ bị đột tử thì xác suất trẻ thứ 2 chết bị đột tử rất cao.  Theo phân tích của Giáo sư Ray Hill (một chuyên gia về thống kê), nếu gia đình đã có một bé đột tử, thì xác suất đột tử của bé thứ hai tăng 10 đến 22 lần.  Nói tóm lại, cách tính của Giáo sư Meadow (nhân 2 xác suất) là hoàn toàn sai lầm.

Sai lầm thứ hai là giáo sư Meadow lẫn lộn giữa xác suất bà Sally Clark giết con với xác suất trùng hợp về đột tử.  Xác suất mà Gs Meadow tính toán là xác suất trùng hợp, tức là xác suất mà hai ca đột tử xảy ra một cách ngẫu nhiên.  Nhưng câu trả lời mà người ta cần biết là với dữ liệu nghiên cứu có được, xác suất mà bà Clark sát hại con là bao nhiêu.  Tiến sĩ Helen Joyce thì áp dụng Định lí Bayes với kết quả cho thấy xác suất đứa trẻ thứ 2 tử vong vì “nguyên nhân tự nhiên” (không phải cố sát) là 62.5%.

Ngày 29/1/2003, sau khi luật sư bà Sally Clark kháng án, với nhân chứng mới từ một giáo sư thống kê học, tòa án tuyên bố Sally Clark vô tội.  Tòa án cũng khiển trách Gs Meadow vì đưa bằng chứng sai.  Hội đồng y khoa Anh kỉ luật giáo sư Meadow, tước chức danh, và cấm hành nghề thầy thuốc.  Tuy nhiên, sau này, ông kháng án, và được cho hành nghề thầy thuốc, nhưng uy tín thì bị tổn hại nghiêm trọng.  Phần bà Sally Clark, sau khi trả tự do vài năm, bà qua đời vào tháng 3 năm 2007, thọ 42 tuổi.

Trường hợp Lucia de Berk

Một trường hợp diễn giải sai lầm ý nghĩa của xác suất cũng dẫn đến án tù cho một y tá ở Hà Lan.  Tháng 3/2003, Lucia de Berk bị cảnh sát Hà Lan truy tố ra tòa vì tội giết người và tội cố sát.  Thoạt đầu, chứng cứ trình bày trước tòa có vẻ thuyết phục.  Cảnh sát điều tra cho biết có 7 bệnh nhân trong bệnh viện Juliana đột ngột tử vong trong thời gian bà de Berk làm việc (1999-2001), và những trường hợp tử vong này xảy ra hoặc là gần, hoặc là ngay tại khu điều trị de Berk phục vụ.  Ngoài ra, de Berk tại hiện trường trong hầu hết những trường hợp tử vong xảy ra.  Tuy nhiên, ngoài bối cảnh câu chuyện, không có thêm chứng cứ bằng hiện vật nào chứng minh de Berk có liên can đến các trường hợp tử vong.  Ngay cả khi bốc mộ để phân tích DNA, người ta cũng không thấy dấu vết nào liên quan đến de Berk.  Tuy nhiên, dựa vào tính toán của luật sư và nhà thống kê tài tử, tòa tuyên kết án de Berk tôi giết người và cố sát, với án phạt tù chung thân.

Henk Elffers là một giáo sư luật và cũng là một nhà thống kê học tài tử.  Ông tính toán rằng xác suất mà de Berk hiện diện một cách ngẫu nhiên trong các trường hợp tử vong như thế là 1 trên 342 triệu.  Kết quả này thật ra là một tích số của hai trị số P mà ông tính từ một phương pháp kiểm định thống kê Fisher (còn gọi là Fisher’s test, lấy tên của Ronald Fisher, một “cha đẻ” của thống kê học hiện đại và một chuyên gia di truyền học nổi tiếng người Anh).  Dựa vào “chứng cứ” này, tòa án Hà Lan kết tội de Berk là giết người và cố sát, và phạt tù chung thân.  De Berk bị dư luận công chúng và báo chí cho là một người giết người hàng loạt (serial killer). Riêng de Berk trước sau vẫn duy trì rằng bà bị oan.

Nhưng nhà toán học Richard Gill cho rằng tòa án đã phạm phải sai lầm nghiêm trọng.  Con số 1/342 triệu là hoàn toàn sai, và chẳng liên quan gì đến trường hợp của de Berk.  Vì dữ liệu tính toán Elffers thu thập là từ khu điều trị của bệnh viện mà de Berk phục vụ, chứ không thu thập thêm dữ liệu ở các bệnh viện khác để so sánh.  Thêm vào đó, cách tính của Giáo sư Elffers là chẳng những cực kì vô lí, mà còn … hài hước; không một ai học thống kê mà nhân hai trị số P và đi đến một kết luận.  Cách tính của Elffers cho thấy ông ta chẳng biết gì về thống kê và xác suất.  Qua phân tích lại dữ liệu, Giáo sư Gill ước tính rằng “xác suất tình cờ” (trong trường hợp của de Berk xuất hiện tại hiện trường) là 1/48, thậm chí 1/5, chứ nhất định không thể nào 1 trên 342 triệu.

Lucia lacht

Lucia de Berk

Một sự kiện quan trọng khác mà tòa án không xem xét đến là trước khi de Berk về làm việc tại bệnh viện Juliana, đã có 7 trường hợp đột ngột tử vong cũng ngay hoặc gần khu điều trị mà der Berk làm việc.  Trong thời gian de Berk làm việc (1999-2001) có thêm 7 ca tử vong.  Sau khi bị các chuyên gia chỉ ra những sai lầm trong cách tính, một ủy ban đặc nhiệm đã được tòa án thành lập để thẩm định lại bản án.  Các chuyên gia gồm các bác sĩ và các nhà thống kê học cũng vận động để kháng án cho de Berk.  Đến năm 2008, bà được tạm trả tự do trong khi điều tra tiếp.

Ngay 14/4/2010 vừa qua, một phiên tòa phúc thẩm đã xem xét lại bằng chứng và lí giải của các chuyên gia, tòa án bác bỏ bản án cũ, và tuyên bố bà de Berk vô tội.  Công tố viện Hà Lan phải xin lỗi de Berk.  Các luật sư của bà đang "bận rộn" đòi bồi thường cho thân chủ họ.

Học xác suất ! (**)

Hai lĩnh vực luật và thống kê có một số điểm tương đồng, nhưng cũng có điểm khác nhau quan trọng.  Cả hai chuyên môn đều liên quan đến việc thu thập dữ liệu hay bằng chứng, xác định ý nghĩa của dữ liệu, và đi đến kết luận dựa vào dữ liệu và logic.  Tuy cả hai nhà thống kê học và luật sư đều có nhiệm vụ cung cấp tư vấn cho khách hàng, nhưng nhà thống kê học trình bày thông tin một cách khách quan không thiên vị ai (theo nguyên tắc khoa học), còn luật sư còn có vai trò biện minh cho khách hàng của mình và do đó họ trình bày thông tin thiếu tính khách quan.  Trong khi giới luật sư và tòa án đòi hỏi một câu trả lời "có" hoặc "không", "đúng" hay "sai", thì giới khoa học như nhà thống kê học không bao giờ phát biểu khẳng định.  Đối với khoa học, phương pháp khoa học và thống kê chẳng chứng minh một giả thuyết nào cả; mà chỉ có dữ liệu có nhất quán với giả thuyết hay không mà thôi, và ngay cả kết luận nhất quán cũng kèm theo một số điều kiện và giả định.  Thật vậy, bất cứ kết luận hay câu trả lời nào của giới khoa học thống kê cũng đều kèm theo điều kiện và giả định.  Mà, trong thực tế, nhiều khi chúng ta không biết được giả định đúng hay sai.  Do đó, tuy hai ngành nghề đều thu thập bằng chứng, nhưng cách trình bày và diễn giải bằng chứng thì rất khác nhau.

Đối với khoa học thống kê, bất định là một qui luật hơn là một ngoại lệ, và đây chính là điểm mâu thuẫn với tòa án.  Trong bất cứ lĩnh vực hoạt động nào của xã hội, trong cái nhìn của khoa học đều có yếu tố bất định.  Mỗi quyết định của con người, dù là chánh án tối cao, đều có khả năng sai lầm.  Mỗi hành động dù được thực hiện với ý định tốt nhưng đều có khả năng gây tác hại.  Ngược lại, đối với tòa án, bất định là điều khó chấp nhận, bởi vì phán quyết của tòa án là xác định.  Chính vì do ảo tưởng xác định nên trong quá khứ tòa án và luật pháp đã phạm phải nhiều sai lầm, và sai lầm của họ dẫn đến nhiều tai họa cho nạn nhân, cho người vô tội.  Nnhân vô thập toàn.  Không ai có thể tránh sai lầm.  Vấn đề đặt ra không phải là tránh sai lầm (vì điều này không thể), mà là làm sao tối thiểu hóa sai lầm và sống với bất định một cách sáng suốt.

Tình trạng bất định được định lượng hóa bằng con số xác suất.  Do đó, sống một cách sáng suốt với bất định chính là tối thiểu hóa xác suất sai lầm.  Các phương pháp thống kê hiện đại giúp cho chúng ta hạn chế sai lầm đến mức thấp nhất về lâu về dài.  Để hạn chế sai lầm, chúng ta cần phải hiểu ý nghĩa của con số xác suất và nhất là giả định đằng sau cách tính.

Về ý nghĩa của xác suất, có hai cách hiểu cơ bản.  Cách hiểu thứ nhất là xác suất là một tần số về lâu về dài.  Nói xác suất sai lầm 1% có thể hiểu rằng trong 100 quyết định tương tự về lâu về dài sẽ có 1 quyết định sai.  Ở đây, cái mâu thuẫn cơ bản của việc ứng dụng xác suất trong luật pháp là xác suất là con số được ước tính từ một quần thể với tử số nhỏ hơn mẫu số, còn quyết định của tòa án thường cho một cá nhân.  Một cá nhân thì không có mẫu số.  Do đó, nhìn như thế để thấy cách hiểu về xác suất theo ý nghĩa tần số không có giá trị cho tòa án.

Cách hiểu thứ hai về xác suất là một thước đo về khả năng, về mức độ tin cậy, hay một thước đo về tình trạng kiến thức.  Nói xác suất ông Obama thắng cứ 90% có nghĩa là theo cảm nhận cá nhân rằng ông ấy có khả năng thắng cứ cao hơn là thất cử.  Trong thực tế, chúng ta chẳng bao giờ chứng minh được điều gì 100% (xác định); chúng ta chỉ có thể thu thập chứng cứ, dữ liệu để tăng khả năng phán quyết đúng càng cao càng tốt.  Nhưng như trường hợp của Lucia de Berk và Sally Clark  cho thấy, vấn đề không phải là dữ liệu, mà là phương pháp thu thập và phân tích dữ liệu sao cho phù hợp với nguyên lí khoa học và logic.  Do đó, trong thế giới hiện đại (và luôn luôn bất định), công dân – kể cả các quan tòa và bồi thẩm đoán – chẳng những phải học chữ, mà còn phải học xác suất.

** Bài học về Thống Kê Sinh Học (Biostatistics)

nguyenvantuan.net

              http://vietsciences.free.fr  và http://vietsciences.org