Trong bài trước tôi đã mô tả triết lí và 4 nguyên tắc trong việc soạn biểu đồ khoa học. Tiếp theo bài đó, bài này sẽ bàn về lie factor mà tôi tạm dịch là yếu tố dối hay đúng hơn là chỉ số dối. Khái niệm chỉ số dối cũng là một phát kiến quan trọng của Gs Edward Tufte, nhưng rất ít người biết đến. Chỉ số dối cho phép chúng ta đánh giá một biểu đồ có "gian dối" hay không. Chỉ số dối cũng là một kim chỉ nam để chúng ta có thể thiết kế một biểu đồ đạt chuẩn mà không bị chỉ trích là thiếu thành thật.
Thỉnh thoảng chúng ta thấy những biểu đồ được “điều chỉnh” để làm cho độ ảnh hưởng lớn hay nhỏ. Đây là một thủ thuật cổ điển để nâng cao tầm ảnh hưởng có vẻ lớn hơn thực tế. Chẳng hạn như biểu đồ dưới đây so sánh số thu nhập của hãng Nokia trong năm 2000 là 30376 triệu Euro, và năm 2001 là 31191 triệu Euro. Nhưng để gây ấn tượng, người trình bày có thể thay đổi trục tung: thay vì bắt đầu từ 0, biểu đồ bắt đầu từ 30,000! Kết quả là một biểu đồ … ấn tượng.
Nhưng nếu biểu đồ được thiết kế lại với trục tung bắt đầu từ 0 (hình bên phải), thì kết quả không mấy ấn tượng. Do đó, vấn đề ở đây có yếu tố tâm lí. Biểu đồ bên trái cho thấy mức độ ảnh hưởng thị giác có vẻ cao hơn thực tế, nhưng biểu đồ bên phải có vẻ phản ảnh đúng với thực tế hơn. Tuy nhiên, đó chỉ là cảm nhận, chúng ta chưa có gì để định lượng sự khác biệt giữa mức độ ảnh hưởng thực tế và ảnh hưởng của biểu đồ. Chỉ số dối là một thước đo có thể dùng để đánh giá sự khác biệt giữa hai ảnh hưởng.
Chỉ số dối là một khái niệm không mấy phổ biến trong thế giới khoa học. Rất nhiều người làm nghiên cứu khoa học chưa bao giờ nghe đến chỉ số này (và do đó họ liên tục phạm sai lầm trong việc soạn biểu đồ!) Một cách ngắn gọn (và không cần dùng đến công thức toán), chỉ số dối phản ảnh mức độ lệch giữa độ ảnh hưởng trên biểu đồ và độ ảnh hưởng của dữ liệu. “Độ ảnh hưởng” ở đây phải hiểu theo nghĩa tiếng Anh là effect size. Chẳng hạn như nếu chúng ta có hai số liệu x1 và x2 của hai nhóm, thì “độ ảnh hưởng” ở đây là (x2 – x1)/x1 hay (x1 – x2)/x1.
Tufte khuyến cáo rằng việc thể hiện số liệu trên nền của biểu đồ phải theo tỉ lệ thuận với định lượng của trục tung và trục hoành. Nếu số liệu cho thấy tỉ lệ tăng trưởng là 30%, và biểu đồ cũng thể hiện con số đó, thì không có vấn đề gì. Nhưng nếu biểu đồ được thiết kế làm cho mức độ ảnh hưởng lớn hơn mức độ thật thì đó là một sự gian dối. Do đó, Tufte định nghĩa Lie factor (tạm dịch: Yếu tố dối) là tỉ số của mức độ ảnh hưởng trình bày trên biểu đồ với mức độ ảnh hưởng của số liệu. Gọi LF là yếu tố dối, định nghĩa này có nghĩa là:
Trong đó, ESgrap là mức độ ảnh hưởng của biểu đồ (effect size in graph), và ESdata là mức độ ảnh hưởng của số liệu (effect size in data). Biểu đồ nên được thiết kế sao cho LF gần bằng 1. Nói cách khác, LF càng cao thì mức độ nói dối càng cao.
Chúng ta có thể lấy một ví dụ sau đây để làm ví dụ. Trong biểu đồ dưới đây, tác giả trình bày nồng độ estrogen cho hai nhóm (Group 1 và Group 2). Nhìn qua biểu đồ, chúng ta có lẽ rất ấn tượng vì nồng độ estrogen có vẻ rất khác biệt giữa hai nhóm bệnh nhân. Nhưng nếu nhìn kĩ, chúng ta thấy có rất nhiều vấn đề trong biểu đồ này, nhưng chúng ta bàn qua yếu tố dối trước.
Để xem yếu tố dối, chúng ta cần phải tính mức độ ảnh hưởng của dữ liệu. Chú ý rằng Nhóm 1 có nồng độ estrogen là 10, và nhóm 2 là 15. Do đó, mức độ ảnh hưởng có thể tính bằng cách lấy giá trị cao nhất trừ cho giá trị thấp nhất, và chia kết quả cho giá trị thấp nhất:
Mức độ ảnh hưởng của biểu đồ có thể tính từ trục tung. Chú ý biểu đồ có 8 đường ngang (bắt đầu từ 0 đến 7), nhưng chúng ta chú ý từ 1 đến 6. Do đó, mức độ ảnh hưởng trên biểu đồ là:
Từ đó, chúng ta có thể ước tính yếu tố dối là:
Biểu đồ này có yếu tố dối quá cao. Mức độ ảnh hưởng trên biểu đồ cao gấp 10 lần mức độ ảnh hưởng thật. Chính yếu tố này giải thích tại sao chúng ta cảm nhận rằng mức độ ảnh hưởng rất cao, nhưng trong thực tế thì không hẳn như thế.
Giới báo chí thường hay dùng biểu đồ một cách … dối gian. Một ví dụ khác về yếu tố dối có thể xem qua biểu đồ dưới đây (trích từ một cuốn sách của Tufte). Biểu đồ cho thấy năm 1978, mỗi gallon xăng chạy được 18 mile, nhưng đến năm 1985 thì mỗi gallon xăng chạy được 25 mile, tức là xăng dầu càng ngày càng có hiệu suất kinh tế hơn.
Nhưng vì cách trình bày biểu đồ thiếu thành thật, nên làm cho chúng ta có ấn tượng rất tốt. Nhưng nhìn kĩ thì số liệu của năm 1978 là 18 inch dài, còn năm 1985 là 27.5 inch. Mức độ ảnh hưởng thật sự (tức từ dữ liệu) là:
Nhưng mức độ ảnh hưởng qua cách thiết kế biểu đồ thì rất cao. Chú ý rằng trục hoành cho năm 1978 là 0.6 inch, còn năm 1985 là 5.3 inch. Do đó, mức độ ảnh hưởng ảo trên biểu đồ là:
Như vậy, yếu tố dối gian là gần bằng 15! (LF = 7.83 / 0.53 = 14.8).
Nhưng biểu đồ dưới đây thì không có yếu tố gian dối, vì yếu tố dối bằng 1. (Các bạn có thể tính để kiểm tra).
Tóm lại, nguyên tắc số 1 của trình bày dữ liệu bằng biểu đồ là nói lên sự thật về dữ liệu. Một cách để "nói lên sự thật" là tối thiểu hoá chỉ số dối bằng hoặc gần bằng 1 (như biểu đồ 7). Nhưng trong thực tế thì biểu đồ này vẫn chưa đạt yêu cầu của một biểu đồ tốt. Tại sao chưa đạt thì tôi sẽ giải thích trong một bài kế tiếp.
Thỉnh thoảng chúng ta thấy những biểu đồ được “điều chỉnh” để làm cho độ ảnh hưởng lớn hay nhỏ. Đây là một thủ thuật cổ điển để nâng cao tầm ảnh hưởng có vẻ lớn hơn thực tế. Chẳng hạn như biểu đồ dưới đây so sánh số thu nhập của hãng Nokia trong năm 2000 là 30376 triệu Euro, và năm 2001 là 31191 triệu Euro. Nhưng để gây ấn tượng, người trình bày có thể thay đổi trục tung: thay vì bắt đầu từ 0, biểu đồ bắt đầu từ 30,000! Kết quả là một biểu đồ … ấn tượng.
Nhưng nếu biểu đồ được thiết kế lại với trục tung bắt đầu từ 0 (hình bên phải), thì kết quả không mấy ấn tượng. Do đó, vấn đề ở đây có yếu tố tâm lí. Biểu đồ bên trái cho thấy mức độ ảnh hưởng thị giác có vẻ cao hơn thực tế, nhưng biểu đồ bên phải có vẻ phản ảnh đúng với thực tế hơn. Tuy nhiên, đó chỉ là cảm nhận, chúng ta chưa có gì để định lượng sự khác biệt giữa mức độ ảnh hưởng thực tế và ảnh hưởng của biểu đồ. Chỉ số dối là một thước đo có thể dùng để đánh giá sự khác biệt giữa hai ảnh hưởng.
Chỉ số dối là một khái niệm không mấy phổ biến trong thế giới khoa học. Rất nhiều người làm nghiên cứu khoa học chưa bao giờ nghe đến chỉ số này (và do đó họ liên tục phạm sai lầm trong việc soạn biểu đồ!) Một cách ngắn gọn (và không cần dùng đến công thức toán), chỉ số dối phản ảnh mức độ lệch giữa độ ảnh hưởng trên biểu đồ và độ ảnh hưởng của dữ liệu. “Độ ảnh hưởng” ở đây phải hiểu theo nghĩa tiếng Anh là effect size. Chẳng hạn như nếu chúng ta có hai số liệu x1 và x2 của hai nhóm, thì “độ ảnh hưởng” ở đây là (x2 – x1)/x1 hay (x1 – x2)/x1.
Tufte khuyến cáo rằng việc thể hiện số liệu trên nền của biểu đồ phải theo tỉ lệ thuận với định lượng của trục tung và trục hoành. Nếu số liệu cho thấy tỉ lệ tăng trưởng là 30%, và biểu đồ cũng thể hiện con số đó, thì không có vấn đề gì. Nhưng nếu biểu đồ được thiết kế làm cho mức độ ảnh hưởng lớn hơn mức độ thật thì đó là một sự gian dối. Do đó, Tufte định nghĩa Lie factor (tạm dịch: Yếu tố dối) là tỉ số của mức độ ảnh hưởng trình bày trên biểu đồ với mức độ ảnh hưởng của số liệu. Gọi LF là yếu tố dối, định nghĩa này có nghĩa là:
LF = ESgraph / ESdata
Chúng ta có thể lấy một ví dụ sau đây để làm ví dụ. Trong biểu đồ dưới đây, tác giả trình bày nồng độ estrogen cho hai nhóm (Group 1 và Group 2). Nhìn qua biểu đồ, chúng ta có lẽ rất ấn tượng vì nồng độ estrogen có vẻ rất khác biệt giữa hai nhóm bệnh nhân. Nhưng nếu nhìn kĩ, chúng ta thấy có rất nhiều vấn đề trong biểu đồ này, nhưng chúng ta bàn qua yếu tố dối trước.
Hình 5: nồng độ estradiol của nhóm 1 và nhóm 2
ESdata = (15 – 10) / 10 = 0.5
ESgraph = (6 – 1) / 1 = 5
LF = 5 / 0.5 = 10
Giới báo chí thường hay dùng biểu đồ một cách … dối gian. Một ví dụ khác về yếu tố dối có thể xem qua biểu đồ dưới đây (trích từ một cuốn sách của Tufte). Biểu đồ cho thấy năm 1978, mỗi gallon xăng chạy được 18 mile, nhưng đến năm 1985 thì mỗi gallon xăng chạy được 25 mile, tức là xăng dầu càng ngày càng có hiệu suất kinh tế hơn.
Hình 6: Lượng xăng dầu tiêu thụ trên mỗi mile từ 1978 đến 1985
ESdata = (27.5 - 18) / 18 = 0.53 .
ESgraph = (5.3 – 0.6) / 0.6 = 7.83.
Nhưng biểu đồ dưới đây thì không có yếu tố gian dối, vì yếu tố dối bằng 1. (Các bạn có thể tính để kiểm tra).
Hình 7: nồng độ estradiol của nhóm 1 và nhóm 2
Tóm lại, nguyên tắc số 1 của trình bày dữ liệu bằng biểu đồ là nói lên sự thật về dữ liệu. Một cách để "nói lên sự thật" là tối thiểu hoá chỉ số dối bằng hoặc gần bằng 1 (như biểu đồ 7). Nhưng trong thực tế thì biểu đồ này vẫn chưa đạt yêu cầu của một biểu đồ tốt. Tại sao chưa đạt thì tôi sẽ giải thích trong một bài kế tiếp.
(Còn tiếp ...)
0 nhận xét:
Post a Comment