
Thỉnh thoảng chúng ta thấy những biểu đồ được “điều chỉnh” để làm cho độ ảnh hưởng lớn hay nhỏ. Đây là một thủ thuật cổ điển để nâng cao tầm ảnh hưởng có vẻ lớn hơn thực tế. Chẳng hạn như biểu đồ dưới đây so sánh số thu nhập của hãng Nokia trong năm 2000 là 30376 triệu Euro, và năm 2001 là 31191 triệu Euro. Nhưng để gây ấn tượng, người trình bày có thể thay đổi trục tung: thay vì bắt đầu từ 0, biểu đồ bắt đầu từ 30,000! Kết quả là một biểu đồ … ấn tượng.

Nhưng nếu biểu đồ được thiết kế lại với trục tung bắt đầu từ 0 (hình bên phải), thì kết quả không mấy ấn tượng. Do đó, vấn đề ở đây có yếu tố tâm lí. Biểu đồ bên trái cho thấy mức độ ảnh hưởng thị giác có vẻ cao hơn thực tế, nhưng biểu đồ bên phải có vẻ phản ảnh đúng với thực tế hơn. Tuy nhiên, đó chỉ là cảm nhận, chúng ta chưa có gì để định lượng sự khác biệt giữa mức độ ảnh hưởng thực tế và ảnh hưởng của biểu đồ. Chỉ số dối là một thước đo có thể dùng để đánh giá sự khác biệt giữa hai ảnh hưởng.
Chỉ số dối là một khái niệm không mấy phổ biến trong thế giới khoa học. Rất nhiều người làm nghiên cứu khoa học chưa bao giờ nghe đến chỉ số này (và do đó họ liên tục phạm sai lầm trong việc soạn biểu đồ!) Một cách ngắn gọn (và không cần dùng đến công thức toán), chỉ số dối phản ảnh mức độ lệch giữa độ ảnh hưởng trên biểu đồ và độ ảnh hưởng của dữ liệu. “Độ ảnh hưởng” ở đây phải hiểu theo nghĩa tiếng Anh là effect size. Chẳng hạn như nếu chúng ta có hai số liệu x1 và x2 của hai nhóm, thì “độ ảnh hưởng” ở đây là (x2 – x1)/x1 hay (x1 – x2)/x1.
Tufte khuyến cáo rằng việc thể hiện số liệu trên nền của biểu đồ phải theo tỉ lệ thuận với định lượng của trục tung và trục hoành. Nếu số liệu cho thấy tỉ lệ tăng trưởng là 30%, và biểu đồ cũng thể hiện con số đó, thì không có vấn đề gì. Nhưng nếu biểu đồ được thiết kế làm cho mức độ ảnh hưởng lớn hơn mức độ thật thì đó là một sự gian dối. Do đó, Tufte định nghĩa Lie factor (tạm dịch: Yếu tố dối) là tỉ số của mức độ ảnh hưởng trình bày trên biểu đồ với mức độ ảnh hưởng của số liệu. Gọi LF là yếu tố dối, định nghĩa này có nghĩa là:
LF = ESgraph / ESdata
Chúng ta có thể lấy một ví dụ sau đây để làm ví dụ. Trong biểu đồ dưới đây, tác giả trình bày nồng độ estrogen cho hai nhóm (Group 1 và Group 2). Nhìn qua biểu đồ, chúng ta có lẽ rất ấn tượng vì nồng độ estrogen có vẻ rất khác biệt giữa hai nhóm bệnh nhân. Nhưng nếu nhìn kĩ, chúng ta thấy có rất nhiều vấn đề trong biểu đồ này, nhưng chúng ta bàn qua yếu tố dối trước.

Hình 5: nồng độ estradiol của nhóm 1 và nhóm 2
ESdata = (15 – 10) / 10 = 0.5
ESgraph = (6 – 1) / 1 = 5
LF = 5 / 0.5 = 10
Giới báo chí thường hay dùng biểu đồ một cách … dối gian. Một ví dụ khác về yếu tố dối có thể xem qua biểu đồ dưới đây (trích từ một cuốn sách của Tufte). Biểu đồ cho thấy năm 1978, mỗi gallon xăng chạy được 18 mile, nhưng đến năm 1985 thì mỗi gallon xăng chạy được 25 mile, tức là xăng dầu càng ngày càng có hiệu suất kinh tế hơn.

Hình 6: Lượng xăng dầu tiêu thụ trên mỗi mile từ 1978 đến 1985
ESdata = (27.5 - 18) / 18 = 0.53 .
ESgraph = (5.3 – 0.6) / 0.6 = 7.83.
Nhưng biểu đồ dưới đây thì không có yếu tố gian dối, vì yếu tố dối bằng 1. (Các bạn có thể tính để kiểm tra).

Hình 7: nồng độ estradiol của nhóm 1 và nhóm 2
Tóm lại, nguyên tắc số 1 của trình bày dữ liệu bằng biểu đồ là nói lên sự thật về dữ liệu. Một cách để "nói lên sự thật" là tối thiểu hoá chỉ số dối bằng hoặc gần bằng 1 (như biểu đồ 7). Nhưng trong thực tế thì biểu đồ này vẫn chưa đạt yêu cầu của một biểu đồ tốt. Tại sao chưa đạt thì tôi sẽ giải thích trong một bài kế tiếp.
(Còn tiếp ...)
0 nhận xét:
Post a Comment