Giới thiệu sách “Phân tích dữ liệu với R”

Tôi rất hân hạnh giới thiệu cùng các bạn và đồng nghiệp cuốn sách “Phân tích dữ liệu với R” do tôi viết và mới được Nhà xuất bản Tổng Hợp ấn hành vào tuần vừa qua (1). Đây là một trong những cuốn sách tâm đắc nhất của tôi trong số 13 cuốn đã in ở Việt Nam, vì tôi nghĩ cuốn sách sẽ giúp cho hàng triệu sinh viên, nghiên cứu sinh, giảng viên và các nhà khoa học một phương tiện rất hữu hiệu cho phân tích dữ liệu.

Phân tích dữ liệu (data analysis) là một qui trình không thể thiếu được trong nghiên cứu khoa học và thương mại. Theo kinh nghiệm và cái nhìn của tôi, phân tích dữ liệu là một việc khám phá. Thử tưởng tượng sau khi chúng ta làm xong thí nghiệm hay hoàn tất một công trình nghiên cứu, chúng ta phải làm gì với rừng dữ liệu? Dĩ nhiên, chúng ta bắt đầu với mô tả, sau đó là cố gắng phát hiện những xu hướng và mối liên quan. Các mô hình và phương pháp thống kê đóng vai trò cục kì quan trọng cho mục tiêu mô tả và khám phá dữ liệu. Từ kinh nghiệm thực tế tôi có thể nói rằng không có thống kê học, hàng tỉ dữ liệu về gen chỉ là những con số vô hồn và vô dụng; nhờ thống kê học mà các nhà khoa học khám phá gen liên quan đến bệnh tật. Tư duy thống kê còn được ứng dụng trong việc đánh giá hiệu quả của thuốc trong y khoa, thẩm định hiệu quả của can thiệp trong giáo dục, xác định ảnh hưởng của các yếu tố liên quan đến các biến cố xã hội, và phát triển mô hình dự đoán trong kinh tế. Vai trò quan trọng của thống kê học trong đời sống xã hội và hoạt động khoa học đã được khẳng định từ hơn 200 năm qua.

Phân tích dữ liệu còn là một cách suy nghĩ vì nó cho phép chúng ta đặt câu hỏi nghiên cứu. Người bình thường có lẽ dừng ở bước tìm hiểu mối tương quan, nhưng người có tư duy phân tích dữ liệu sẽ đặt thêm câu hỏi về tầm quan trọng của mối liên quan. Trong thời đại “big data” (dữ liệu lớn) phân tích dữ liệu đang dần dần trở thành một khoa học: khoa học dữ liệu hay data science. Đây là một khoa học mới và đầy hào hứng mà các bạn có thể dấn thân. Do đó, muốn hay không thì tất cả các nhà chuyên môn, không chỉ nhà khoa học, cần phải làm quen hay ít ra là có kiến thức về phương pháp và mô hình phân tích dữ liệu.

Tuy nhiên, phân tích dữ liệu ở VN vẫn còn là một lĩnh vực khá mới mẻ và có thể nói là hơi sơ khai. Ở nước ngoài, hầu như đại học nào cũng có bộ môn thống kê học, nhưng hầu hết các đại học VN không có chương trình dạy khoa học thống kê cấp cử nhân. Co trường có chương trình dạy thống kê, nhưng chương trình dạy thì thuộc vào loại … cổ điển từ thời bao cấp. Một số chương trình dạy thì nhìn qua rất nặng về toán, nhưng cũng chỉ là loại toán thống kê sơ đẳng. Những chương trình dạy như thế không giúp gì cho sinh viên trong hội nhập quốc tế, mà còn làm cho họ thấy rối rắm thêm và chán nản thống kê học. Chính vì thế mà có nhiều công trình nghiên cứu được thiết kế sai vì tác giả chưa am hiểu nguyên lí thống kê. Rất nhiều bài báo khoa học ở VN chỉ dừng lại ở mức phân tích mô tả, nhưng ngay cả phân tích mô tả cũng có khá nhiều sai sót. Đây là một thiệt thòi cho khoa học VN vì nhiều công trình nghiên cứu sẽ không có cơ hội xuất hiện trên tập san quốc tế do phân tích dữ liệu chưa đúng phương pháp.

Nội dung sách này được soạn nhằm đáp ứng một phần nhu cầu của khoa học dữ liệu. Sách bao gồm 22 chương và 2 phụ lục, giải thích các phương pháp phân tích thống kê đơn giản đến các mô hình phân tích tinh vi. Sau phần các mô hình hồi qui tuyến tính, sách giải thích mô hình hồi qui logistic và mô hình phân tích sống còn (survival analysis) vốn thường được ứng dụng trong y khoa và xã hội học. Mô hình ảnh hưởng hỗn hợp (mixed effects model) được dành riêng một chương với những ví dụ cụ thể và giải thích từng bước một mà bất cứ ai cũng có thể hiểu được và áp dụng được. Phân tích dãy số liệu thời gian (time series analysis) cũng được dành một chương khá dài, và các khái niệm như autoregressive, moving average, và các mô hình AR, MA, ARIMA đều được minh hoạ bằng những ví dụ cụ thể. Ngoài ra, tôi còn thêm 4 chương về phương pháp phân tích tổng hợp (meta-analysis), phương pháp bootstrap, phương pháp Bayes (và phần mềm WinBUGS), và phương pháp ước tính cỡ mẫu. Riêng chương phương pháp ước tính cỡ mẫu có lẽ là đầy đủ nhất so với tất cả các sách giáo khoa ngoại quốc, và tôi tin rằng bạn đọc sẽ thích.

Kinh nghiệm của tôi cho thấy người mới dùng R khó nhớ hết các lệnh, vì thế tôi soạn phần phụ lục có tất cả các lệnh/hàm R cho mỗi mục tiêu phân tích. Các bạn có thể xem đây như là một tham khảo chính khi cần đến cú pháp R. Nói chung, tôi tin rằng cuốn sách này sẽ giúp ích cho rất nhiều bạn đang có nhu cầu học và ứng dụng thống kê.

Tôi xem cuốn sách này thuộc vào nhóm ứng dụng, chứ không phải lí thuyết. Nhiều phương pháp và mô hình phân tích, tôi chỉ nói qua khái niệm và ý tưởng là chính, chứ không đào sâu chứng minh những phát biểu. Do đó, bất cứ ai, kể cả học sinh trung học, cũng có thể sử dụng những phương pháp và mô hình mô tả trong sách. Tôi đặc biệt quan tâm đến cách diễn giải kết quả phân tích, vì tôi nghĩ nếu phân tích xong mà không biết ý nghĩa của kết quả là gì là một sự phí thời gian. Dĩ nhiên, để giải thích kết quả phân tích cặn kẽ đòi hỏi người phân tích phải am hiểu lĩnh vực nghiên cứu của mình. Tôi là một chuyên gia về loãng xương, nên tôi minh hoạ những ví dụ phân tích bằng các nghiên cứu loãng xương của chính tôi và một số dữ liệu của đồng nghiệp. Nhưng qua các ví dụ minh hoạ, tôi tin rằng các bạn sẽ thấy rất dễ ứng dụng cho trường hợp của các bạn.

Tại sao R? Đối với các bạn đã quen với những phần mềm phân tích thống kê thì sẽ không ngạc nhiên với cái tên “R”, nhưng đối với các bạn chưa nghe qua R, thì tôi nghĩ tôi cần phải có đôi lời giải thích. R được xem như là một ngôn ngữ và môi trường cho phân tích thống kê (chứ không đơn giản chỉ là một phần mềm). Lịch sử ra đời của R khởi đầu từ năm 1995, khi hai nhà thống kê học là Ross Ihaka và Robert Gentleman thuộc Đại học Auckland (Tân Tây Lan) phát triển R và tất cả mã máy tính đều được công bố và cộng đồng thống kê học có thể sử dụng và cải tiến. Chỉ trong vòng 5 năm, R đã trở thành một “phần mềm” máy tính dùng cho giảng dạy thống kê. Sau đó, R đã được phổ biến và phát triển cực kì nhanh, và một cách không chính thức trở thành một ngôn ngữ thống kê học. Cho đến nay, R đã được sử dụng cho phân tích dữ liệu (và giảng dạy) trong hầu hết các trường đại học và trung tâm nghiên cứu trên thế giới. Các đại công ti như Google và Microsoft cũng đều sử dụng R trong phân tích dữ liệu. Nhật báo New York Times cũng chú ý đến sự phổ biến của R vì càng ngày càng có nhiều tập đoàn kĩ nghệ sử dụng R trong quản lí và phân tích dữ liệu.

Sự phổ biến của R có nhiều lí do, kể cả sự miễn phí và năng lực khoa học. Không giống như các phần mềm thương mại như SAS, SPSS hay Stata đều tốn khá nhiều tiền, R hoàn toàn miễn phí. Bất cứ ai ở bất cứ nơi nào trên thế giới có truy cập mạng internet đều có thể tải R về máy tính, tốn vài phút cài đặt, và bắt đầu sử dụng. Trước đây, chỉ có một thiểu số nhà nghiên cứu trên thế giới (chủ yếu là ở các nước tiên tiến) mới có điều kiện sử dụng các phần mềm thống kê, nhưng từ ngày có R bất cứ ai trên thế giới cũng đều có điều kiện áp dụng những phương pháp phân tích tinh vi nhất và hiện đại nhất cho nghiên cứu khoa học và phân tích dữ liệu. Do đó, sự ra đời của R đã làm một cuộc cách mạng thống kê ở qui mô toàn cầu. R còn “dân chủ hoá” việc tiếp cận các phương pháp phân tích dữ liệu tiên tiến nhất trên thế giới.

Cuốn sách nào cũng có một lịch sử của nó, và cuốn này cũng không phải là ngoại lệ. Tôi bắt đầu làm quen với R (nói đúng hơn là học R) từ năm 2004. Lúc đó, tôi có một dự án phân tích gen khá lớn (ngày nay gọi là “big data”) và người ta đến chào hàng tôi một phần mềm với cái giá 100 ngàn USD. Ngân sách của dự án không có phần nào dành cho mua phần mềm nên tôi đành lắc đầu. Đang lúng túng chẳng biết làm gì với dữ liệu quan trọng này, thì một em nghiên cứu sinh trong lab của tôi tên là Steven Frost đề ra giải pháp: dùng R. Sau đó Steven giới thiệu tôi đến các chương trình chuyên dụng dùng R cho phân tích gen. Thế là tôi có một phần mềm phân tích dữ liệu lớn mà chẳng tốn một cent. Càng sử dụng R tôi càng thích và bỏ qua các phần mềm thương mại khác. Cho đến nay, tôi sử dụng R và chỉ R cho tất cả các công trình nghiên cứu của tôi, từ phân tích biểu đồ đến mô hình dữ liệu.

Có lẽ tôi là người đầu tiên giới thiệu và du nhập R vào VN. Năm 2005, trong một workshop tại Đại học Bách Khoa TPHCM tôi giới thiệu R trong phân tích dữ liệu. Có người than khó, nhưng cũng có người rất thích. Năm 2006, tôi viết cuốn sách về R và xuất bản chỉ 800 quyển (còn số lưu hành thì chắc nhiều hơn con số đó). Từ đó, tôi đã đi từ Nam chí Bắc thực hiện các workshop về phương pháp nghiên cứu khoa học bằng R cho rất nhiều đại học và trung tâm nghiên cứu. Tôi thậm chí còn có cơ hội giảng dạy về R cho các tổ chức quốc tế như WHO và World Bank. Có thể nói rằng VN đã và đang hình thành một cộng đồng R. Do đó, cuốn sách này được soạn ra để đáp ứng nhu cầu của cộng đồng R và cộng đồng đại học nói chung ở VN.

Như tôi có viết trong lời dẫn nhập của sách, không có một cuốn sách nào là hoàn hảo cả, và cuốn này cũng chắc chắn không phải là một ngoại lệ. Cuốn sách này là một nỗ lực cá nhân trong những ngày … dưỡng bệnh, và vì “Nhân vô thập toàn” nên sách chắc có thiếu sót và sai sót. Do đó, nếu các bạn tìm thấy những sai sót trong sách, các bạn có thể email về cho tôi để lần tái bản sau hoàn chỉnh hơn. Bây giờ tôi mời các bạn đi một hành trình về khoa học thống kê qua cuốn “Phân tích dữ liệu với R”.

Sách có thể mua ở các đại chỉ sau đây:

Nhà sách Minh Khai

249 Nguyễn Thị Minh Khai, Q1

Phone: (08) 3925-0590

Nhà sách Tổng Hợp I

62 Nguyễn Thị Minh Khai, Q1

Phone: (08) 3925-6713

Nhà sách Tổng Hợp II

86-88 Nguyễn Tất Thành, Q4
Phone: (08) 3943-3868

Nhà sách FAHASA

249 Nguyễn Huệ, Q1

Ở Hà Nội có thể mua sách từ Nhà sách Tân Việt, số 7 Đinh Lễ

(1) http://www.nxbhcm.com.vn/Chi-tiet-sach/1439/phan-tich-du-lieu-voi-r.aspx