Lược sử phân tích thống kê

Posted on March 13, 2015 by

2


Op-Economica, 13-3-2015 — Nhu cầu sử dụng thống kê trong đời sống hiện đại tăng lên rõ rệt nhờ sự phổ cập khoa học, giáo dục và các phương tiện thông tin nhanh chóng, chính xác. Tuy vậy, lịch sử thống kê đã phải trải qua nhiều giai đoạn “chiến đấu” để có vị trí xác lập trong tư cách một ngành khoa học với ý nghĩa đầy đủ nhất, thậm chí đã từng bị chính các nhà toán học coi là con rơi, cùng với đàn anh của nó là ngành xác suất.

Bài này được trích ra từ cuốn sách mới (tôi đang đọc dở) có tựa là Data analysis and statistics for geography, environmental science and engineering của GS Miguel F. Acevedo (Univ North Texas) xuất bản cách đây chưa lâu, năm 2013 tại NXB CRC Press (thuộc Taylor & Francis).

Hy vọng là nó tạo nguồn cảm hứng cho các bạn quan tâm tìm tòi nghiên cứu và ứng dụng thống kê trong công việc, dự án khoa học. Vẻ đẹp của thống kê là vẻ đẹp ẩn chứa đằng sau con số, suy diễn, lập luận về dữ liệu và kết quả. Bài viết này giúp hiểu hơn về quá trình ra đời và cảm nhận lý do vì sao thống kê – mặc dù sinh ra từ gốc toán học – lại có “mùi vị” ứng dụng và giàu tính thực nghiệm.

Lược sử phân tích thống kê/xác suất

Trong thế giới phương Tây, thống kê coi như được khởi đầu từ thế kỷ 17, tức là cách đây chỉ mới khoảng hơn 300 năm, và được coi là sinh ra từ John Graunt một nhà nghiên cứu tìm tòi cách tạo mối liên hệ giữa dữ liệu tử vong trong xã hội với y tế công bằng cách tạo ra các bảng kỳ vọng tuổi thọ. Vì thế, sự ra đời của thống kê tự nó đã có liên hệ trực tiếp với giải quyết các bài toán về dân số và bệnh dịch học, đây là những vấn đề nằm ở trái tim của ngành khoa học địa lý và sinh thái học.

Điều đáng lấy làm thú vị là cuốn sách năm 1662 của Graunt có tựa Natural and Political Observations Made upon the Bills of Mortality đã phát triển khuôn khổ nghiên cứu đa ngành kết nối phép đếm tử vong với các lứa tuổi với tình trạng y tế công. Thêm vào đó, bản thân từ “quan sát” trong tựa sách minh họa rõ cho sự thừa kế mang tính thực nghiệm của ngành thống kê, tức là thu thập và tổ chức dữ liệu, và tiến hành phân tích qua những dữ liệu này.

Natural And Political Observations Mentioned In A Following Index And Made Upon The Bills Of Mortality

Natural And Political Observations Mentioned In A Following Index And Made Upon The Bills Of Mortality

Về sau, và kéo dài suốt hơn một thế kỷ, thống kê trợ giúp các chính phủ, cũng hay gọi là “states,” phân tích các vấn đề về dân cư và kinh tế. Vì thế nên thống kê trong tiếng Anh và các tiếng phương Tây mới có gốc statistics; bắt nguồn từ chữ “Statistik” của tiếng Đức và “statistica” của tiếng Ý, với ý nghĩa là lãnh đạo công chúng hoặc quan chức.

Trên phương diện nghiên cứu lịch sử, người ta cũng quan tâm xem xét liệu thống kê có ra đời sớm hơn không, nhất là nhìn vào những thành tựu toán học và khoa học rất sớm của Hy Lạp, cách sử dụng dữ liệu điều tra dân cư của Ai Cập trong việc huy động xây các kim tự tháp, và bằng chứng về các dữ liệu dạng bảng ở Trung Hoa cổ. Tuy nhiên, người Hy Lạp đã không thực sự phát triển các hệ tiên đề vốn rất quan trọng cho ngành khoa học phát triển, như cách họ đã làm với ngành hình học.

Một số khác thì gán sự khởi phát này cho người Trung Hoa cổ, khoảng 2000 năm TCN, qua các bảng dữ liệu của nhà Hạ, nhất là trong công tác trị thủy, một công việc vẫn còn ý nghĩa tương tác con người-thiên nhiên trên khía cạnh tồn tại bền vững tới tận ngày nay ở nhiều nơi trên thế giới. Dường như thống kê sớm được sử dụng chính là ở Trung Hoa, qua việc thống kê nhân khẩu, ở các tỉnh và qua các loại hoạt động sản xuất. Phép cộng và phép chia trung bình đã có mặt trong cả sách toán cổ ở Trung Hoa từ thế kỷ thứ 7. Các quan lại sử dụng phép trung bình để tính mức ngũ cốc tiêu dùng đầu người và tiền thuế từng hộ phải đóng.

Trở lại với châu Âu, cũng trong thế kỷ 17, Pierre de Fermat và Blaise Pascal, được thúc đẩy bởi nhu cầu phân tích loại trò chơi đánh bạc may rủi (game of chance), đã sáng tạo ra cơ sở toán học cho lý thuyết xác suất. Chevelier de Mere đã khêu gợi mối quan tâm toán học nhằm giải quyết một trò chơi cờ bạc thời đó rất thịnh hành, trong khoảng 1 thế kỷ. Jacob Bernoulli và Abraham de Moivre lại tiếp tục phát triển lý thuyết xác suất trong thế kỷ 18. Một di sản lớn của giai đoạn này là việc phát hiện bản lề về tính trị số trung bình cho các kết cục cho một số lượng lớn các phép thử đã dẫn đến kết quả tiệm cận những giá trị được kỳ vọng bởi tính toán lý thuyết.

Cũng trong thế kỷ 18, Thomas Bayes đã đóng góp khái niệm xác suất có điều kiện, và Pierre-Simon Laplace đóng góp định lý giới hạn trung tâm, xuất phát từ nhu cầu tính toán phân phối của các góc nâng khí tượng. Công trình của Laplace về định lý giới hạn trung tâm xuất hiện vào những năm đầu tiên của thế kỷ 19 và ông tiếp tục hoạt động nghiên cứu hết sức bận rộn nhiều năm tiếp theo đó.

Những đột phá quan trọng của thế kỷ 19 bao gồm ứng dụng thống kê để xử lý những bất trắc trong các khoa học tự nhiên. Công cuộc khai phá này tiếp tục củng cố kết nối giữa lý thuyết và quan sát thực nghiệm, nhất là khi lý thuyết sai số ra đời để giải các bài toán trong quan trắc và thiên văn. Được khích lệ bởi vấn đề này, nhà toán học Đức Carl Friedrich Gauss (1777-1855) đã cho ra đời một “viên ngọc quý” đối với các mô hình dự báo: phương pháp bình phương nhỏ nhất.

Carl Friedrich Gauss

Carl Friedrich Gauss

Tương truyền, ông Gauss là giáo sư toán học khi chết đi để lại nhiều tài sản. Khi sinh thời, ông rất hay đánh cổ phiếu, và luôn có nhãn quan dự báo, sử dụng các phương pháp thống kê. Chú “ngựa cầy” bình phương nhỏ nhất của Gauss tiếp tục chạy miệt mài xuyên tới thế kỷ 21 của chúng ta ngày nay, vỡ hoang không biết bao nhiêu mảnh đất nghiên cứu từng tưởng như khô hạn, sỏi đá!

Vào thời khắc chuyển sang thế kỷ 20, một ngành khoa học mới ra đời có tên là cơ khí thống kê (statistical mechanics), trở thành một cột mốc quan trọng của khoa học vật lý sử dụng lý thuyết xác suất để giải thích những hành vi vĩ mô (macroscopic; ví dụ như nhiệt độ của loại khí) từ hành vi vi mô (microscopic; ví dụ chuyển động ngẫu nhiên của một số lượng lớn các phân tử).

Trong những năm cuối của thế kỷ 19, và đặc biệt là nửa đầu thế kỷ 20, tiếp cận thống kê và lý thuyết xác suất ngày càng được tích hợp với nhau, trở nên quan hệ khăng khít. 1/4 đầu thế kỷ 20 đã chứng kiến kỳ tích của nhà toán học Anh Ronald A. Fisher (1890-1962) giới thiệu các ý niệm đột phá của ngành như: suy diễn quy nạp, mức ý nghĩa thống kê, và phân tích tham số. Những ý niệm cách mạng này đã tạo dựng nên cơ sở tiên phong cho việc ước lượng và kiểm định giả thiết.

R.A. Fisher (1890-1962) cha đẻ của những khái niệm thống kê hiện đại quen thuộc ngày nay.

R.A. Fisher (1890-1962) cha đẻ của những khái niệm thống kê hiện đại quen thuộc ngày nay.

Nói về R.A. Fisher có lẽ chỉ cần mượn mấy từ của cố giáo sư Anders Hald – một nhà thống kê của Univ. Copenhagen chuyên đóng góp cho lịch sử ngành thống kê:

Một thiên tài người đã hầu như một tay mình tạo ra những nền tảng cơ bản cho khoa học thống kê hiện đại.”

Những khái niệm của Fisher lại tiếp tục được bồi bổ giàu có phong phú thêm nhờ công sức của J. Neyman và E.S. Pearson (1895-1980).

Riêng cá nhân tôi [Vương Quân Hoàng] xin mạn phép bổ sung đóng góp vĩ đại của Karl Pearson (1857-1936) là công thức “\chi^2”:

\chi^2 = \sum_i \frac{(O_i - E_i)^2}{E_i}

mà ngày nay giới khoa học gọi là công thức “khi bình phương của Pearson.” Công thức này luôn nằm trong danh sách 100 công thức vĩ đại nhất của các phát kiến nhân loại, và luôn có mặt trong các kiểm định tham số. Còn ông E.S. Pearson nhắc đến ở trên là con trai duy nhất của K. Pearson vĩ đại của thế giới xác suất-thống kê, và cũng giống cha mình, ông là một cây đại thụ của ngành thống kê toán.

Karl Pearson (18857-1936) cha đẻ của công thức "khi bình-phương" lừng danh.

Karl Pearson (1857-1936) cha đẻ của công thức “khi bình-phương” lừng danh.

Cũng vào lúc mà các tiếp cận thống kê và sự phát triển vượt bậc của lý thuyết xác suất đang trên đà hợp nhất, thì mối quan tâm ứng dụng thống kê trong nghiên cứu các vấn đề xã hội cũng nhanh chóng tăng lên, nhất là các ngành kinh tế học, tâm lý học và xã hội học. Đồng thời, các ngành kỹ thuật cũng nhanh chóng tìm thấy vũ khí mạnh trợ giúp, bao gồm khoa học đạn đạo, hệ thống điện thoại, hệ thống máy tính, kiểm soát chất lượng; cũng như các ngành khoa học tự nhiên truyền thống: sinh học, vật lý, hóa học và khí tượng thủy văn.

Ngày nay, thống kê và xác suất đóng một vai trò trung tâm trong địa hạt vẫn gọi là: toán ứng dụng.

Kể từ cuối thế kỷ 20, máy tính cá nhân trở nên phổ biến, và được kết nối với nhau mạnh mẽ, liên tục hơn. Loài người đứng trước một cơ hội to lớn, có thể thu nạp những khối lượng dữ liệu lớn với tốc độ cao chưa từng có trong lịch sử. Trọng trách tính toán được trao ngày càng nhiều cho các công việc xử lý dữ liệu của phần mềm, và nhà thống kê ngày càng chuyển vai trò sang phân tích đầu bài, thiết kế đầu bài, và xây dựng các quy chuẩn hợp cách cho công tác phân tích dữ liệu, thường là các phép tính nhiều bước, phức tạp và nhiều ràng buộc về điều kiện hợp lệ; bây giờ tốn sức máy hơn là sức người, thường hay gọi là “computation-intensive”.


Copyright ©2015 Làng Ộp.

Advertisements