Từng bước sử dụng ngôn ngữ R trong thống kê (1)

Posted on February 9, 2015 by

1


OpEconomica, 9-2-2014 — Ngôn ngữ R là một công cụ rất hữu dụng cho phân tích dữ liệu thống kê, đặc biệt với các dữ liệu điều tra xã hội (liên tục và rời rạc).

Để sử dụng R, trước tiên cần cài đặt vào máy. Vì đây là một phần mềm miễn phí với mã nguồn mở nên việc tải về và cài đặt vào máy không quá khó khăn. Bước đầu, bạn cần truy cập vào website http://cran.R-project.org và tải phần mềm về máy (lưu ý chọn đúng bản R cho máy tính của mình). Bước thứ hai là tiến hành cài đặt, chỉ việc Next, Ok… cho tới khi màn hình cài đặt báo “Finish” là việc cài đặt đã xong.

Sau khi cài đặt thành công, trên màn hình máy tính sẽ có icon R, click chuột vào biểu tượng này, giao diện R sẽ được hiện ra với các thông số về bản R hiện hành và các thanh công cụ của bản đó, ở bên trên, góc trái.

r1

Giao diện khởi động của R, bản 3.1.2 cho Windows 64 bit.

Như vậy, R đã sẵn sàng để vận hành và cho bạn những kết quả đầu tiên như đọc dữ liệu, phân tích dữ liệu, vẽ biểu đồ, đồ thị, xử lý mô hình thống kê… Tuy nhiên, muốn R làm theo những gì bạn muốn thì bạn cần hiểu cách làm việc với R như thế nào, câu lệnh ra làm sao và khi cần thiết có thể tìm hướng dẫn ở đâu.

Một gợi ý cho những khúc mắc này là phần Help trên thanh công cụ của R. Các nội dung giới thiệu, hướng dẫn cách dùng R được các tác giả trình bày trong một file pdf đính kèm bản R đã cài trong máy và người dùng có thể xem bất cứ lúc nào cần thiết.

rintroductTuy nhiên, phần hướng dẫn này hoàn toàn bằng tiếng Anh và điều này có thể là trở ngại rất lớn với những người không thành thạo Anh ngữ. Rất may hiện nay có một số tài liệu tiếng Việt cũng hướng dẫn sử dụng R khá tỉ mỉ, trong đó phải kể đến tài liệu “Phân tích số liệu và vẽ biểu đồ bằng R” của GS. Nguyễn Văn Tuấn (viện Garvan – Australia), GS. Tuấn cũng có một loạt các video rất hữu ích đang được chia sẻ trên youtube.com về chủ đề này.

R không yêu cầu người dùng nhập dữ liệu trực tiếp vào phần mềm mà phân tích thông qua bảng dữ liệu có sẵn tại một nguồn nhất định, chẳng hạn ASCII hay Excel. Nếu bạn đã có một bảng dữ liệu Excel, bạn có thể vui mừng rằng R có thể đọc trực tiếp dữ liệu ở định dạng .xls hay .xlsx mà không cần phải chuyển qua một định dạng nào khác. Cách này cần phải cài đặt thêm gói lệnh (package) có tên là gdata cho R.

Nhưng đơn giản hơn mà không cần cài đặt, bạn có thể chuyển file Excel đang có sang file .csv và R sẽ đọc qua file này. Lưu ý rằng file Excel của bạn không chứa các ký hiệu lạ hay ký tự tiếng Việt, nếu không muốn phải mò mẫm trong hàng trăm, thậm chí hàng nghìn quan sát để tìm ra ký tự đó và sửa. Chế độ ký hiệu của máy tính về dấu “.” và “,” cũng nên để kiểu Anh, Mỹ (Decimal symbol là “.” và Digit group symbol là “,”) chứ không nên để kiểu tiếng Việt (Decimal symbol là “,” và Digit group symbol là “.”).

Nếu phải cài thêm gói, bạn cần biết tên gói lệnh cần phải cài đặt và dùng lệnh install.packages() nhưng khi lệnh này không thành công, bạn có thể thay thế bằng công cụ Packages trên giao diện R (Packages/Install Package(s)/CRAN mirror/Vietnam và tìm đến gói cần cài đặt). Chẳng hạn, khi cài gói scatterplot3d (để vẽ biểu đồ 3d) bằng câu lệnh install.packages(scatterplot3d) không thành công, sử dụng chức năng Packages trên thanh công cụ sẽ cho kết quả tốt hơn:rerrorfixR cho thấy tầm ảnh hưởng lớn trong nghiên cứu thống kê với thế mạnh về vẽ hình, biểu đồ đẹp và dễ dàng. Đây còn là công cụ mà người dùng chỉ cần tốn công mà không tốn tiền, không giống như SPSS, Stata, MATLAB… Nếu là người dùng từng quen với lập trình C+, C++ hay các chương trình có sử dụng ngôn ngữ tương tự (Latex chẳng hạn) sẽ thấy không quá khó. Nhưng nếu còn “gà mờ” với những công cụ trên và là một người ngại mày mò máy tính, ngại tìm tòi thì đây sẽ là thử thách không nhỏ.

Bài viết tới sẽ tập trung bàn về các câu lệnh trong R.

Advertisements
Posted in: Food for thought