- Khoa học thống kê và những phương pháp thống kê giúp chúng ta chuyển hóa dữ liệu thô thành thông tin, và với kiến thức chuyên ngành, biến thông tin thành tri thức.
- Thông tin dữ liệu thống kê tham khảo tại: www.statistics.vn/data
- Package là 1 phần mềm nhỏ được các nhà thống kê phát triển để giải quyết một vấn đề cụ thể, và có thể chạy trong hệ thống R.
- Viết lệnh trong R:
- phải tuân thủ nghiêm ngặt theo "văn phạm" và ngôn ngữ của R.
- Phân biệt chữ HOA và chữ thường.
- Khi có 2 chữ rời nhau, R thường dùng dấu chấm để thay vào khoảng trống, vd: data.frame, t.test, read.table....
- Từ điển R
- Command line: Dòng để gõ trực tiếp lệnh vào cái prompt
- Prompt: con nháy chuột ">"
- Thoát khỏi R:
- (X) góc trái cửa sổ
- lệnh q()
- "Văn phạm" R = lệnh (command) hay function ("hàm")- hàm chứa thông số
- VD: > reg <- lm (y ~x)
- reg là 1 object
- lm là 1 hàm
- y ~ x là thông số của hàm
- > setwd ("c:/works/stats")
- setwd là 1 hàm
- "c:/works/stats" là thông số của hàm
- args(x) : để biết 1 hàm cần có những thông số nào
- help ( ) để hiểu "văn phạm" của từng hàm.
- help ( )
- ? lm
- help.start ( )
- help ở trên thanh bar
- apropos ( ) cung cấp cho chúng ta tất cả các hàm trong R bắt đầu bằng ký tự mà chúng ta muốn tìm.
- apropos ("lm")
- R là 1 ngôn ngữ "đối tượng" (object oriented language) --> các dữ liệu trong R được chứa trong object. Định hướng này cũng có vài ảnh hưởng đến cách viết của R. VD thay vì viết x=5 như thông thường vẫn viết, thì R yêu cầu là x==5
- Cách viết x<-5 được khuyến khích hơn x=5
- Một số ký hiệu hay dùng trong R
- x == 5 (bằng)
- x != 5 (không bằng)
- y < x
- x > y
- z <= 7
- p >= 1
- is.na (x) (có phải x là biến số trống (missing value)
- A & B (AND)
- A | B (OR)
- ! (không là-NOT)
- # là ký hiệu để thêm vào các ghi chú
- Cách đặt tên trong R
- Không có dấu cách, vd:
- > myobject <- rnorm (10)
- > my.object <- rnorm (10)
- Không nên đặt tên biến bằng ký hiệu "-" hoặc "_"
- Không nên đặt tên 1 object giống như 1 biến số trong 1 dữ liệu. Bất đắc dĩ, VD có thể nếu Data.frame tên là "data" thì chúng ta sử dụng ký tự "$": age <- data$age
- Môi trường vận hành:
- Dữ liệu phải được chứa trong 1 khu vực (directory) của máy tính -> phải tạo 1 directory để chữa dữ liệu trước khi sử dụng R.
- sử dụng lệnh setwd(set working directory): > setwd ("c:/works/stats")
- R dùng forward slash "/" chứ ko phải backward slash "\"
- R có khả năng đọc dữ liệu trực tiếp trên mạng (website), vd; > setwd ("https://www.facebook.com/")
- Để biết R đang "làm việc"ở directory nào, dùng lệnh: > getwd ( )
Bước đầu tìm hiểu về R
Đăng ký:
Đăng Nhận xét
(
Atom
)
0 nhận xét:
Đăng nhận xét