-
Notifications
You must be signed in to change notification settings - Fork 19
/
Copy pathchapter01.Rmd
249 lines (143 loc) · 6.76 KB
/
chapter01.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
---
title: " 量化投资Using R"
subtitle: "第一章 数据科学家的工具箱"
author:
- 罗智超(ROKIA.ORG)
output:
pdf_document:
fig_caption: yes
keep_tex: yes
latex_engine: xelatex
toc: yes
header-includes:
- \usepackage{xeCJK}
---
\pagebreak
## 通过本章你将学会
- 配置你的工作环境
- 安装常用的R包
- 掌握RSTUDIO的基本功能
- 掌握git代码管理功能
##安装R
- 安装R环境
-- www.r-project.org
- 安装R应用包
-- 选择CRAN镜像(为厦大而骄傲,居然为中国高校中为数不多的几个镜像之一)
-- github
要想在CRAN上面发布一个包难度类似发表一篇一类核心的文章,因此,Hadley开发了一个devtools包),这样任何人都可以将自己开发的包上传到github上面,供别人下载安装
```{r,eval=FALSE}
#安装rticles包
install.packages("devtools")
install.packages("rmarkdown")
library(devtools)
install_github("rstudio/rticles")
```
-- R-forge
```{r,eval=FALSE,echo=TRUE}
install.packages("quantmod", repos = "http://R-Forge.R-project.org")
install.packages("TTR", repos = "http://R-Forge.R-project.org")
install.packages("FinancialInstrument", repos = "http://R-Forge.R-project.org")
install.packages("blotter", repos = "http://R-Forge.R-project.org")
install.packages("quantstrat", repos = "http://R-Forge.R-project.org")
install.packages("PerformanceAnalytics", dependencies=TRUE)
install.packages("xts", dependencies=TRUE)
```
-- Bioconductor.org
##安装RSTUDIO
- 操作演示
##安装GIT
- 操作演示
## Test Github config
##配置RSTUDIO+GIT+GITHUB
- 详见[配置指南](http://rokia.org/?p=315)
(1)注册GIT账号
(2)创建一个repository:DataAnalysis
(3)下载git、rstudio 并安装
(4)在rstudio-tools-global options-Git/Svn里面设置git.exe的路径,重启rstudio
(5)打开Git终端配置用户账户信息(注意区分大小写)
下面三句分别配置用户名、邮件地址以及创建公钥
git config --global user.name "zhichaoluo"
git config --global user.email "zhichao.luo@gmail.com"
ssh-keygen -t rsa -C zhichao.luo@gmail.com
(6)登陆github.com,在Personal settings-SSH keys-Add SHH key,将(6)第三句中创建的key的内容copy进去。
(7)在rstudio中新建project from version control-Git配置第(2)步中创建的repository的地址
git@github.com:zhichaoluo/DataAnalysis.git
有两种传输协议模式https和SSH模式,由于我们在第(5)(6)步骤创建了SHH key所以,我们可以选择这个模式。如果选择https模式,每次提交更新都要提示输入用户名密码,非常麻烦。
有关于Git的详细介绍可以参考下文[廖雪峰](http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000)
##安装CTEX
- 操作演示
- ctex.org
- mactex
- xcode
##RSTUDIO功能介绍
- 参数配置(全局、项目)
- 新建项目
- 文艺编程(case_Reproducible Report.rmd)
- RMARKDOWN
- 操作演示
##RSTUODIO+GITHUB代码管理
- 操作演示
##关于R工作空间管理的一些基础函数
```{r,eval=FALSE}
#注意:R是区分大小写,R里面的目录要用反斜杠/或者\\
getwd()
setwd("D:\\RPROJECT\\DataAnalysis\\data")
ls()
rm()
options(digits=3)
save.image("filename")
```
##常用的R包
```{r,eval=FALSE}
#google+top 100 r packages
dplyr
ggplot2
lubridate
stringr
reshape2
RColorBrewer
zoo
xts
scales
car
knitr
rmarkdown
devtools
rticles
RODBC
RJDBC
RSQLite
#sessionInfo()
```
## [如何查看R包源代码](http://rokia.org/?p=332)
- 简单的函数(非类函数),直接在R里面输入函数名就可以查看源代码,注意函数名后面不要加() 在命令行输入:help和help()的结果不一样,前者显示help函数的源代码,后者显示help()的帮助文档
- 对于类函数,直接输入函数名不能显示出源代码,例如:
summary
function (object, ...)
UseMethod("summary")
这时候需要用到methods() 函数,用法methods(FunctionName)如下:
> methods(summary)
[1] summary.aov summary.aovlist summary.aspell*
[4] summary.connection summary.data.frame summary.Date
[7] summary.default summary.ecdf* summary.factor
…………
Non-visible functions are asterisked 加星号标注不能直接输入函数名来看代码,因为它不在默认命名空间中。 但是可以通过getAnywhere() getS3method()来查看。
找到这个类函数里面你所关注的函数,输入函数名,回车,就可以查看代码了,如:
> summary.data.frame
对于非类函数使用methods会报出错误:
> methods("sample")
[1] sample.int
Warning message:
In methods("sample") : function 'sample' appears not to be generic
对于具体的函数,要搞懂它,可能看这些信息还不够,需要下载*.tar.gz,查看里面的源代码。这时候linux下的find命令就非常有用,具体可以问问谷哥和度娘。
- 直接上CRAN 下载源代码包。对于加星号标注的是不可见的方法 流程如下:
(1) 登入R主页 http://www.r-project.org/ ,点击 Download 下的CRAN
(2) 选择一个镜像
(3) 里面的Source Code for all Platforms就可以下载各种源码了,下面以下载程序包源码包为例,点packages
(4) 选择sorted的方式,推荐by name
(5) 找到你感兴趣的包,比如abind,点进去就可以看见Package source这一项,用tar.gz封装的,download就可以了,解压后就能看见源码了。一般源码都在R目录里面。
## 本周“大牛”
- K. Pearson 1879年毕业于剑桥大学数学系;曾参与激进的政治活动。出版几本文学作品,并且作了三年的律师实习。1884年进入伦敦大学学院(University College, London),教授数学与力学,从此待在该校一直到1933年。
- K. Pearson 最重要的学术成就,是为现代统计学打下基础。自从达尔文演化论问世后,关于演化的本质争论不断,在这方面他深受 Galton(达尔文表哥,「优生学」一词的发明者)与 Weldon 影响。 Weldon 1893年提出「所谓变异,遗传与天择事实上只是『算术』」的想法。这促使 K. Pearson 在1893-1912年间写出18篇〈在演化论上的数学贡献〉的文章,而这门「算术」,也就是今日的统计。许多熟悉的统计名词如标准差,成分分析,卡方检定都是他提出的。
- K. Pearson、Galton 与 Weldon 为了推广统计在生物上的应用,于1901年创立统计的元老期刊《Biometrika》, 由 K. Pearson 主编至死,但是 K. Pearson 的主观强,经常对他本人认为有「争议」的文章, 删改或退稿,并因此与英国本世纪最有才华的统计学家 Fisher 结下梁子。
- 1906年 Weldon 死后,K. Pearson 不再注意生物问题,而专心致志于将统计发展成一门精确的科学。