R语言学习4–数据导入

less than 1 minute read

基本导入及问题修复

用read_csv()函数可以将csv文件粗略地转换为R中的数据框格式。但是，有很多问题R不能自动解决，需要人工分析。

多种格式书写的缺失值无法自动判别->显式指定na=c()
列名不规范:跳过（skip=n）或首行不做列名（col_names=FALSE）,或者janitor::clean_names()进行启发式命名格式整理
列名推断：

read_csv()默认的推断逻辑是：

Does it contain only F, T, FALSE, or TRUE (ignoring case)? If so, it’s a logical.

Does it contain only numbers (e.g., 1, -4.5, 5e6, Inf)? If so, it’s a number.

Does it match the ISO8601 standard? If so, it’s a date or date-time.

Otherwise, it must be a string.

如：

read_csv("
  logical,numeric,date,string
  TRUE,1,2021-01-15,abc
  false,4.5,2021-02-15,def
  T,Inf,2021-02-16,ghi
")
#> # A tibble: 3 × 4
#>   logical numeric date       string
#>   <lgl>     <dbl> <date>     <chr> 
#> 1 TRUE        1   2021-01-15 abc   
#> 2 FALSE       4.5 2021-02-15 def   
#> 3 TRUE      Inf   2021-02-16 ghi

如此逻辑导入的数据出现问题，用col_types强制指定。

写数据

write_csv()会将数据写成纯文本的csv格式。这个过程会损失所有的R数据结构中的列类别等信息。

可以写成rds或者parquet格式，通用且能够保留数据结构内部信息。

注：由于AI编程的趋势，无必要死记细节的语法，故本文较为简洁。重点在于处理非正常数据时能够发现问题并随机应变。文件导入过程的调整和数据清洗过程相辅相成，实践时应该注意。

Share on

X Facebook LinkedIn Bluesky

NAT66配置

less than 1 minute read

背景：西安交通大学学生住宿区拨号上网默认会下发一个/128的IPv6地址，由于前缀过短，无法划分子网给路由器下的设备使用，因此只能给子网设备分配内网地址，并且通过路由器的NAT66让所有子网设备使用同一个公网v6地址。第一步：开启IPv6内网ip下发在OpenWRT的Network-Interfaces-G...

Node Exporter+Prometheus+Grafana多机器服务监控系统搭建（2）

1 minute read

我们已经在上一篇文章中讲述了Grafana监控系统的搭建，但是要想不用定期看仪表板，我们还需要设置Grafana，让它自动告警。这篇文章中采用邮件告警方式，其他告警信道配置逻辑基本一致，可以根据自己需要尝试。第一步：邮件配置 Grafana页面中无法配置发信设置，需要在docker服务启动时传入环境变量。 ...

Node Exporter+Prometheus+Grafana多机器服务监控系统搭建（1）

2 minute read

前言当我们拥有的服务器和建立的服务越来越多，手动管理便会逐渐显得力不从心，与此同时确保自己能够顾及到所有服务的正常运行也颇具难度。想象下面的场景：一台不起眼的服务器上的一个不起眼的服务炸了，由于有比它重要得多的服务，因此几乎不太可能在它上面投入过多注意力，于是它便有可能维持炸的状态几周甚至几个月，这不是我们...

R语言学习3–数据清洗

4 minute read

”清洁的“数据要满足的标准每列为一个变量；每行为一个观测（observation）；每个单元格为一个值。例子： table1 #> # A tibble: 6 × 4 #> country year ca...

Sandro