数据清洗|字符型变量运算
一、字符简单运算
1 | ** 生成文本型变量 |
二、文本匹配
1 | ** 字符条件匹配 |
三、文本提取
文本提取命令有 substr
和 usubstr
,两个用法基本一致。但 substr
需要考虑编码,一个中文字符占
3 个英文字符,usubstr
则不需要考虑编码问题。
1 | ** 将地址前两个中文字符提取为省份名称 |
四、变量分列
使用 split
命令可以实现字符型变量的分列。
基础命令:
1 | // strvar 表示字符型变量 |
使用 destring
这一选项,可以将生成的变量转化为数值型变量。在使用 destring
后,就可以使用剩下的 4 个 destring options。
示例 1:
1⃣️ 提取日期、时间等数据中的信息;2⃣️ 将百分数转化为分数。
示范数据:
(⚠️注意:不同设备的显示字体不同,可能会出现字符错位的现象。将错位的文本复制到其他文本编辑器 / Stata do 文件编辑器中,可以解决此问题。)
1 | /* 示范数据: |
命令:
1 | ** 把从字符型的日期和时间中提取数据 |
结果展示:
1 | /* 结果展示: |
示例 2:
提取省、市、县等地址信息
命令:
1 | ** 从地址中提取地理位置信息 |
结果展示:
1 | /* 结果展示: |
进一步处理:
1 | ** 替换方法: |
五、字符型变量函数
转载请联系作者,并注明文章来源 https://fgzfgz.github.io
评论