处理数据时,最头疼的就是格式不统一、空格乱码、重复值这些问题。是一款开源神器,专门解决这类脏数据,让你不用写代码就能快速完成清洗。
什么是
前身是的免费工具,专为杂乱数据设计。它支持CSV、Excel、JSON等多种格式,能处理百万行数据。与Excel不同,它可以记录每一步操作并随时撤销,非常适合探索式数据清洗。
数据清洗步骤
打开软件后,先创建项目并导入数据。接着使用“文本过滤”功能查找异常值,比如查看某一列是否有空值或错误拼写。利用“编辑单元格”下的“修剪前后空格”和“转为大写/小写”功能,快速统一格式。
怎么处理缺失值
面对空白单元格,点击“排序”把空值排到一起,然后用“替换”功能填入默认文本或平均值。更高级的做法是使用“基于列的填充”,从上下行相同字段复制数据。的“聚类”功能还能合并相似但写法不同的内容。
拆分合并列技巧
需要拆分姓名或地址时,选择“编辑列”下的“拆分成多列”,指定分隔符即可。合并两列则用“添加列”,输入公式如cells["姓"].value + cells["名"].value。所有操作都实时预览,不会破坏原始数据。
你平时清洗数据时最常遇到哪种脏数据?欢迎在评论区分享你的痛点,点赞让更多人学会这个神器。

