データクリーニング
データ入門
重複除去、欠損値処理、日付フォーマット統一、テキスト正規化などデータ整形作業を自動化します。整形前後の比較とスクリプトを合わせて提供します。
トリガー
/clean使用頻度週1-2回
オペレーション担当者なら? 取引先ごとに異なる日付フォーマットを/cleanで一括統一
データエンジニアなら? 繰り返しの前処理ロジックを再利用可能なスクリプトとして自動生成
データクリーニングETL前処理自動化
動作フロー
/clean [ファイル] 実行 → データプロファイリング
↓
フェーズ1: 4つの整形を並列実行
dedup
重複除去
null-handle
欠損値処理
format-fix
フォーマット標準化
outlier-fix
外れ値処理
↓
整形結果の比較 + スクリプト生成
↓
✓ 整形済みデータ + 再利用可能なスクリプト
スキルコード
# Data Cleaning Skill
## Trigger: /clean [file]
When invoked on a data file:
1. Profile data quality issues:
- Duplicate rows (exact + fuzzy)
- Missing values by column
- Inconsistent formats (dates, phones, addresses)
- Encoding issues (UTF-8, EUC-KR)
- Leading/trailing whitespace
2. Apply cleaning rules:
- Remove exact duplicates
- Standardize date formats → ISO 8601
- Normalize phone numbers → consistent format
- Fill missing values (strategy per column)
- Trim whitespace, fix encoding
3. Output format:
---
## 🧹 Data Cleaning Report
### Before / After
| Metric | Before | After |
|--------|--------|-------|
| Rows | [X] | [Y] |
| Duplicates | [X] | 0 |
| Missing values | [X%] | [Y%] |
### Actions Taken
1. Removed [N] duplicate rows
2. Standardized [column] date format
3. Filled [column] nulls with [strategy]
### Generated Script
```python
# Reusable cleaning script
[pandas/polars code]
```
---
コピーしてCLAUDE.mdに貼り付ければ、すぐに使えます。
データクリーニング の仕組み
Data Cleanerはデータセットの不整合(重複行、欠損値、フォーマットのばらつき、型の不一致)をスキャンし、標準化、重複排除、出力検証を行うクリーニングパイプラインを生成します。
データクリーニング が力を発揮する場面
生データが乱雑なあらゆるデータパイプラインで不可欠です。特に異なるフォーマット規約、日付形式、命名標準を持つ複数ソースからのデータを統合し、調和させる必要がある場面で威力を発揮します。
主な強み
- 重複、欠損値、フォーマットの不整合を検出
- 再現可能なクリーニングパイプラインを生成
- 異なるデータソース間でフォーマットを標準化
- クリーニング後の出力データ品質を検証