データクリーニング

データ入門

重複除去、欠損値処理、日付フォーマット統一、テキスト正規化などデータ整形作業を自動化します。整形前後の比較とスクリプトを合わせて提供します。

トリガー/clean

使用頻度週1-2回

オペレーション担当者なら？取引先ごとに異なる日付フォーマットを/cleanで一括統一

データエンジニアなら？繰り返しの前処理ロジックを再利用可能なスクリプトとして自動生成

データクリーニングETL前処理自動化

動作フロー

/clean [ファイル] 実行 → データプロファイリング

↓

フェーズ1: 4つの整形を並列実行

dedup

重複除去

null-handle

欠損値処理

format-fix

フォーマット標準化

outlier-fix

外れ値処理

↓

整形結果の比較 + スクリプト生成

↓

✓ 整形済みデータ + 再利用可能なスクリプト

スキルコード

# Data Cleaning Skill
## Trigger: /clean [file]

When invoked on a data file:

1. Profile data quality issues:
 - Duplicate rows (exact + fuzzy)
 - Missing values by column
 - Inconsistent formats (dates, phones, addresses)
 - Encoding issues (UTF-8, EUC-KR)
 - Leading/trailing whitespace

2. Apply cleaning rules:
 - Remove exact duplicates
 - Standardize date formats → ISO 8601
 - Normalize phone numbers → consistent format
 - Fill missing values (strategy per column)
 - Trim whitespace, fix encoding

3. Output format:
---
## 🧹 Data Cleaning Report

### Before / After
| Metric | Before | After |
|--------|--------|-------|
| Rows | [X] | [Y] |
| Duplicates | [X] | 0 |
| Missing values | [X%] | [Y%] |

### Actions Taken
1. Removed [N] duplicate rows
2. Standardized [column] date format
3. Filled [column] nulls with [strategy]

### Generated Script
```python
# Reusable cleaning script
[pandas/polars code]
```
---

コピーしてCLAUDE.mdに貼り付ければ、すぐに使えます。

データクリーニングの仕組み

Data Cleanerはデータセットの不整合（重複行、欠損値、フォーマットのばらつき、型の不一致）をスキャンし、標準化、重複排除、出力検証を行うクリーニングパイプラインを生成します。

データクリーニングが力を発揮する場面

生データが乱雑なあらゆるデータパイプラインで不可欠です。特に異なるフォーマット規約、日付形式、命名標準を持つ複数ソースからのデータを統合し、調和させる必要がある場面で威力を発揮します。

主な強み

重複、欠損値、フォーマットの不整合を検出
再現可能なクリーニングパイプラインを生成
異なるデータソース間でフォーマットを標準化
クリーニング後の出力データ品質を検証

同じカテゴリのスキル

データすべて見る

CSVデータ分析

CSVファイルを自動分析しインサイトと可視化を提供します。

SQLクエリビルダー

自然言語の質問をSQLクエリに変換します。

ダッシュボード作成

データを基にチャートとダッシュボードコードを自動生成します。

他カテゴリの人気スキル

セッションサマリー

ワークフロー作業セッション終了時に変更内容と次のタスクを自動で整理します。

スマートコミット

コーディング変更内容を分析し意味のあるコミットメッセージを自動生成します。

CLAUDE.mdビルダー

生産性プロジェクトを分析し最適化されたCLAUDE.mdを自動生成します。