3章: データのクリーニング

3章: データのクリーニング

データのクリーニングは、データ分析の前に行う重要なステップです。この章では、Power Queryを使用してデータのクリーニングを行う方法を学びます。以下のトピックをカバーします。

  • 空白の削除
  • データの置換と分割
  • エラー値の処理
  • 条件付き列の作成
  • 重複データの削除と一意な値の抽出

空白の削除

クエリエディタでは、テキストデータ内の不要な空白を簡単に削除できます。空白の削除は、以下の手順で行います。

  1. 空白を削除したい列を選択します。
  2. [変換] タブの [テキスト列] グループから、[空白の削除] を選択します。
  3. 適切なオプションを選択して、空白を削除します。例えば、[先頭と末尾の空白を削除] や [すべての空白を削除] など。

データの置換と分割

クエリエディタでは、データの置換や分割も容易に行えます。

データの置換

データの置換は、以下の手順で行います。

  1. データを置換したい列を選択します。
  2. [変換] タブの [テキスト列] グループから、[値の置換] を選択します。
  3. [検索する値] と [置換後の値] を入力し、[OK] をクリックします。

データの分割

データの分割は、以下の手順で行います。

  1. データを分割したい列を選択します。
  2. [変換] タブの [テキスト列] グループから、[列の分割] を選択します。
  3. 適切なオプションを選択し、データを分割します。例えば、[区切り記号] や [文字数] など。

エラー値の処理

データの中には、エラー値や無効な値が含まれることがあります。クエリエディタを使って、エラー値を簡単に処理できます。

  1. エラー値を含む列を選択します。
  2. [ホーム] タブの [削除] グループから、[エラーを削除] を選択します。これにより、エラー値を含む行が削除されます。
  3. または、[ホーム] タブの [変換] グループから、[エラーの置換] を選択して、エラー値を別の値に置き換えることができます。

条件付き列の作成

クエリエディタを使って、条件に基づいて新しい列を作成することができます。条件付き列の作成は以下の手順で行います。

  1. [追加列] タブをクリックし、[条件付き列] を選択します。
  2. 新しい列の名前を入力し、条件を設定します。
  3. 条件に応じて返す値を指定し、[OK] をクリックします。

重複データの削除と一意な値の抽出

クエリエディタを使って、重複データを削除したり、一意な値を抽出したりすることができます。

重複データの削除

重複データの削除は以下の手順で行います。

  1. 重複を削除したい列を選択します。
  2. [ホーム] タブの [削除] グループから、[重複を削除] を選択します。これにより、選択した列の重複した値が削除されます。

一意な値の抽出

一意な値の抽出は以下の手順で行います。

  1. 一意な値を抽出したい列を選択します。
  2. [ホーム] タブの [保留] グループから、[一意な値を保留] を選択します。これにより、選択した列の一意な値のみが保持されます。

これで、3章のデータクリーニングに関する解説が終わりました。この章で学んだ技術を使用することで、データの品質を向上させ、データ分析に適した形に整形できます。

3章のまとめ

この章では、Power Queryを使用してデータのクリーニングを行う方法を学びました。具体的には以下のトピックを取り上げました。

  • 空白の削除
  • データの置換と分割
  • エラー値の処理
  • 条件付き列の作成
  • 重複データの削除と一意な値の抽出

これらの技術を活用して、データをより適切な形に整え、データ分析に向けた準備を行いましょう。

3章: データのクリーニング 演習問題

以下に示す演習問題を解いて、この章で学んだ内容を確認しましょう。

    1. 次の表のデータをクエリエディタにインポートし、氏名の列で先頭と末尾の空白を削除してください。
      氏名 年齢
      山田 太郎 28
      鈴木 次郎 35
    2. 次の表のデータをクエリエディタにインポートし、氏名列の「山田」を「山本」に置換してください。
      氏名 年齢
      山田太郎 28
      山田次郎 35
    3. 次の表のデータをクエリエディタにインポートし、エラー値を含む行を削除してください。
      氏名 年齢
      山田太郎 28
      鈴木次郎 Error
    4. 次の表のデータをクエリエディタにインポートし、年齢が30歳以上の場合、「シニア」、それ以外の場合、「ジュニア」の値を持つ新しい列「カテゴリ」を作成してください。
      氏名 年齢
      山田太郎 28
      鈴木次郎 35
  • 次の表のデータをクエリエディタにインポートし、重複するデータを削除してください。
    氏名
    山田太郎
    鈴木次郎
    山田太郎

これらの演習問題を解くことで、データのクリーニングに関するスキルをより実践的に習得できます。学んだ内容を活用して、データの品質を向上させ、分析に適した形に整形していきましょう。

PAGE TOP
タイトルとURLをコピーしました