【即戦力・1日】データをキレイにする技術

【即戦力・1日】データをキレイにする技術

ご希望の日付と開始/終了時間を選択し、「カートに追加する」ボタンで決済にお進みください。

通常価格 ¥50,000 販売中

※決済には世界175ヵ国60万店舗で利用されているShopifyを利用しております。

※領収書がご入用の方は「法人のお客様」にて、ご不要の方は「個人のお客様」にて、お申込みください。

※オンラインによる遠隔からのご受講にも対応しています。環境設定についてはご案内ページを参照ください。

※受講いただいた皆さんへ同内容のUdemyコース(6時間動画)を無料プレゼント。

ほぼすべてのデータを利用するアプリケーションでデータを読み込ませるには、データがキレイな状態でなければなりません。そのための方法論と実際のやり方を共有いたします。

【こんなことを学びます】

Open Refineというオープンソースで無料のウェブアプリケーションを使用して「データをキレイにする」ための方法論と具体的な手法をご紹介します。

ほぼすべてのアプリケーションにおいて、データを利用するためには、データがキレイな状態でなければなりません。そのための方法論と実際のやり方を共有いたします。

単にクレンジングするのみならず、目的に合わせてデータを整形・加工も行なっていきます。自分の仮説に基づいてデータを用意・加工する。これこそが大事な工程ですが、可視化のサービス上では行うことができません(行える環境も一部もちろんありますが)。

・タイムスタンプのみのPOSデータに、営業時間としてのコンテクストを追加することで、コンテクストに基づいた集計を可能な状態にする

・住所データを元に緯度経度を付け加えることで、海外製の地図サービスにデータを掲載できる状態にする

・(同じ組織から公表されるデータは毎回同じような汚れ方をしているので)汚れたデータをキレイにする手順自体をファイル化してしまうことで、クレンジング手順の明文化・透明化を推進する

・ツイートデータから、時差を考慮した上で、ある時間帯や日付のみ抽出することで、自然言語の分析手法で活用できる状態にする

といったことが可能になります。

一般にデータ前処理とデータラングリングと呼ばれる行為はデータベースへの操作(集約、抽出)として語られることが多いです。本講習ではそういった言い方を避け、シンプルに「どんな順番」で「何をするべきか」をハンズオンで学んでいただきます。

【こんなデータを扱います】
実際公開されている公的なデータを用いて、クレンジングや整形をハンズオンで画面を見ながらやり方を学べます。

・ツイートデータ...トランプ大統領2018年全ツイート
・自治体データ...東京都スポーツ施設
・行政PDF...労働基準関係法令違反に係る公表事案

【持ち物】
ノートPCをご持参いただきます。事前準備はお申込者にご案内します。

【定員】
10名程度

【会場】
〒101-0021 東京都 千代田区 外神田 5-2-7 外神田下村ビル 4階
granica


【ご注意】
本講座資料を用いた、独自の講座の開催はお断りいたします。
ご参加いただいていない社内の方への資料の展開はお断りいたします。
著作権法違反となりますので、ご注意のほどお願いいたします。