コンペ

Kaggle テーブルデータコンペで使う EDA・特徴量エンジニアリングのスニペット集

随時追加していきます。間違いやもっとこうした方がいいなどあればコメントください。 前提 import pandas as pd import multiprocessing import numpy as np import seaborn as sns import sys from itertools import chain from collections import deque …

初 Kaggle Microsoft Malware Predictionに参加しました

はじめに Microsoft Malware Predictionが終了 自分にとって初Kaggleだったが最後まで飽きることなく続けることができた 結果は(Pub:265位, Pri:673位)と奮いませんでしたが、学びが多かったのと身に着けるべき知識等がわかったので満足 次は CareerCon 2019…

DockerコンテナでPython3、Jupyterの入ったデータ分析環境を作成

背景 データ分析コンペに参加した時に、爆速で Docker コンテナにデータ分析環境を生成するテンプレート を作りましたを参考に、DockerコンテナにJupyter notebookが使える環境構築をしたのでその手順についてまとめました。めちゃくちゃ早く環境構築ができ…

pandasのread_csv時にdtypeを指定してメモリの節約

Kaggleで大きいデータの取り扱い Microsoft Malware Predictionというコンペに参加しています。 このコンペでは与えられたデータが大きく、普通にread_csvだとローカルPCではメモリに乗りきりません。 こんな時いくつか方法がありますが、今回はread_csvのdt…

初コンペ SIGNATE 国立公園の観光宿泊者数予測で18位でした

参加の背景 国立公園の観光宿泊者数予測というデータ分析コンペに初めて参加しました。目的としてはデータ分析の一通りの流れを試行錯誤しながら学びたかったためです。データ分析コンペは初参加で、このコンペ後にMicrosoft Malware Predictionに参加予定で…