Kaggle

Kaggle Titanic データで学ぶ、基本的な可視化手法

はじめに 【随時更新】Kaggle テーブルデータコンペで使う EDA・特徴量エンジニアリングのスニペット集におけるスニペットを主に利用して、 Kaggle の Titanic データ を利用して基本的なデータの可視化を行います。 前提 import numpy as np import pandas …

Kaggle IEEE 上位解法の理解と自身の反省、次のアクションについて

Kaggle IEEE にソロ参加しました。結果は・・・でしたが、学びが多かったので次回のコンペで活かせるように上位解法の理解と自身の反省、今後のアクションについてまとめました。 Very short summary - 1st place Main magic card, D, C, V カラムを使って、…

Kaggle テーブルデータコンペで使う EDA・特徴量エンジニアリングのスニペット集

随時追加していきます。間違いやもっとこうした方がいいなどあればコメントください。 前提 import pandas as pd import multiprocessing import numpy as np import seaborn as sns import sys from itertools import chain from collections import deque …

Pseudo Labeling(擬似ラベリング)を使ってみる

Kaggle Instant Gratificationで使われていた Pseudo Labeling(擬似ラベリング)について紹介します。参考: Pseudo Labeling - QDA - [0.969] Pseudo Labeling(擬似ラベリング)とは? Pseudo Labelingとは、ラベルのついたデータ(trainデータ)で学習したモデ…

How to Win a Data Science Competition: Learn from Top Kagglers Week2 講義メモ

全体概要 How to Win a Data Science Competition: Learn from Top Kagglers の講義メモ 機械学習の基礎がある前提で、Kaggleで上位に喰い込むための知識、スキルを身につけるための講義 解説者がロシア人?のため、若干英語に癖があるが字幕があるので問題無…

How to Win a Data Science Competition: Learn from Top Kagglers Week1 講義メモ

全体概要 機械学習の基礎がある前提で、Kaggleで上位に喰い込むための知識、スキルを身につけるための講義 解説者がロシア人?のため、若干英語に癖があるが字幕があるので問題無し Week1は、データの前処理についての解説がメイン Week1 データ分析コンペ Ka…

初 Kaggle Microsoft Malware Predictionに参加しました

はじめに Microsoft Malware Predictionが終了 自分にとって初Kaggleだったが最後まで飽きることなく続けることができた 結果は(Pub:265位, Pri:673位)と奮いませんでしたが、学びが多かったのと身に着けるべき知識等がわかったので満足 次は CareerCon 2019…

AWS スポットインスタンスでJupyterを起動するまで

Kaggleの Microsoft Malware Prediction に参加しています。分析にはローカルPCを使用していましたが、リソースが足りなくなることが多いため、パブリッククラウドで1番慣れているAWSのスポットインスタンスを使ってみたので、Jupyterを起動するまでの手順…

pandasのread_csv時にdtypeを指定してメモリの節約

Kaggleで大きいデータの取り扱い Microsoft Malware Predictionというコンペに参加しています。 このコンペでは与えられたデータが大きく、普通にread_csvだとローカルPCではメモリに乗りきりません。 こんな時いくつか方法がありますが、今回はread_csvのdt…