Python

Kaggle Titanic データで学ぶ、基本的な可視化手法

はじめに 【随時更新】Kaggle テーブルデータコンペで使う EDA・特徴量エンジニアリングのスニペット集におけるスニペットを主に利用して、 Kaggle の Titanic データ を利用して基本的なデータの可視化を行います。 前提 import numpy as np import pandas …

JupyterLab で Jupyter notebook(ipynb)の 差分を見やすく Git管理する

TL;DR Jupyter Notebook で分析を進める際、バージョン管理をしたいと思いGitで管理をしてみましたが、普通に進めるとNotebook のメタデータによって差分がとても見づらかったので、JupyterLab の jupyterlab-gitと nbdimeエクステンションを利用し、差分を…

Python で AtCoder に参加するための環境準備1

記事の内容 AtCoder Begginner Contest に参加するときは、いつも AtCoder の環境(コードテスト)を利用していますが、少しでも提出までの時間を削減したいため、ローカルでテストができるように整備しています。まずは問題数分のファイルを生成するコードを…

Kaggle IEEE 上位解法の理解と自身の反省、次のアクションについて

Kaggle IEEE にソロ参加しました。結果は・・・でしたが、学びが多かったので次回のコンペで活かせるように上位解法の理解と自身の反省、今後のアクションについてまとめました。 Very short summary - 1st place Main magic card, D, C, V カラムを使って、…

Pseudo Labeling(擬似ラベリング)を使ってみる

Kaggle Instant Gratificationで使われていた Pseudo Labeling(擬似ラベリング)について紹介します。参考: Pseudo Labeling - QDA - [0.969] Pseudo Labeling(擬似ラベリング)とは? Pseudo Labelingとは、ラベルのついたデータ(trainデータ)で学習したモデ…

sklearn LabelEncoderクラス

LabelEncoderクラス LabelEncoder は、全てのカテゴリに対して数値によるIDを割り当てることができるクラスです。 タイタニックのデータにおけるsex、class、who列におけるカテゴリを数値に変換した例が下記になります。 参考 sklearn.preprocessing.LabelEn…

【読書メモ】ゼロから作るDeep Learning 6章

ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ 【読書メモ】ゼロから作るDee…

Pythonの内包表記について

Pythonには内包表記という、リストなどの iterableな オブジェクトのループ処理をシンプルに記述できる記法があります。今回は基本的な内包表記についてまとめてみました。 通常のリスト Pythonでリストに追加するには下記のように下記のが一般的ですが、内…

【読書メモ】ゼロから作るDeep Learning 5章

ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ 【読書メモ】ゼロから作るDee…

【読書メモ】ゼロから作るDeep Learning 4章

ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ 【読書メモ】ゼロから作るDee…

pandasのread_csv時にdtypeを指定してメモリの節約

Kaggleで大きいデータの取り扱い Microsoft Malware Predictionというコンペに参加しています。 このコンペでは与えられたデータが大きく、普通にread_csvだとローカルPCではメモリに乗りきりません。 こんな時いくつか方法がありますが、今回はread_csvのdt…

初コンペ SIGNATE 国立公園の観光宿泊者数予測で18位でした

参加の背景 国立公園の観光宿泊者数予測というデータ分析コンペに初めて参加しました。目的としてはデータ分析の一通りの流れを試行錯誤しながら学びたかったためです。データ分析コンペは初参加で、このコンペ後にMicrosoft Malware Predictionに参加予定で…

【読書メモ】ゼロから作るDeep Learning 3章

ゼロから作るDeep Learning ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ …

【読書メモ】ゼロから作るDeep Learning 2章

ゼロから作るDeep Learning ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ …

【読書メモ】ゼロから作るDeep Learning 1章

ゼロから作るDeep Learning ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 内容 プログラムの…