2019-01-01から1年間の記事一覧

Python で AtCoder に参加するための環境準備1

記事の内容 AtCoder Begginner Contest に参加するときは、いつも AtCoder の環境(コードテスト)を利用していますが、少しでも提出までの時間を削減したいため、ローカルでテストができるように整備しています。まずは問題数分のファイルを生成するコードを…

Kaggle IEEE 上位解法の理解と自身の反省、次のアクションについて

Kaggle IEEE にソロ参加しました。結果は・・・でしたが、学びが多かったので次回のコンペで活かせるように上位解法の理解と自身の反省、今後のアクションについてまとめました。 Very short summary - 1st place Main magic card, D, C, V カラムを使って、…

Kaggle テーブルデータコンペで使う EDA・特徴量エンジニアリングのスニペット集

随時追加していきます。間違いやもっとこうした方がいいなどあればコメントください。 前提 import pandas as pd import multiprocessing import numpy as np import seaborn as sns import sys from itertools import chain from collections import deque …

AWS認定試験勉強の後半戦は Whizlabs で問題を解きまくるといい

はじめに 最近AWS認定ソリューリョンアーキテクトアソシエイト(SAA)の資格を取得しました。取得スコアは867、合格に必要なスコアは720だったので、悪くない点数が取れたかと思います。 勉強法については、Qiitaやブログなどを参考にしました。例えば AWS認定…

AWS東京リージョンで発生したシステム障害についてのまとめ

AWS

AWS東京リージョンで発生したシステム障害について、普段AWSに触れることがない人でも理解できるようにまとめてみました。アップデートがあり次第更新予定です。 8/25 障害の詳細についてのAWSからのメッセージを追記 8/28 追加の障害報告についてのAWSから…

Pseudo Labeling(擬似ラベリング)を使ってみる

Kaggle Instant Gratificationで使われていた Pseudo Labeling(擬似ラベリング)について紹介します。参考: Pseudo Labeling - QDA - [0.969] Pseudo Labeling(擬似ラベリング)とは? Pseudo Labelingとは、ラベルのついたデータ(trainデータ)で学習したモデ…

T2T ペア学習・グループ学習の仕組み

今回は、データサイエンスからは少し離れた話です。 私は最近、デザインエンジニアリングファーム Takramのポッドキャスト、Takram Cast をよく聞いています。その中で T2Tの仕組み という回が興味深く面白かったので簡単に紹介しようと思います。 T2Tとは T…

How to Win a Data Science Competition: Learn from Top Kagglers Week2 講義メモ

全体概要 How to Win a Data Science Competition: Learn from Top Kagglers の講義メモ 機械学習の基礎がある前提で、Kaggleで上位に喰い込むための知識、スキルを身につけるための講義 解説者がロシア人?のため、若干英語に癖があるが字幕があるので問題無…

How to Win a Data Science Competition: Learn from Top Kagglers Week1 講義メモ

全体概要 機械学習の基礎がある前提で、Kaggleで上位に喰い込むための知識、スキルを身につけるための講義 解説者がロシア人?のため、若干英語に癖があるが字幕があるので問題無し Week1は、データの前処理についての解説がメイン Week1 データ分析コンペ Ka…

初 Kaggle Microsoft Malware Predictionに参加しました

はじめに Microsoft Malware Predictionが終了 自分にとって初Kaggleだったが最後まで飽きることなく続けることができた 結果は(Pub:265位, Pri:673位)と奮いませんでしたが、学びが多かったのと身に着けるべき知識等がわかったので満足 次は CareerCon 2019…

sklearn LabelEncoderクラス

LabelEncoderクラス LabelEncoder は、全てのカテゴリに対して数値によるIDを割り当てることができるクラスです。 タイタニックのデータにおけるsex、class、who列におけるカテゴリを数値に変換した例が下記になります。 参考 sklearn.preprocessing.LabelEn…

【読書メモ】ゼロから作るDeep Learning 6章

ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ 【読書メモ】ゼロから作るDee…

AWS スポットインスタンスでJupyterを起動するまで

Kaggleの Microsoft Malware Prediction に参加しています。分析にはローカルPCを使用していましたが、リソースが足りなくなることが多いため、パブリッククラウドで1番慣れているAWSのスポットインスタンスを使ってみたので、Jupyterを起動するまでの手順…

Pythonの内包表記について

Pythonには内包表記という、リストなどの iterableな オブジェクトのループ処理をシンプルに記述できる記法があります。今回は基本的な内包表記についてまとめてみました。 通常のリスト Pythonでリストに追加するには下記のように下記のが一般的ですが、内…

【読書メモ】ゼロから作るDeep Learning 5章

ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ 【読書メモ】ゼロから作るDee…

【読書メモ】ゼロから作るDeep Learning 4章

ゼロから作るDeep Learningの読書メモとしてまとめました。 本を読む目的 Coursera Machine Learningを受講してニューラルネットワークを理解したので、次はディープラーニングについて深く理解をしたいため。 前章までのまとめ 【読書メモ】ゼロから作るDee…

DockerコンテナでPython3、Jupyterの入ったデータ分析環境を作成

背景 データ分析コンペに参加した時に、爆速で Docker コンテナにデータ分析環境を生成するテンプレート を作りましたを参考に、DockerコンテナにJupyter notebookが使える環境構築をしたのでその手順についてまとめました。めちゃくちゃ早く環境構築ができ…

AWS Redshiftを使ってデータをロードしてクエリを実行するまで

AWS Redshiftとは 完全マネージド型、ペタバイトスケールのAWSデータウェアハウスサービス。 AWS Athenaとの違い 「Amazon Athena よくある質問」には下記記載あり。大きな違いは、課金体系でRedshiftはクラスタの起動時間課金に対して、Athenaの場合はデー…