koji/メガネ男の日誌

日々の学び、活動状況を記録します。仕事のことは少なめ。

pprint() でリストや辞書を整形して出力するテクニック

小ネタですが、pprint() でリストや辞書を整形して出力することができます。 まずは表示がややこしい辞書型のデータを作成します。 # 辞書型のデータの作成 dic = { 'C134':{"price":30,"sales":"1000","profit":200 ,"alist":[110,20,30 ,50]}, 'C623':{"pr…

ABL 「シャッフルシャーディングを使ったワークロードの分離」を読んだ

輪読会の発表に向けて、Amazon Builder's Library(以下、ABL) を読んだので、簡単にまとめてみました。 テーマは「シャッフルシャーディングを使ったワークロードの分離」です。 aws.amazon.com 記事は、Amazon Web Service のシニアプリンシパルエンジニ…

pythonで通年の時系列データを各年度ごとのグラフにするときに便利なテクニック

for 文と groupby()でDataFrameから、指定したキーワード1カラムと、残りのDataFrameを交互に抽出することで、 タイトルどおり、pythonで通年の時系列データを各年度ごとのグラフにするときに便利なテクニックを学びましたのでまとめます。 参考 kaggle の M…

pythonのpandasで表を並び替えるテクニック

次のような各年度の各月の数字が並んでいる表があった場合、グラフ化しようとすると一筋縄ではいきませんよね。 参考)写真の表は下記をコピペすれば作成できます。 import pandas as pd df = pd.DataFrame( { "year":[2015, 2016, 2017,2018,2019,2020], 1:…

うちでやりたいこと

mottox2さんの、うちでやりたい〇つのこと、という記事をよみ、外出自粛とリモートワークで悶々とする中でも、自宅でこういうことやりたい!と前向きに考えるの大事だなと思いました。さっそくパクり参考にさせていただきました! mottox2.com 欲しいもの PS…

ABL 「ジッターを伴うタイムアウト、再試行、およびバックオフ」を読んだ

(追記)輪読会資料を追加。 輪読会の発表に向けて、Amazon Builder's Library(以下、ABL) を読んだので、簡単にまとめてみました。 テーマは「ジッターを伴うタイムアウト、再試行、およびバックオフ」です。 aws.amazon.com ざっくり理解のためのメモ ・…

pandasよりも処理が速い(らしい)daskを使ってみた

pandasよりはやいdaskをつかってみた

転置をうまく使ってグラフ化する

pythonで、転置をうまく使ってグラフ化する手法を学んだのでまとめました。 次のようなDataFrame型のデータ(df)を想定します。 player(選手)の、1days_score(1日目の得点)、2days_score(2日目の得点)、3days_score(3日目の得点)をまとめた表です。…

Amazon Builder's Library 継続的デリバリーによる高速化 を読んだ

輪読会に向けて、Amazon Builder's Library(以下、ABL) を読んだので、簡単にまとめてみました。 テーマは「継続デリバリーによる高速化」です。 aws.amazon.com 書いたのは、Amazon Web Service のソフトウェア開発のシニアマネージャーの方で、項目は、…

to_csv() で csv ファイルを書き出したらカラムが文字化けする件

pythonにてカラムが漢字のcsvファイルをDataFrame型で読み込んで加工し、csvファイルに書き出してエクセルで開いたら、カラムが文字化けしてしまったので、文字化け防止の方法をまとめます。 データは下記のものを想定します。 コードは以下のとおりです。 #…

読み込んだcsvファイルのカラムが2列以上になっている場合の前処理

実務で扱うcsvデータというのは、カタチがキレイでないことが多々あります。 つい最近、次のようなデータを見かけました。 ・・・カラムが2段になっている・・・ このままではxx1とかxx2とか、無意味な項目がカラムになってしまうし、意味のない行(項目1、…

pythonのDataFrameを連結するconcatでしょうもないことにつまづいた件

pandasのDataFrame型はとても便利ですよね。 似たようなDataFrame型を連結する時、concat()を使うと思いますが、実務でしょうもないことにつまづいたので備忘で書きます。 note.nkmk.me DataFrame型 df1 と DataFrame型 df2 があるとしまして、 df1 と df2 …

lightGBMを初めて使ったので備忘メモとしてまとめてみた

Kaggleの初心者ですが、M5コンペに挑戦中です。 KaggleではLightGBMが全盛と聞きましたので、備忘メモとしてまとめてみました。 setuptools、 numpy、scipy、 scikit-learn 0.21.3以降のライブラリのインストールが必要です。 詳細は公式ドキュメント参照。 …

24時間ではしりぬける物理

24時間ぶっ通しで現役物理学者が物理学、高校の物理で習う範囲及びその発展分野について、YouTubeで熱く講義をするイベント、24時間ではしりぬける物理を24時間視聴しましたので、感想とポエムをつづります。 ※1 正しくは、24時間画面の前にいた、ですが。。…

PySparkの環境構築に成功したのでまとめてみた

GCIセミナーでpythonで大規模データを扱えるPySparkの存在を知りました。 環境構築は各自挑戦とのことでしたので、やってみたところ、うまくいったのでまとめます。 前提は以下のとおりです。 ・ローカル環境での構築には成功したが、Anacondaなどの仮想環境…

プログラミング初心者からは抜け出したので、振り返りをしてみる

自称ではありますが、30代も後半になって、ようやくプログラミング初心者から抜け出したかな?と思えるようになりました。 そこで、初心者のころを振り返って、今と何が違うのか考察してみたポエムをつづります。 なお、具体的な勉強法については触れていま…

『なぜ、あなたの仕事は終わらないのか』を読んだので、ロケットスタートで感想ブログを書いてみた

「なぜ、あなたの仕事は終わらないのか」の著者はWindows95を開発し、現在はマイクロソフトを退職、起業家である中島聡氏。 右クリックの概念を作ったのも氏であるとのこと。 そんな氏が語る仕事術、時間術をまとめた「なぜ、あなたの仕事は終わらないのか」…

pythonの文字列操作を久しぶりにやったら思いのほか詰まったのでまとめてみた

表題のまんまですが、pythonの文字列操作に難儀したので、備忘のため、まとめてみました。 空の配列の作成 for文を使ってどんどん文字列を追加するための箱として使うため。 words = {} 末尾の1文字のみ抽出する、末尾の2文字のみ抽出する contstraction → n…

時系列解析 -自己回帰型モデル・状態空間モデル・異常検知- 1章 を読んだ

時系列解析 -自己回帰型モデル・状態空間モデル・異常検知の1章、時系列データの記述・処理を読んだので、プログラムを再現しつつまとめてみました。 2020/3/15 追記 輪読会で使用したスライドを追加 Time series analytics_ch01 from ssuser72fb17 www.slid…

様々なサイトのtrain_test_split を使ったコードをコピペして勉強していたらエラーが出た話

機械学習の勉強をしていますと、データを簡単に訓練データとテストデータに分けてくれる、train_test_split を使う機会がちょくちょくありまして。 いろんなサイトのコードをコピペして試していたら、次のようなエラーが出てしまいました。 ModuleNotFoundEr…

辞書型データの中から、Value値が最大のKey値を抽出する

東京大学のデータサイエンティスト育成講座の課題、総合問題9-1をやっていて、辞書型データの中から、Value値が最大のKey値を抽出する方法について、理解につまづいたので、まとめました。 # 辞書型のデータ results = {('85123A', 22423): 0.013, ('85123A'…

BigQueryでSQLの環境構築をしてみた件

SQL初心者がSQLの環境構築の四苦八苦しながら、BigQueryをかろうじて使えるようになったのでシェアします。 BigQueryは、Googleが提供するクラウド型のSQLサービスです。 cloud.google.com これがBigQueryの最初の画面です。 すでにGoogle Cloud Platform(GC…

「あの夏、サバ缶はなぜ売れたのか」をあらためて読む

数年前、データに基づいたマーケティングを学ぼうとしていたころ購入した本を読み返し、改めてまとめてみました。 あの夏、サバ缶はなぜ売れたのか?仮説を行動、成果につなげるビジネスビッグデータ分析 著者は博報堂の大木真吾さんです。 seikatsusha-ddm.…

統計数字に直感は欺かれる

(2020/3/15 追記)Nさんにコメントでご指摘いただきました、陽性尤度比を追記しました! 旬は過ぎてしまったかもしれませんが、統計を学ぶ身として気になるtogetterをみかけて、『本当にそうなの?』となったので調べてみました! togetter.com ざっくりい…

PandasのGroupby集計でつまづいたのでまとめてみた

PandasのGroupby集計でつまづいたのでまとめてみました。 なお、データはKaggleのTitanic train.csvを使っています www.kaggle.com 環境 Windows10、Anaconda ver1.97、python 3.69、jupyter notebook 詰まったのは、groupby()のas_index=Falseの指定です。 …

ハンチョウ聖地巡礼

一日外出録ハンチョウが好きすぎて聖地巡礼してみました。 第53話『観覧』より、上野の国立科学博物館に巡礼。 果たして、ガチに盛沢山、見どころ満載の圧倒的博物館なのでしょうか?! ざわ……ざわ…… 一、二時間でサクッと観ることはできるのか……! 表のシロ…

転職を考えたので書籍から学んでみた

転職してすぐにまた転職の決意を固めてしまいました。 そんな私が、直近読んだ本、「これからの新しい会社員の教科書(著:田端信太郎 氏)」「転職の思考法(著:北野唯我 氏)から得た学びが皆さまに役立てば幸いです。 まず田端氏の著作から。 これからの…

2019年を振り返る

今年も終わりですね、今年の自分を一時で表すと、「変」でした。異動、転職で職場を変わった / ること、1年で一番ハマったキャラは変わり者・・・、変化を求めて学び・活動したこと、そんな1年を振り返りたいと思います。 仕事 3月まで海外M&A+リサーチ部門…

2020年やりたいこと/やらないことリスト

来年2020年に向けて、やりたいこととやらないことをまとめたリストを作成いたしました。 2020年やりたいことリスト Web開発を学ぶVue.js、Djangoの学習Djangoガールズ1周、Vue.jsチュートリアルにとりくむ、動かして学ぶ! Python Django開発入門・動かして学…

2019年目標のふりかえり

この記事は、毎週ブログを書くコミュニティ、write-blog-every-weekのAdvent Calender25日目(最終日!)の記事です。 昨日はohkeさん(ken_jimmy (@ken_jimmy) | Twitter)で、『どうすれば自分の身に付く技術ブログになるのか - け日記』でした。 年末も差し掛…