Blog

平均値・中央値・最頻値をpythonで求める

jupyter notebook,numpy,scipyが必要。 平均27000、分散15000の正規分布をランザム数値で10000用意する import numpy as np incomes = np.random.normal(27000, 15000, 10000) np.mean(incomes) 26670.523667810859 ヒストグラムにプロットする %matplotlib inline import matplotlib.pyplot as plt plt.hist(incomes, 50) plt.show() 中央値を求める np.median(incomes) 26622.149050827062 1000000000稼ぐ人を加える。 incomes = np.append(incomes, ) 最頻値は影響が特にないのに対し、平均は大きく影響してしまう。 np.median(incomes) 26624.876013322068 np.mean(incomes) 126657.85788202267 from scipy impo

Udemyを試してみた

Udemy https://www.udemy.com/ 動画でスキルアップ出来るUdemyというサイトを利用してみました。数年前にホリエモンが宣伝してたやつ?w現在ほとんどの講座が1800円になっており、利用してみるかという感じで。通常だと1万円超えの講座などザラなので、、、。本を買う値段で試せるならやってみるか、ということで。 有料だからしっかり学べるカリキュラム内容 動画でスキルを学べると言えばYoutubeかもしれませんが、こちらは講師の方に収益は入ってきません。いえ、正確に言うと人気が出れば広告収入が入ります。 しかしながら、Youtubeでスキルアップ動画を探すのは割と大変なんですよね。気に入ったのがせっかく見つかったと思ったら続きをアップせず音信不通になってたり、そもそも日本語対応だとほぼ探してるのがないです。日本人て目立ちたがり屋じゃないですからね?? ベストセラータグで人気講座がわかりやすい 人気の講座には「ベストセラー」タグが付いています。ユーザからのレビューも多くついており、中には計算したら億単位で売り上げている人もいます。ただ、日本人は現在見たところベストセラー

「人工知能は人間を超えるか」を読んでみた。

分かりやすい。一気に読破した。 人工知能の本読むと、美味しいおにぎりを作るのは人工知能。その良さをしっかり対人に説明できて販売できるのが人間と言う感じの未来だな。 シャケおにぎりを例に例えると、ビックデータからシャケの美味しい種別、旬を的確に判断して仕入れをやる。物流や調理法は機械が行う。でも人間は機械からそれを買おうと思わない。売るのはやはり人間。ただ例外もあって、スマイルをウリにするお店は目指すべき方向を変える必要がある。 さらに一歩上を行くと、データの中の至高の味ではなく、その人にとっての至高の味、言わばおふくろの味を再現できてしまう事だ。 そのような仮説において未来はどうなるのか、みたいな事を考えてみたりもする。まぁ、自分はシャケおにぎりだったら大好きなのでこれ美味しいから食ってみろと機械が推薦しようが人間から薦められようがパクつくのだか。 人間がおにぎりを作ると機械には当分できそうもない味が加わる。それは匂い。手の匂い。そんなものないと思うだろうが、脳は感じている。懐かしいと言う感情は視覚だけでなく嗅覚も感じる。 例えばヒューマンミスによるものだけど、おにぎりから化粧水の味が

ディズニーランドと統計学

ファストパスが導入されてからまだ一度もディズニーランドに行った事がないkote2です。 先日面白い本を見つけた。 誰もが一度は行ったことのある夢の国、ディズニーランド。知り合いにディズニー関係者がいるだけでディズニーマニアから「効率のよいまわり方」を聞かれまくるなど。そういうkote2も昔知り合いにディズニーのバイトしているディズニーマニアがいました。まさに潜入ですよね。 それはそうと ディズニーランドで導入されたファストパス。あれはあるデータアナリストの魔法によって生み出されたものだといいます。 統計学的に言うと、アトラクションに行列ができてしまうのは平均値ではなく「ばらつき」だと。 要するに、ファストパスが導入される以前のディズニーランドでは、一つのアトラクションに乗ろうにも、1,2時間は平気で待たされました。しかし、ディズニーの収容上における設計はこの待ち時間を発生させないように設計されているとのこと。にも関わらず行列ができてしまうのは、その人達が集まる平均値が想定外だから、と言うことではなく、混んでるから先にあそこに行こう、とか予測を立てて行動するいわゆる例外な人たち、「ばらつ

「おいしい」を統計学的に表現するとどうなるのか考えてみた

「おいしい」を統計学的に表現するとどうなるのか考えてみた。 まず「おいしい」という判断は、非常に曖昧なので仮説として10人に食べてもらって10人が「おいしい」と感じたら「おいしい」と評価する。 しかしながらこの仮説には問題がある。人によって「おいしい」はバラつきがあるからだ。 もう少し話を具体的にしよう。 お肉はどのくらい焼けばおいしいのか。いや、「おいしい」をどのように数値化して、どのような値が10人食べて10人が「おいしい」というのか。「おいしい」「うまい」「最高」「やべぇ」など褒めてると思わしき言葉は同意語とする。 まず肉の分類だ。肉には国産、外国産、また種類を挙げればきりがない。種類が同じでも成長過程や出荷年月、いわゆる生まれて育っていつ屠殺するかによって変わってくる。条件が必要だ。 調理法はどうだろう。おいしいとされているのは炭火焼き?ただフライパンで焼いてもおいしい肉はないとは言い切れない。蒸しても煮ても揚げても、生のまま食べても良い。ということは調理法という条件も加えなければならない。 次に、例えば炭火で焼くとする。味は塩コショウのみ。焼き肉のタレなどつけてしまえば「この

Google タグマネージャに「ワークスペース」が追加

本日Google タグマネージャがリニューアルされてました。 ワークスペースと呼ばれる項目が追加されており、タグマネージャーの作業を複数人で扱うときに便利になったようです。タグマネージャーをGit管理するみたいなイメージだと勝手に思っています。 ここからワークスペースを追加すると、Gitで言うプロジェクトが作成(git init)されます。現状3つまで作れるようです。 https://analytics.googleblog.com/2016/08/enterprise-class-tag-management.html 同時にGoogle Tag Manager 360というエンタープライズ版タグマネージャーも発表されており、UIもかなり変更されてます。 https://www.google.com/analytics/360-suite/tag-manager/

pythonとパンダちゃんで重回帰分析

こんばんわ、kote2です。 pythonで重回帰分析をやる方法について調べてわかったのでメモします。回帰分析はあったんですが重回帰分析はほとんど載ってなかったので。。あと重回帰分析について自分は統計学初心者で説明できるほどよくわかってないのでこちらをご参考ください・・。 http://xica.net/sxuwvhyx/ とは言え、重回帰分析って例えばどんなことに使えるのか? これを考えるのが重要ですね。イメージしやすいし。 例えばあなたはあるソシャゲー会社のマーケティング担当で、WEB広告とCMや雑誌広告の出稿を主な業務としています。さて、WEB広告はお金をかけるだけゲームが売れるのはわかっていますがカバレッジの大きさに限界があり従来メディアへの出稿を余儀なくされています。ただCMや雑誌等は綿密な統計分析ができていません。以前まで行っていた施策のデータ(広告費と売上)がありますが、今回CMと雑誌について最適な予算配分をしたいと考えています。 WEBの担当者であればWEBの広告もAとBというメディアでどのような予算配分が一番効率がいいか考えることがあります。 今回は以下みたいなデータ

東京の夏は沖縄より暑い、の確認をササッと調べてみた

いやー、暑い。。。 ひょっとして沖縄より東京は暑いんじゃないか・・・そう思いました。 確認してみます。 まず気象庁から那覇と東京の2014年からの平均気温データを引っ張ってきます。 適度に整形してdata.csvで保存します。 いつものようにjupyterを開きます。pythonとpandasでプロット化してみましょうか。 データを確認します。 %matplotlib inline import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import numpy as np df = pd.read_csv('data.csv', index_col=0, encoding='shift-jis') df = df.iloc] df.columns = df.index = pd.to_datetime(df.index) df.head() 東京 那覇 2014-01-01 9.6 15.1 2014-01-02 7.3 15.9 2014

wikipediaから一部データを拝借

pandasを使ってwikipediaからデータを一部拝借してみます。 今回は例としてこちらの都道府県の一覧を抜き出すのをやってみます。なお、都道府県リストはページ中程にあるようです。 https://ja.wikipedia.org/wiki/%E9%83%BD%E9%81%93%E5%BA%9C%E7%9C%8C なお、今回参考にしたのは海外サイトで英語を抜き出したのですが、日本語を抜き出すときはいろいろ言われるので必要であれば以下をpipインスト−ルしておきます。 pip install html5lib pip install --upgrade html5lib==1.0b8 pip install -lxml 公式ドキュメントはこちら http://pandas.pydata.org/pandas-docs/stable/io.html まずpandasをインポートします。 import pandas as pd read_htmlで抜き出して、変数に格納します。 japan_prefectures = pd.read_html('https://ja.wikipedia.