{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Odyssey Tutorial"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Welcome to Odyssey! Odyssey is a Python package that can analyze python library usage on GitHub through Google BigQuery. The purpose of this tutorial is to provide you a high-level idea of how to use it. Let's begin!"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Part 1: Work with GithubPython object"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We start by introducing a central piece of Odyssey -- GithubPython object. This is the object that connects to Github data using BigQuery. It takes care of all the BigQuery connection, SQL query building, result polling, etc. for you."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Let's start by creating a default GithubPython object. Because we didn't specify any package, the information we will get is about all data in the BigQuery Github database."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "from odyssey.core.bigquery.GithubPython import GithubPython\n",
    "gp = GithubPython()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Let's try to see how many Python files in our BigQuery Github database."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "You may think: \"Wow that's way less than I expect. Does it mean that we only have ~5.9 million Python files on Github? The answer is no. The main reason is that Google BigQuery only has access to open-sourced repos on Github (those who has certain licences). Therefore, it is just a small subset of the whole Github.\n",
    "\n",
    "That's why, if you search for *.py file using Github web GUI, the number you will get won't be comparable to the number you get here."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "5995653\n"
     ]
    }
   ],
   "source": [
    "print(gp.get_count())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Now let's create another GithubPython object, but this time, specify that the package we are interested in is sklearn.\n",
    "\n",
    "Also, Odyssey allows you to exclude forks of the package, by explicitly providing a list of keywords that shouldn't appear in the repo name or file path. In this case, scikit-learn is the one we should avoid counting."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "gp_sklearn = GithubPython(package=\"sklearn\", exclude_forks=[\"scikit-learn\"])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Let's count then how many files that count \"sklearn\". **Caveat: Note that this is a simple string matching. So even if sklearn appears in comment or as a variable name, it will still count!**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "37262\n"
     ]
    }
   ],
   "source": [
    "print(gp_sklearn.get_count())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "If you want to see exactly what are those 37262 files that contain the word \"sklearn\", you can use get_all() to see all the entries. The return result is a list of BigQueryGithubEntry, a wrapper that provides nice utility function, such as get_url()."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "data = gp_sklearn.get_all()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'odyssey.core.bigquery.BigQueryGithubEntry.BigQueryGithubEntry'>\n"
     ]
    }
   ],
   "source": [
    "print(type(data[0]))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "from odyssey.utils.output import pprint_ipynb"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">.highlight .hll { background-color: #ffffcc }\n",
       ".highlight  { background: #f8f8f8; }\n",
       ".highlight .c { color: #408080; font-style: italic } /* Comment */\n",
       ".highlight .err { border: 1px solid #FF0000 } /* Error */\n",
       ".highlight .k { color: #008000; font-weight: bold } /* Keyword */\n",
       ".highlight .o { color: #666666 } /* Operator */\n",
       ".highlight .ch { color: #408080; font-style: italic } /* Comment.Hashbang */\n",
       ".highlight .cm { color: #408080; font-style: italic } /* Comment.Multiline */\n",
       ".highlight .cp { color: #BC7A00 } /* Comment.Preproc */\n",
       ".highlight .cpf { color: #408080; font-style: italic } /* Comment.PreprocFile */\n",
       ".highlight .c1 { color: #408080; font-style: italic } /* Comment.Single */\n",
       ".highlight .cs { color: #408080; font-style: italic } /* Comment.Special */\n",
       ".highlight .gd { color: #A00000 } /* Generic.Deleted */\n",
       ".highlight .ge { font-style: italic } /* Generic.Emph */\n",
       ".highlight .gr { color: #FF0000 } /* Generic.Error */\n",
       ".highlight .gh { color: #000080; font-weight: bold } /* Generic.Heading */\n",
       ".highlight .gi { color: #00A000 } /* Generic.Inserted */\n",
       ".highlight .go { color: #888888 } /* Generic.Output */\n",
       ".highlight .gp { color: #000080; font-weight: bold } /* Generic.Prompt */\n",
       ".highlight .gs { font-weight: bold } /* Generic.Strong */\n",
       ".highlight .gu { color: #800080; font-weight: bold } /* Generic.Subheading */\n",
       ".highlight .gt { color: #0044DD } /* Generic.Traceback */\n",
       ".highlight .kc { color: #008000; font-weight: bold } /* Keyword.Constant */\n",
       ".highlight .kd { color: #008000; font-weight: bold } /* Keyword.Declaration */\n",
       ".highlight .kn { color: #008000; font-weight: bold } /* Keyword.Namespace */\n",
       ".highlight .kp { color: #008000 } /* Keyword.Pseudo */\n",
       ".highlight .kr { color: #008000; font-weight: bold } /* Keyword.Reserved */\n",
       ".highlight .kt { color: #B00040 } /* Keyword.Type */\n",
       ".highlight .m { color: #666666 } /* Literal.Number */\n",
       ".highlight .s { color: #BA2121 } /* Literal.String */\n",
       ".highlight .na { color: #7D9029 } /* Name.Attribute */\n",
       ".highlight .nb { color: #008000 } /* Name.Builtin */\n",
       ".highlight .nc { color: #0000FF; font-weight: bold } /* Name.Class */\n",
       ".highlight .no { color: #880000 } /* Name.Constant */\n",
       ".highlight .nd { color: #AA22FF } /* Name.Decorator */\n",
       ".highlight .ni { color: #999999; font-weight: bold } /* Name.Entity */\n",
       ".highlight .ne { color: #D2413A; font-weight: bold } /* Name.Exception */\n",
       ".highlight .nf { color: #0000FF } /* Name.Function */\n",
       ".highlight .nl { color: #A0A000 } /* Name.Label */\n",
       ".highlight .nn { color: #0000FF; font-weight: bold } /* Name.Namespace */\n",
       ".highlight .nt { color: #008000; font-weight: bold } /* Name.Tag */\n",
       ".highlight .nv { color: #19177C } /* Name.Variable */\n",
       ".highlight .ow { color: #AA22FF; font-weight: bold } /* Operator.Word */\n",
       ".highlight .w { color: #bbbbbb } /* Text.Whitespace */\n",
       ".highlight .mb { color: #666666 } /* Literal.Number.Bin */\n",
       ".highlight .mf { color: #666666 } /* Literal.Number.Float */\n",
       ".highlight .mh { color: #666666 } /* Literal.Number.Hex */\n",
       ".highlight .mi { color: #666666 } /* Literal.Number.Integer */\n",
       ".highlight .mo { color: #666666 } /* Literal.Number.Oct */\n",
       ".highlight .sb { color: #BA2121 } /* Literal.String.Backtick */\n",
       ".highlight .sc { color: #BA2121 } /* Literal.String.Char */\n",
       ".highlight .sd { color: #BA2121; font-style: italic } /* Literal.String.Doc */\n",
       ".highlight .s2 { color: #BA2121 } /* Literal.String.Double */\n",
       ".highlight .se { color: #BB6622; font-weight: bold } /* Literal.String.Escape */\n",
       ".highlight .sh { color: #BA2121 } /* Literal.String.Heredoc */\n",
       ".highlight .si { color: #BB6688; font-weight: bold } /* Literal.String.Interpol */\n",
       ".highlight .sx { color: #008000 } /* Literal.String.Other */\n",
       ".highlight .sr { color: #BB6688 } /* Literal.String.Regex */\n",
       ".highlight .s1 { color: #BA2121 } /* Literal.String.Single */\n",
       ".highlight .ss { color: #19177C } /* Literal.String.Symbol */\n",
       ".highlight .bp { color: #008000 } /* Name.Builtin.Pseudo */\n",
       ".highlight .vc { color: #19177C } /* Name.Variable.Class */\n",
       ".highlight .vg { color: #19177C } /* Name.Variable.Global */\n",
       ".highlight .vi { color: #19177C } /* Name.Variable.Instance */\n",
       ".highlight .il { color: #666666 } /* Literal.Number.Integer.Long */</style><div class=\"highlight\"><pre><span></span><span class=\"ch\">#!/usr/bin/env python</span>\n",
       "<span class=\"c1\"># -*- coding: utf-8 -*-</span>\n",
       "\n",
       "<span class=\"sd\">&quot;&quot;&quot;Chainer example: Convolutional Neural Networks with SPP for Sentence Classification</span>\n",
       "\n",
       "<span class=\"sd\">http://emnlp2014.org/papers/pdf/EMNLP2014181.pdf</span>\n",
       "<span class=\"sd\">https://arxiv.org/pdf/1406.4729v4.pdf</span>\n",
       "\n",
       "<span class=\"sd\">&quot;&quot;&quot;</span>\n",
       "\n",
       "<span class=\"n\">__version__</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;0.0.1&#39;</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">sys</span>\n",
       "\n",
       "<span class=\"nb\">reload</span><span class=\"p\">(</span><span class=\"n\">sys</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">setdefaultencoding</span><span class=\"p\">(</span><span class=\"s1\">&#39;utf-8&#39;</span><span class=\"p\">)</span>\n",
       "<span class=\"c1\">#print sys.getdefaultencoding()</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">re</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">logging</span>\n",
       "<span class=\"n\">logger</span> <span class=\"o\">=</span> <span class=\"n\">logging</span><span class=\"o\">.</span><span class=\"n\">getLogger</span><span class=\"p\">(</span><span class=\"n\">__name__</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">handler</span> <span class=\"o\">=</span> <span class=\"n\">logging</span><span class=\"o\">.</span><span class=\"n\">StreamHandler</span><span class=\"p\">()</span>\n",
       "<span class=\"n\">logger</span><span class=\"o\">.</span><span class=\"n\">setLevel</span><span class=\"p\">(</span><span class=\"n\">logging</span><span class=\"o\">.</span><span class=\"n\">DEBUG</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">logger</span><span class=\"o\">.</span><span class=\"n\">addHandler</span><span class=\"p\">(</span><span class=\"n\">handler</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">pprint</span>\n",
       "<span class=\"k\">def</span> <span class=\"nf\">pp</span><span class=\"p\">(</span><span class=\"n\">obj</span><span class=\"p\">):</span>\n",
       "    <span class=\"n\">pp</span> <span class=\"o\">=</span> <span class=\"n\">pprint</span><span class=\"o\">.</span><span class=\"n\">PrettyPrinter</span><span class=\"p\">(</span><span class=\"n\">indent</span><span class=\"o\">=</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"o\">=</span><span class=\"mi\">160</span><span class=\"p\">)</span>\n",
       "    <span class=\"nb\">str</span> <span class=\"o\">=</span> <span class=\"n\">pp</span><span class=\"o\">.</span><span class=\"n\">pformat</span><span class=\"p\">(</span><span class=\"n\">obj</span><span class=\"p\">)</span>\n",
       "    <span class=\"k\">print</span> <span class=\"n\">re</span><span class=\"o\">.</span><span class=\"n\">sub</span><span class=\"p\">(</span><span class=\"s2\">r&quot;</span><span class=\"se\">\\\\</span><span class=\"s2\">u([0-9a-f]{4})&quot;</span><span class=\"p\">,</span> <span class=\"k\">lambda</span> <span class=\"n\">x</span><span class=\"p\">:</span> <span class=\"nb\">unichr</span><span class=\"p\">(</span><span class=\"nb\">int</span><span class=\"p\">(</span><span class=\"s2\">&quot;0x&quot;</span><span class=\"o\">+</span><span class=\"n\">x</span><span class=\"o\">.</span><span class=\"n\">group</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">),</span><span class=\"mi\">16</span><span class=\"p\">)),</span> <span class=\"nb\">str</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">os</span><span class=\"o\">,</span> <span class=\"nn\">time</span><span class=\"o\">,</span> <span class=\"nn\">six</span>\n",
       "<span class=\"n\">start_time</span> <span class=\"o\">=</span> <span class=\"n\">time</span><span class=\"o\">.</span><span class=\"n\">time</span><span class=\"p\">()</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">struct</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">numpy</span> <span class=\"kn\">as</span> <span class=\"nn\">np</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">cPickle</span> <span class=\"kn\">as</span> <span class=\"nn\">pickle</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">matplotlib.pyplot</span> <span class=\"kn\">as</span> <span class=\"nn\">plt</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">copy</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">chainer</span> <span class=\"kn\">import</span> <span class=\"n\">cuda</span><span class=\"p\">,</span> <span class=\"n\">Chain</span><span class=\"p\">,</span> <span class=\"n\">Variable</span><span class=\"p\">,</span> <span class=\"n\">optimizers</span><span class=\"p\">,</span> <span class=\"n\">serializers</span><span class=\"p\">,</span> <span class=\"n\">computational_graph</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">chainer.functions</span> <span class=\"kn\">as</span> <span class=\"nn\">F</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">chainer.links</span> <span class=\"kn\">as</span> <span class=\"nn\">L</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">chainer.optimizer</span>\n",
       "\n",
       "<span class=\"n\">xp</span> <span class=\"o\">=</span> <span class=\"n\">np</span>\n",
       "<span class=\"n\">BOS_TOKEN</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;&lt;s&gt;&#39;</span>\n",
       "<span class=\"n\">EOS_TOKEN</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;&lt;/s&gt;&#39;</span>\n",
       "<span class=\"n\">UNK_TOKEN</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;&lt;unk&gt;&#39;</span>\n",
       "<span class=\"n\">PAD_TOKEN</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;&lt;pad&gt;&#39;</span>\n",
       "\n",
       "\n",
       "<span class=\"k\">def</span> <span class=\"nf\">load_w2v_model</span><span class=\"p\">(</span><span class=\"n\">path</span><span class=\"p\">):</span>\n",
       "\n",
       "    <span class=\"c1\"># with open(path, &#39;rb&#39;) as f:</span>\n",
       "    <span class=\"c1\">#     w2i = {}</span>\n",
       "    <span class=\"c1\">#     i2w = {}</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#     n_vocab, n_units = map(int, f.readline().split())</span>\n",
       "    <span class=\"c1\">#     w = np.empty((n_vocab, n_units), dtype=np.float32)</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#     for i in xrange(n_vocab):</span>\n",
       "    <span class=\"c1\">#         word = &#39;&#39;</span>\n",
       "    <span class=\"c1\">#         while True:</span>\n",
       "    <span class=\"c1\">#             ch = f.read(1)</span>\n",
       "    <span class=\"c1\">#             if ch == &#39; &#39;: break</span>\n",
       "    <span class=\"c1\">#             word += ch</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#         try:</span>\n",
       "    <span class=\"c1\">#             w2i[unicode(word)] = i</span>\n",
       "    <span class=\"c1\">#             i2w[i] = unicode(word)</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#         except RuntimeError:</span>\n",
       "    <span class=\"c1\">#             logging.error(&#39;Error unicode(): %s&#39;, word)</span>\n",
       "    <span class=\"c1\">#             w2i[word] = i</span>\n",
       "    <span class=\"c1\">#             i2w[i] = word</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#         w[i] = np.zeros(n_units)</span>\n",
       "    <span class=\"c1\">#         for j in xrange(n_units):</span>\n",
       "    <span class=\"c1\">#             w[i][j] = struct.unpack(&#39;f&#39;, f.read(struct.calcsize(&#39;f&#39;)))[0]</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#         # ベクトルを正規化する</span>\n",
       "    <span class=\"c1\">#         vlen = np.linalg.norm(w[i], 2)</span>\n",
       "    <span class=\"c1\">#         w[i] /= vlen</span>\n",
       "    <span class=\"c1\">#</span>\n",
       "    <span class=\"c1\">#         # 改行を strip する</span>\n",
       "    <span class=\"c1\">#         assert f.read(1) == &#39;\\n&#39;</span>\n",
       "    <span class=\"c1\"># return w, w2i, i2w</span>\n",
       "\n",
       "    <span class=\"kn\">from</span> <span class=\"nn\">gensim.models</span> <span class=\"kn\">import</span> <span class=\"n\">word2vec</span>\n",
       "    <span class=\"k\">return</span> <span class=\"n\">word2vec</span><span class=\"o\">.</span><span class=\"n\">Word2Vec</span><span class=\"o\">.</span><span class=\"n\">load_word2vec_format</span><span class=\"p\">(</span><span class=\"n\">path</span><span class=\"p\">,</span> <span class=\"n\">binary</span><span class=\"o\">=</span><span class=\"bp\">True</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"k\">def</span> <span class=\"nf\">load_data</span><span class=\"p\">(</span><span class=\"n\">path</span><span class=\"p\">,</span> <span class=\"n\">w2v</span><span class=\"p\">):</span>\n",
       "    <span class=\"n\">X_data</span><span class=\"p\">,</span> <span class=\"n\">Y</span> <span class=\"o\">=</span> <span class=\"p\">[],</span> <span class=\"p\">[]</span>\n",
       "    <span class=\"n\">labels</span> <span class=\"o\">=</span> <span class=\"p\">{}</span>\n",
       "\n",
       "    <span class=\"n\">X</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "    <span class=\"n\">max_len</span> <span class=\"o\">=</span> <span class=\"mi\">0</span>\n",
       "\n",
       "    <span class=\"n\">f</span> <span class=\"o\">=</span> <span class=\"nb\">open</span><span class=\"p\">(</span><span class=\"n\">path</span><span class=\"p\">,</span> <span class=\"s1\">&#39;rU&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"k\">for</span> <span class=\"n\">i</span><span class=\"p\">,</span> <span class=\"n\">line</span> <span class=\"ow\">in</span> <span class=\"nb\">enumerate</span><span class=\"p\">(</span><span class=\"n\">f</span><span class=\"p\">):</span>\n",
       "        <span class=\"c1\"># if i &gt;= 10:</span>\n",
       "        <span class=\"c1\">#     break</span>\n",
       "\n",
       "        <span class=\"n\">line</span> <span class=\"o\">=</span> <span class=\"nb\">unicode</span><span class=\"p\">(</span><span class=\"n\">line</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">strip</span><span class=\"p\">()</span>\n",
       "        <span class=\"k\">if</span> <span class=\"n\">line</span> <span class=\"o\">==</span> <span class=\"s1\">u&#39;&#39;</span><span class=\"p\">:</span>\n",
       "            <span class=\"k\">continue</span>\n",
       "\n",
       "        <span class=\"n\">cols</span> <span class=\"o\">=</span> <span class=\"n\">line</span><span class=\"o\">.</span><span class=\"n\">split</span><span class=\"p\">(</span><span class=\"s1\">u&#39;</span><span class=\"se\">\\t</span><span class=\"s1\">&#39;</span><span class=\"p\">)</span>\n",
       "        <span class=\"k\">if</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">cols</span><span class=\"p\">)</span> <span class=\"o\">&lt;</span> <span class=\"mi\">2</span><span class=\"p\">:</span>\n",
       "            <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stderr</span><span class=\"o\">.</span><span class=\"n\">write</span><span class=\"p\">(</span><span class=\"s1\">&#39;invalid record: {}</span><span class=\"se\">\\n</span><span class=\"s1\">&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">line</span><span class=\"p\">))</span>\n",
       "            <span class=\"k\">continue</span>\n",
       "\n",
       "        <span class=\"n\">label</span> <span class=\"o\">=</span> <span class=\"n\">cols</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">]</span>\n",
       "        <span class=\"n\">text</span>  <span class=\"o\">=</span> <span class=\"n\">cols</span><span class=\"p\">[</span><span class=\"mi\">1</span><span class=\"p\">]</span>\n",
       "\n",
       "        <span class=\"n\">tokens</span> <span class=\"o\">=</span> <span class=\"n\">text</span><span class=\"o\">.</span><span class=\"n\">split</span><span class=\"p\">(</span><span class=\"s1\">&#39; &#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"n\">vec</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "        <span class=\"k\">for</span> <span class=\"n\">token</span> <span class=\"ow\">in</span> <span class=\"n\">tokens</span><span class=\"p\">:</span>\n",
       "            <span class=\"k\">try</span><span class=\"p\">:</span>\n",
       "                <span class=\"n\">vec</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">w2v</span><span class=\"p\">[</span><span class=\"n\">token</span><span class=\"p\">])</span>\n",
       "            <span class=\"k\">except</span> <span class=\"ne\">KeyError</span><span class=\"p\">:</span>\n",
       "                <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stderr</span><span class=\"o\">.</span><span class=\"n\">write</span><span class=\"p\">(</span><span class=\"s1\">&#39;unk: {}</span><span class=\"se\">\\n</span><span class=\"s1\">&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">token</span><span class=\"p\">))</span>\n",
       "                <span class=\"n\">vec</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">w2v</span><span class=\"o\">.</span><span class=\"n\">seeded_vector</span><span class=\"p\">(</span><span class=\"n\">UNK_TOKEN</span><span class=\"p\">))</span>\n",
       "\n",
       "        <span class=\"k\">if</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">vec</span><span class=\"p\">)</span> <span class=\"o\">&gt;</span> <span class=\"n\">max_len</span><span class=\"p\">:</span>\n",
       "            <span class=\"n\">max_len</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">vec</span><span class=\"p\">)</span>\n",
       "        <span class=\"n\">X</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">vec</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"k\">if</span> <span class=\"n\">label</span> <span class=\"ow\">not</span> <span class=\"ow\">in</span> <span class=\"n\">labels</span><span class=\"p\">:</span>\n",
       "            <span class=\"n\">labels</span><span class=\"p\">[</span><span class=\"n\">label</span><span class=\"p\">]</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">labels</span><span class=\"p\">)</span>\n",
       "        <span class=\"n\">Y</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">labels</span><span class=\"p\">[</span><span class=\"n\">label</span><span class=\"p\">])</span>\n",
       "\n",
       "    <span class=\"n\">f</span><span class=\"o\">.</span><span class=\"n\">close</span><span class=\"p\">()</span>\n",
       "\n",
       "    <span class=\"k\">for</span> <span class=\"n\">vec</span> <span class=\"ow\">in</span> <span class=\"n\">X</span><span class=\"p\">:</span>\n",
       "        <span class=\"n\">pad</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"n\">w2v</span><span class=\"o\">.</span><span class=\"n\">seeded_vector</span><span class=\"p\">(</span><span class=\"n\">PAD_TOKEN</span><span class=\"p\">)</span> <span class=\"k\">for</span> <span class=\"n\">_</span> <span class=\"ow\">in</span> <span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"n\">max_len</span> <span class=\"o\">-</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">vec</span><span class=\"p\">))]</span>\n",
       "        <span class=\"n\">vec</span><span class=\"o\">.</span><span class=\"n\">extend</span><span class=\"p\">(</span><span class=\"n\">pad</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"k\">return</span> <span class=\"n\">X</span><span class=\"p\">,</span> <span class=\"n\">Y</span><span class=\"p\">,</span> <span class=\"n\">labels</span>\n",
       "\n",
       "\n",
       "<span class=\"k\">class</span> <span class=\"nc\">MySPP</span><span class=\"p\">(</span><span class=\"n\">Chain</span><span class=\"p\">):</span>\n",
       "    <span class=\"k\">def</span> <span class=\"nf\">__init__</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"p\">,</span> <span class=\"n\">input_channel</span><span class=\"p\">,</span> <span class=\"n\">output_channel</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">,</span> <span class=\"n\">n_units</span><span class=\"p\">,</span> <span class=\"n\">n_label</span><span class=\"p\">):</span>\n",
       "        <span class=\"nb\">super</span><span class=\"p\">(</span><span class=\"n\">MySPP</span><span class=\"p\">,</span> <span class=\"bp\">self</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">__init__</span><span class=\"p\">(</span>\n",
       "            <span class=\"n\">conv1</span><span class=\"o\">=</span><span class=\"n\">L</span><span class=\"o\">.</span><span class=\"n\">Convolution2D</span><span class=\"p\">(</span><span class=\"n\">input_channel</span><span class=\"p\">,</span> <span class=\"n\">output_channel</span><span class=\"p\">,</span> <span class=\"p\">(</span><span class=\"mi\">3</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">),</span> <span class=\"n\">pad</span><span class=\"o\">=</span><span class=\"mi\">0</span><span class=\"p\">),</span>\n",
       "            <span class=\"n\">conv2</span><span class=\"o\">=</span><span class=\"n\">L</span><span class=\"o\">.</span><span class=\"n\">Convolution2D</span><span class=\"p\">(</span><span class=\"n\">input_channel</span><span class=\"p\">,</span> <span class=\"n\">output_channel</span><span class=\"p\">,</span> <span class=\"p\">(</span><span class=\"mi\">4</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">),</span> <span class=\"n\">pad</span><span class=\"o\">=</span><span class=\"mi\">0</span><span class=\"p\">),</span>\n",
       "            <span class=\"n\">conv3</span><span class=\"o\">=</span><span class=\"n\">L</span><span class=\"o\">.</span><span class=\"n\">Convolution2D</span><span class=\"p\">(</span><span class=\"n\">input_channel</span><span class=\"p\">,</span> <span class=\"n\">output_channel</span><span class=\"p\">,</span> <span class=\"p\">(</span><span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">),</span> <span class=\"n\">pad</span><span class=\"o\">=</span><span class=\"mi\">0</span><span class=\"p\">),</span>\n",
       "            <span class=\"n\">fc4</span><span class=\"o\">=</span><span class=\"n\">L</span><span class=\"o\">.</span><span class=\"n\">Linear</span><span class=\"p\">(</span><span class=\"n\">output_channel</span> <span class=\"o\">*</span> <span class=\"mi\">3</span> <span class=\"o\">*</span> <span class=\"mi\">3</span><span class=\"p\">,</span> <span class=\"n\">n_units</span><span class=\"p\">),</span>\n",
       "            <span class=\"n\">fc5</span><span class=\"o\">=</span><span class=\"n\">L</span><span class=\"o\">.</span><span class=\"n\">Linear</span><span class=\"p\">(</span><span class=\"n\">n_units</span><span class=\"p\">,</span> <span class=\"n\">n_label</span><span class=\"p\">)</span>\n",
       "        <span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"k\">def</span> <span class=\"nf\">__call__</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"p\">,</span> <span class=\"n\">x</span><span class=\"p\">,</span> <span class=\"n\">t</span><span class=\"p\">,</span> <span class=\"n\">train</span><span class=\"o\">=</span><span class=\"bp\">True</span><span class=\"p\">):</span>\n",
       "        <span class=\"n\">y</span> <span class=\"o\">=</span> <span class=\"bp\">self</span><span class=\"o\">.</span><span class=\"n\">forward</span><span class=\"p\">(</span><span class=\"n\">x</span><span class=\"p\">,</span> <span class=\"n\">train</span><span class=\"o\">=</span><span class=\"n\">train</span><span class=\"p\">)</span>\n",
       "        <span class=\"k\">return</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">softmax_cross_entropy</span><span class=\"p\">(</span><span class=\"n\">y</span><span class=\"p\">,</span> <span class=\"n\">t</span><span class=\"p\">),</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">accuracy</span><span class=\"p\">(</span><span class=\"n\">y</span><span class=\"p\">,</span> <span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"k\">def</span> <span class=\"nf\">forward</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"p\">,</span> <span class=\"n\">x</span><span class=\"p\">,</span> <span class=\"n\">train</span><span class=\"o\">=</span><span class=\"bp\">True</span><span class=\"p\">):</span>\n",
       "        <span class=\"n\">h1</span> <span class=\"o\">=</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">spatial_pyramid_pooling_2d</span><span class=\"p\">(</span><span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">relu</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"o\">.</span><span class=\"n\">conv1</span><span class=\"p\">(</span><span class=\"n\">x</span><span class=\"p\">)),</span> <span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">MaxPooling2D</span><span class=\"p\">)</span>\n",
       "        <span class=\"n\">h2</span> <span class=\"o\">=</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">spatial_pyramid_pooling_2d</span><span class=\"p\">(</span><span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">relu</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"o\">.</span><span class=\"n\">conv2</span><span class=\"p\">(</span><span class=\"n\">x</span><span class=\"p\">)),</span> <span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">MaxPooling2D</span><span class=\"p\">)</span>\n",
       "        <span class=\"n\">h3</span> <span class=\"o\">=</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">spatial_pyramid_pooling_2d</span><span class=\"p\">(</span><span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">relu</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"o\">.</span><span class=\"n\">conv3</span><span class=\"p\">(</span><span class=\"n\">x</span><span class=\"p\">)),</span> <span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">MaxPooling2D</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"c1\"># Convolution + Pooling を行った結果を結合する</span>\n",
       "        <span class=\"n\">concat</span> <span class=\"o\">=</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">concat</span><span class=\"p\">((</span><span class=\"n\">h1</span><span class=\"p\">,</span> <span class=\"n\">h2</span><span class=\"p\">,</span> <span class=\"n\">h3</span><span class=\"p\">),</span> <span class=\"n\">axis</span><span class=\"o\">=</span><span class=\"mi\">1</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"c1\"># 結合した結果に Dropout をかける</span>\n",
       "        <span class=\"n\">h4</span> <span class=\"o\">=</span> <span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">dropout</span><span class=\"p\">(</span><span class=\"n\">F</span><span class=\"o\">.</span><span class=\"n\">tanh</span><span class=\"p\">(</span><span class=\"bp\">self</span><span class=\"o\">.</span><span class=\"n\">fc4</span><span class=\"p\">(</span><span class=\"n\">concat</span><span class=\"p\">)),</span> <span class=\"n\">ratio</span><span class=\"o\">=</span><span class=\"mf\">0.5</span><span class=\"p\">,</span> <span class=\"n\">train</span><span class=\"o\">=</span><span class=\"n\">train</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"c1\"># Dropout の結果を結合する</span>\n",
       "        <span class=\"n\">y</span> <span class=\"o\">=</span> <span class=\"bp\">self</span><span class=\"o\">.</span><span class=\"n\">fc5</span><span class=\"p\">(</span><span class=\"n\">h4</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"k\">return</span> <span class=\"n\">y</span>\n",
       "\n",
       "\n",
       "<span class=\"k\">if</span> <span class=\"n\">__name__</span> <span class=\"o\">==</span> <span class=\"s1\">&#39;__main__&#39;</span><span class=\"p\">:</span>\n",
       "\n",
       "    <span class=\"kn\">from</span> <span class=\"nn\">argparse</span> <span class=\"kn\">import</span> <span class=\"n\">ArgumentParser</span>\n",
       "    <span class=\"n\">parser</span> <span class=\"o\">=</span> <span class=\"n\">ArgumentParser</span><span class=\"p\">(</span><span class=\"n\">description</span><span class=\"o\">=</span><span class=\"s1\">&#39;Chainer example: MySPP&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--train&#39;</span><span class=\"p\">,</span>           <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"s1\">&#39;&#39;</span><span class=\"p\">,</span>  <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">unicode</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;training file (.txt)&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--test&#39;</span><span class=\"p\">,</span>            <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"s1\">&#39;&#39;</span><span class=\"p\">,</span>  <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">unicode</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;evaluating file (.txt)&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--w2v&#39;</span><span class=\"p\">,</span>       <span class=\"s1\">&#39;-w&#39;</span><span class=\"p\">,</span> <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"s1\">&#39;&#39;</span><span class=\"p\">,</span>  <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">unicode</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;word2vec model file (.bin)&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--gpu&#39;</span><span class=\"p\">,</span>       <span class=\"s1\">&#39;-g&#39;</span><span class=\"p\">,</span> <span class=\"n\">default</span><span class=\"o\">=-</span><span class=\"mi\">1</span><span class=\"p\">,</span>  <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">int</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;GPU ID (negative value indicates CPU)&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--epoch&#39;</span><span class=\"p\">,</span>     <span class=\"s1\">&#39;-e&#39;</span><span class=\"p\">,</span> <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"mi\">25</span><span class=\"p\">,</span>  <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">int</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;number of epochs to learn&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--unit&#39;</span><span class=\"p\">,</span>      <span class=\"s1\">&#39;-u&#39;</span><span class=\"p\">,</span> <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"mi\">300</span><span class=\"p\">,</span> <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">int</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;number of output channels&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--batchsize&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;-b&#39;</span><span class=\"p\">,</span> <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"mi\">100</span><span class=\"p\">,</span> <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">int</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;learning batchsize size&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">add_argument</span><span class=\"p\">(</span><span class=\"s1\">&#39;--output&#39;</span><span class=\"p\">,</span>    <span class=\"s1\">&#39;-o&#39;</span><span class=\"p\">,</span> <span class=\"n\">default</span><span class=\"o\">=</span><span class=\"s1\">&#39;model-spp3-w2v&#39;</span><span class=\"p\">,</span>  <span class=\"nb\">type</span><span class=\"o\">=</span><span class=\"nb\">str</span><span class=\"p\">,</span> <span class=\"n\">help</span><span class=\"o\">=</span><span class=\"s1\">&#39;output directory&#39;</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">args</span> <span class=\"o\">=</span> <span class=\"n\">parser</span><span class=\"o\">.</span><span class=\"n\">parse_args</span><span class=\"p\">()</span>\n",
       "\n",
       "    <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span><span class=\"p\">:</span>\n",
       "        <span class=\"n\">cuda</span><span class=\"o\">.</span><span class=\"n\">check_cuda_available</span><span class=\"p\">()</span>\n",
       "        <span class=\"n\">cuda</span><span class=\"o\">.</span><span class=\"n\">get_device</span><span class=\"p\">(</span><span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">use</span><span class=\"p\">()</span>\n",
       "\n",
       "    <span class=\"n\">xp</span> <span class=\"o\">=</span> <span class=\"n\">cuda</span><span class=\"o\">.</span><span class=\"n\">cupy</span> <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span> <span class=\"k\">else</span> <span class=\"n\">np</span>\n",
       "    <span class=\"c1\"># xp.random.seed(123)</span>\n",
       "\n",
       "    <span class=\"c1\"># 学習の繰り返し回数</span>\n",
       "    <span class=\"n\">n_epoch</span> <span class=\"o\">=</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">epoch</span>\n",
       "\n",
       "    <span class=\"c1\"># 中間層の数</span>\n",
       "    <span class=\"n\">n_units</span> <span class=\"o\">=</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">unit</span>\n",
       "\n",
       "    <span class=\"c1\"># 確率的勾配降下法で学習させる際の1回分のバッチサイズ</span>\n",
       "    <span class=\"n\">batchsize</span> <span class=\"o\">=</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">batchsize</span>\n",
       "\n",
       "    <span class=\"n\">model_dir</span> <span class=\"o\">=</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">output</span>\n",
       "    <span class=\"k\">if</span> <span class=\"ow\">not</span> <span class=\"n\">os</span><span class=\"o\">.</span><span class=\"n\">path</span><span class=\"o\">.</span><span class=\"n\">exists</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">):</span>\n",
       "        <span class=\"n\">os</span><span class=\"o\">.</span><span class=\"n\">mkdir</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# loading word2vec model: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">w2v</span><span class=\"p\">))</span>\n",
       "    <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stdout</span><span class=\"o\">.</span><span class=\"n\">flush</span><span class=\"p\">()</span>\n",
       "    <span class=\"n\">model</span> <span class=\"o\">=</span> <span class=\"n\">load_w2v_model</span><span class=\"p\">(</span><span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">w2v</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">n_vocab</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">vocab</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"c1\"># データの読み込み</span>\n",
       "    <span class=\"n\">X</span><span class=\"p\">,</span> <span class=\"n\">y</span><span class=\"p\">,</span> <span class=\"n\">labels</span> <span class=\"o\">=</span> <span class=\"n\">load_data</span><span class=\"p\">(</span><span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">train</span><span class=\"p\">,</span> <span class=\"n\">w2v</span><span class=\"o\">=</span><span class=\"n\">model</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">X</span> <span class=\"o\">=</span> <span class=\"n\">xp</span><span class=\"o\">.</span><span class=\"n\">asarray</span><span class=\"p\">(</span><span class=\"n\">X</span><span class=\"p\">,</span> <span class=\"n\">dtype</span><span class=\"o\">=</span><span class=\"n\">np</span><span class=\"o\">.</span><span class=\"n\">float32</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">y</span> <span class=\"o\">=</span> <span class=\"n\">xp</span><span class=\"o\">.</span><span class=\"n\">asarray</span><span class=\"p\">(</span><span class=\"n\">y</span><span class=\"p\">,</span> <span class=\"n\">dtype</span><span class=\"o\">=</span><span class=\"n\">np</span><span class=\"o\">.</span><span class=\"n\">int32</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"n\">n_sample</span> <span class=\"o\">=</span> <span class=\"n\">X</span><span class=\"o\">.</span><span class=\"n\">shape</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">]</span>\n",
       "    <span class=\"n\">height</span>   <span class=\"o\">=</span> <span class=\"n\">X</span><span class=\"o\">.</span><span class=\"n\">shape</span><span class=\"p\">[</span><span class=\"mi\">1</span><span class=\"p\">]</span>\n",
       "    <span class=\"n\">width</span>    <span class=\"o\">=</span> <span class=\"n\">X</span><span class=\"o\">.</span><span class=\"n\">shape</span><span class=\"p\">[</span><span class=\"mi\">2</span><span class=\"p\">]</span>\n",
       "    <span class=\"n\">n_label</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">labels</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"n\">input_channel</span> <span class=\"o\">=</span> <span class=\"mi\">1</span>\n",
       "    <span class=\"n\">output_channel</span> <span class=\"o\">=</span> <span class=\"mi\">50</span>\n",
       "\n",
       "    <span class=\"c1\"># (nsample, channel, height, width) の4次元テンソルに変換</span>\n",
       "    <span class=\"n\">X</span> <span class=\"o\">=</span> <span class=\"n\">X</span><span class=\"o\">.</span><span class=\"n\">reshape</span><span class=\"p\">((</span><span class=\"n\">n_sample</span><span class=\"p\">,</span> <span class=\"n\">input_channel</span><span class=\"p\">,</span> <span class=\"n\">height</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">))</span>\n",
       "\n",
       "    <span class=\"c1\"># トレーニングデータとテストデータに分割</span>\n",
       "    <span class=\"kn\">from</span> <span class=\"nn\">sklearn.model_selection</span> <span class=\"kn\">import</span> <span class=\"n\">train_test_split</span>\n",
       "    <span class=\"c1\"># X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.10, random_state=123)</span>\n",
       "    <span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">X_test</span><span class=\"p\">,</span> <span class=\"n\">y_train</span><span class=\"p\">,</span> <span class=\"n\">y_test</span> <span class=\"o\">=</span> <span class=\"n\">train_test_split</span><span class=\"p\">(</span><span class=\"n\">X</span><span class=\"p\">,</span> <span class=\"n\">y</span><span class=\"p\">,</span> <span class=\"n\">test_size</span><span class=\"o\">=</span><span class=\"mf\">0.10</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">N</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">N_test</span> <span class=\"o\">=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">X_test</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# gpu: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# embedding dim: {}, vocab {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">width</span><span class=\"p\">,</span> <span class=\"n\">n_vocab</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# epoch: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">n_epoch</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# batchsize: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">batchsize</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# input channel: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# output channel: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">n_units</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# train: {}, test: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">N</span><span class=\"p\">,</span> <span class=\"n\">N_test</span><span class=\"p\">))</span>\n",
       "    <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;# data height: {}, width: {}, labels: {}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">height</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">,</span> <span class=\"n\">n_label</span><span class=\"p\">))</span>\n",
       "    <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stdout</span><span class=\"o\">.</span><span class=\"n\">flush</span><span class=\"p\">()</span>\n",
       "\n",
       "    <span class=\"c1\"># Prepare CNN</span>\n",
       "    <span class=\"n\">model</span> <span class=\"o\">=</span> <span class=\"n\">MySPP</span><span class=\"p\">(</span><span class=\"n\">input_channel</span><span class=\"p\">,</span> <span class=\"n\">output_channel</span><span class=\"p\">,</span> <span class=\"n\">width</span><span class=\"p\">,</span> <span class=\"n\">n_units</span><span class=\"p\">,</span> <span class=\"n\">n_label</span><span class=\"p\">)</span>\n",
       "\n",
       "    <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span><span class=\"p\">:</span>\n",
       "        <span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">to_gpu</span><span class=\"p\">()</span>\n",
       "\n",
       "    <span class=\"c1\"># 重み減衰</span>\n",
       "    <span class=\"n\">decay</span> <span class=\"o\">=</span> <span class=\"mf\">0.0001</span>\n",
       "\n",
       "    <span class=\"c1\"># 勾配上限</span>\n",
       "    <span class=\"n\">grad_clip</span> <span class=\"o\">=</span> <span class=\"mi\">3</span>\n",
       "\n",
       "    <span class=\"c1\"># Setup optimizer (Optimizer の設定)</span>\n",
       "    <span class=\"c1\"># optimizer = optimizers.Adam()</span>\n",
       "    <span class=\"n\">optimizer</span> <span class=\"o\">=</span> <span class=\"n\">optimizers</span><span class=\"o\">.</span><span class=\"n\">AdaDelta</span><span class=\"p\">()</span>\n",
       "    <span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">setup</span><span class=\"p\">(</span><span class=\"n\">model</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">add_hook</span><span class=\"p\">(</span><span class=\"n\">chainer</span><span class=\"o\">.</span><span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">GradientClipping</span><span class=\"p\">(</span><span class=\"n\">grad_clip</span><span class=\"p\">))</span>\n",
       "    <span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">add_hook</span><span class=\"p\">(</span><span class=\"n\">chainer</span><span class=\"o\">.</span><span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">WeightDecay</span><span class=\"p\">(</span><span class=\"n\">decay</span><span class=\"p\">))</span>\n",
       "\n",
       "    <span class=\"c1\"># プロット用に実行結果を保存する</span>\n",
       "    <span class=\"n\">train_loss</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "    <span class=\"n\">train_norm</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "    <span class=\"n\">train_accuracy</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "    <span class=\"n\">test_loss</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "    <span class=\"n\">test_accuracy</span> <span class=\"o\">=</span> <span class=\"p\">[]</span>\n",
       "\n",
       "    <span class=\"n\">start_at</span> <span class=\"o\">=</span> <span class=\"n\">time</span><span class=\"o\">.</span><span class=\"n\">time</span><span class=\"p\">()</span>\n",
       "    <span class=\"n\">cur_at</span> <span class=\"o\">=</span> <span class=\"n\">start_at</span>\n",
       "\n",
       "    <span class=\"c1\"># Learning loop</span>\n",
       "    <span class=\"k\">for</span> <span class=\"n\">epoch</span> <span class=\"ow\">in</span> <span class=\"n\">six</span><span class=\"o\">.</span><span class=\"n\">moves</span><span class=\"o\">.</span><span class=\"n\">range</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"n\">n_epoch</span> <span class=\"o\">+</span> <span class=\"mi\">1</span><span class=\"p\">):</span>\n",
       "\n",
       "        <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;epoch {:} / {:}&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">epoch</span><span class=\"p\">,</span> <span class=\"n\">n_epoch</span><span class=\"p\">))</span>\n",
       "        <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stdout</span><span class=\"o\">.</span><span class=\"n\">flush</span><span class=\"p\">()</span>\n",
       "\n",
       "        <span class=\"c1\"># sorted_gen = batch(sorted_parallel(X_train, y_train, N * batchsize), batchsize)</span>\n",
       "        <span class=\"n\">sum_train_loss</span> <span class=\"o\">=</span> <span class=\"mf\">0.</span>\n",
       "        <span class=\"n\">sum_train_accuracy</span> <span class=\"o\">=</span> <span class=\"mf\">0.</span>\n",
       "        <span class=\"n\">K</span> <span class=\"o\">=</span> <span class=\"mi\">0</span>\n",
       "\n",
       "        <span class=\"c1\"># training</span>\n",
       "        <span class=\"c1\"># N 個の順番をランダムに並び替える</span>\n",
       "        <span class=\"n\">perm</span> <span class=\"o\">=</span> <span class=\"n\">np</span><span class=\"o\">.</span><span class=\"n\">random</span><span class=\"o\">.</span><span class=\"n\">permutation</span><span class=\"p\">(</span><span class=\"n\">N</span><span class=\"p\">)</span>\n",
       "        <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"n\">six</span><span class=\"o\">.</span><span class=\"n\">moves</span><span class=\"o\">.</span><span class=\"n\">range</span><span class=\"p\">(</span><span class=\"mi\">0</span><span class=\"p\">,</span> <span class=\"n\">N</span><span class=\"p\">,</span> <span class=\"n\">batchsize</span><span class=\"p\">):</span>\n",
       "\n",
       "            <span class=\"n\">x</span> <span class=\"o\">=</span> <span class=\"n\">Variable</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">[</span><span class=\"n\">perm</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">:</span><span class=\"n\">i</span> <span class=\"o\">+</span> <span class=\"n\">batchsize</span><span class=\"p\">]],</span> <span class=\"n\">volatile</span><span class=\"o\">=</span><span class=\"s1\">&#39;off&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">t</span> <span class=\"o\">=</span> <span class=\"n\">Variable</span><span class=\"p\">(</span><span class=\"n\">y_train</span><span class=\"p\">[</span><span class=\"n\">perm</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">:</span><span class=\"n\">i</span> <span class=\"o\">+</span> <span class=\"n\">batchsize</span><span class=\"p\">]],</span> <span class=\"n\">volatile</span><span class=\"o\">=</span><span class=\"s1\">&#39;off&#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"c1\"># 勾配を初期化</span>\n",
       "            <span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">cleargrads</span><span class=\"p\">()</span>\n",
       "\n",
       "            <span class=\"c1\"># 順伝播させて誤差と精度を算出</span>\n",
       "            <span class=\"n\">loss</span><span class=\"p\">,</span> <span class=\"n\">accuracy</span> <span class=\"o\">=</span> <span class=\"n\">model</span><span class=\"p\">(</span><span class=\"n\">x</span><span class=\"p\">,</span> <span class=\"n\">t</span><span class=\"p\">,</span> <span class=\"n\">train</span><span class=\"o\">=</span><span class=\"bp\">True</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"n\">sum_train_loss</span> <span class=\"o\">+=</span> <span class=\"nb\">float</span><span class=\"p\">(</span><span class=\"n\">loss</span><span class=\"o\">.</span><span class=\"n\">data</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">sum_train_accuracy</span> <span class=\"o\">+=</span> <span class=\"nb\">float</span><span class=\"p\">(</span><span class=\"n\">accuracy</span><span class=\"o\">.</span><span class=\"n\">data</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">K</span> <span class=\"o\">+=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"c1\"># 誤差逆伝播で勾配を計算</span>\n",
       "            <span class=\"n\">loss</span><span class=\"o\">.</span><span class=\"n\">backward</span><span class=\"p\">()</span>\n",
       "            <span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">update</span><span class=\"p\">()</span>\n",
       "\n",
       "        <span class=\"n\">train_loss</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">sum_train_loss</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">)</span>\n",
       "        <span class=\"n\">train_accuracy</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">sum_train_accuracy</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"c1\"># 訓練データの誤差と,正解精度を表示</span>\n",
       "        <span class=\"n\">now</span> <span class=\"o\">=</span> <span class=\"n\">time</span><span class=\"o\">.</span><span class=\"n\">time</span><span class=\"p\">()</span>\n",
       "        <span class=\"n\">throuput</span> <span class=\"o\">=</span> <span class=\"n\">now</span> <span class=\"o\">-</span> <span class=\"n\">cur_at</span>\n",
       "        <span class=\"n\">norm</span> <span class=\"o\">=</span> <span class=\"n\">optimizer</span><span class=\"o\">.</span><span class=\"n\">compute_grads_norm</span><span class=\"p\">()</span>\n",
       "        <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;train mean loss={:.6f}, accuracy={:.6f} ({:.6f} sec)&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">sum_train_loss</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">,</span> <span class=\"n\">sum_train_accuracy</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">,</span> <span class=\"n\">throuput</span><span class=\"p\">))</span>\n",
       "        <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stdout</span><span class=\"o\">.</span><span class=\"n\">flush</span><span class=\"p\">()</span>\n",
       "        <span class=\"n\">cur_at</span> <span class=\"o\">=</span> <span class=\"n\">now</span>\n",
       "\n",
       "        <span class=\"c1\"># evaluation</span>\n",
       "        <span class=\"n\">sum_test_loss</span> <span class=\"o\">=</span> <span class=\"mf\">0.</span>\n",
       "        <span class=\"n\">sum_test_accuracy</span> <span class=\"o\">=</span> <span class=\"mf\">0.</span>\n",
       "        <span class=\"n\">K</span> <span class=\"o\">=</span> <span class=\"mi\">0</span>\n",
       "        <span class=\"k\">for</span> <span class=\"n\">i</span> <span class=\"ow\">in</span> <span class=\"n\">six</span><span class=\"o\">.</span><span class=\"n\">moves</span><span class=\"o\">.</span><span class=\"n\">range</span><span class=\"p\">(</span><span class=\"mi\">0</span><span class=\"p\">,</span> <span class=\"n\">N_test</span><span class=\"p\">,</span> <span class=\"n\">batchsize</span><span class=\"p\">):</span>\n",
       "\n",
       "            <span class=\"n\">x</span> <span class=\"o\">=</span> <span class=\"n\">Variable</span><span class=\"p\">(</span><span class=\"n\">X_test</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">:</span><span class=\"n\">i</span> <span class=\"o\">+</span> <span class=\"n\">batchsize</span><span class=\"p\">],</span> <span class=\"n\">volatile</span><span class=\"o\">=</span><span class=\"s1\">&#39;on&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">t</span> <span class=\"o\">=</span> <span class=\"n\">Variable</span><span class=\"p\">(</span><span class=\"n\">y_test</span><span class=\"p\">[</span><span class=\"n\">i</span><span class=\"p\">:</span><span class=\"n\">i</span> <span class=\"o\">+</span> <span class=\"n\">batchsize</span><span class=\"p\">],</span> <span class=\"n\">volatile</span><span class=\"o\">=</span><span class=\"s1\">&#39;on&#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"c1\"># 順伝播させて誤差と精度を算出</span>\n",
       "            <span class=\"n\">loss</span><span class=\"p\">,</span> <span class=\"n\">accuracy</span> <span class=\"o\">=</span> <span class=\"n\">model</span><span class=\"p\">(</span><span class=\"n\">x</span><span class=\"p\">,</span> <span class=\"n\">t</span><span class=\"p\">,</span> <span class=\"n\">train</span><span class=\"o\">=</span><span class=\"bp\">False</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"n\">sum_test_loss</span> <span class=\"o\">+=</span> <span class=\"nb\">float</span><span class=\"p\">(</span><span class=\"n\">loss</span><span class=\"o\">.</span><span class=\"n\">data</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">sum_test_accuracy</span> <span class=\"o\">+=</span> <span class=\"nb\">float</span><span class=\"p\">(</span><span class=\"n\">accuracy</span><span class=\"o\">.</span><span class=\"n\">data</span><span class=\"p\">)</span> <span class=\"o\">*</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">K</span> <span class=\"o\">+=</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">t</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"n\">test_loss</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">sum_test_loss</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">)</span>\n",
       "        <span class=\"n\">test_accuracy</span><span class=\"o\">.</span><span class=\"n\">append</span><span class=\"p\">(</span><span class=\"n\">sum_test_accuracy</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"c1\"># テストデータでの誤差と正解精度を表示</span>\n",
       "        <span class=\"n\">now</span> <span class=\"o\">=</span> <span class=\"n\">time</span><span class=\"o\">.</span><span class=\"n\">time</span><span class=\"p\">()</span>\n",
       "        <span class=\"n\">throuput</span> <span class=\"o\">=</span> <span class=\"n\">now</span> <span class=\"o\">-</span> <span class=\"n\">cur_at</span>\n",
       "        <span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39; test mean loss={:.6f}, accuracy={:.6f} ({:.6f} sec)&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">sum_test_loss</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">,</span> <span class=\"n\">sum_test_accuracy</span> <span class=\"o\">/</span> <span class=\"n\">K</span><span class=\"p\">,</span> <span class=\"n\">throuput</span><span class=\"p\">))</span>\n",
       "        <span class=\"n\">sys</span><span class=\"o\">.</span><span class=\"n\">stdout</span><span class=\"o\">.</span><span class=\"n\">flush</span><span class=\"p\">()</span>\n",
       "        <span class=\"n\">cur_at</span> <span class=\"o\">=</span> <span class=\"n\">now</span>\n",
       "\n",
       "        <span class=\"c1\"># model と optimizer を保存する</span>\n",
       "        <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span><span class=\"p\">:</span> <span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">to_cpu</span><span class=\"p\">()</span>\n",
       "        <span class=\"k\">with</span> <span class=\"nb\">open</span><span class=\"p\">(</span><span class=\"n\">os</span><span class=\"o\">.</span><span class=\"n\">path</span><span class=\"o\">.</span><span class=\"n\">join</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">,</span> <span class=\"s1\">&#39;epoch_{:03d}.model&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">epoch</span><span class=\"p\">)),</span> <span class=\"s1\">&#39;wb&#39;</span><span class=\"p\">)</span> <span class=\"k\">as</span> <span class=\"n\">f</span><span class=\"p\">:</span>\n",
       "            <span class=\"n\">pickle</span><span class=\"o\">.</span><span class=\"n\">dump</span><span class=\"p\">(</span><span class=\"n\">model</span><span class=\"p\">,</span> <span class=\"n\">f</span><span class=\"p\">)</span>\n",
       "        <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span><span class=\"p\">:</span> <span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">to_gpu</span><span class=\"p\">()</span>\n",
       "        <span class=\"k\">with</span> <span class=\"nb\">open</span><span class=\"p\">(</span><span class=\"n\">os</span><span class=\"o\">.</span><span class=\"n\">path</span><span class=\"o\">.</span><span class=\"n\">join</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">,</span> <span class=\"s1\">&#39;epoch_{:03d}.state&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">epoch</span><span class=\"p\">)),</span> <span class=\"s1\">&#39;wb&#39;</span><span class=\"p\">)</span> <span class=\"k\">as</span> <span class=\"n\">f</span><span class=\"p\">:</span>\n",
       "            <span class=\"n\">pickle</span><span class=\"o\">.</span><span class=\"n\">dump</span><span class=\"p\">(</span><span class=\"n\">optimizer</span><span class=\"p\">,</span> <span class=\"n\">f</span><span class=\"p\">)</span>\n",
       "\n",
       "        <span class=\"c1\"># 精度と誤差をグラフ描画</span>\n",
       "        <span class=\"k\">if</span> <span class=\"bp\">True</span><span class=\"p\">:</span>\n",
       "            <span class=\"n\">ylim1</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"nb\">min</span><span class=\"p\">(</span><span class=\"n\">train_loss</span> <span class=\"o\">+</span> <span class=\"n\">test_loss</span><span class=\"p\">),</span> <span class=\"nb\">max</span><span class=\"p\">(</span><span class=\"n\">train_loss</span> <span class=\"o\">+</span> <span class=\"n\">test_loss</span><span class=\"p\">)]</span>\n",
       "            <span class=\"n\">ylim2</span> <span class=\"o\">=</span> <span class=\"p\">[</span><span class=\"nb\">min</span><span class=\"p\">(</span><span class=\"n\">train_accuracy</span> <span class=\"o\">+</span> <span class=\"n\">test_accuracy</span><span class=\"p\">),</span> <span class=\"nb\">max</span><span class=\"p\">(</span><span class=\"n\">train_accuracy</span> <span class=\"o\">+</span> <span class=\"n\">test_accuracy</span><span class=\"p\">)]</span>\n",
       "\n",
       "            <span class=\"c1\"># グラフ左</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">figure</span><span class=\"p\">(</span><span class=\"n\">figsize</span><span class=\"o\">=</span><span class=\"p\">(</span><span class=\"mi\">10</span><span class=\"p\">,</span> <span class=\"mi\">10</span><span class=\"p\">))</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">subplot</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"mi\">1</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">ylim</span><span class=\"p\">(</span><span class=\"n\">ylim1</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">plot</span><span class=\"p\">(</span><span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">train_loss</span><span class=\"p\">)</span> <span class=\"o\">+</span> <span class=\"mi\">1</span><span class=\"p\">),</span> <span class=\"n\">train_loss</span><span class=\"p\">,</span> <span class=\"s1\">&#39;b&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">grid</span><span class=\"p\">()</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">ylabel</span><span class=\"p\">(</span><span class=\"s1\">&#39;loss&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">legend</span><span class=\"p\">([</span><span class=\"s1\">&#39;train loss&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;train l2-norm&#39;</span><span class=\"p\">],</span> <span class=\"n\">loc</span><span class=\"o\">=</span><span class=\"s2\">&quot;lower left&quot;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">twinx</span><span class=\"p\">()</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">ylim</span><span class=\"p\">(</span><span class=\"n\">ylim2</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">plot</span><span class=\"p\">(</span><span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">train_accuracy</span><span class=\"p\">)</span> <span class=\"o\">+</span> <span class=\"mi\">1</span><span class=\"p\">),</span> <span class=\"n\">train_accuracy</span><span class=\"p\">,</span> <span class=\"s1\">&#39;m&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">grid</span><span class=\"p\">()</span>\n",
       "            <span class=\"c1\"># plt.ylabel(&#39;accuracy&#39;)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">legend</span><span class=\"p\">([</span><span class=\"s1\">&#39;train accuracy&#39;</span><span class=\"p\">],</span> <span class=\"n\">loc</span><span class=\"o\">=</span><span class=\"s2\">&quot;upper left&quot;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">title</span><span class=\"p\">(</span><span class=\"s1\">&#39;Loss and accuracy of training.&#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"c1\"># グラフ右</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">subplot</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"mi\">2</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">ylim</span><span class=\"p\">(</span><span class=\"n\">ylim1</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">plot</span><span class=\"p\">(</span><span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">test_loss</span><span class=\"p\">)</span> <span class=\"o\">+</span> <span class=\"mi\">1</span><span class=\"p\">),</span> <span class=\"n\">test_loss</span><span class=\"p\">,</span> <span class=\"s1\">&#39;b&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">grid</span><span class=\"p\">()</span>\n",
       "            <span class=\"c1\"># plt.ylabel(&#39;loss&#39;)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">legend</span><span class=\"p\">([</span><span class=\"s1\">&#39;test loss&#39;</span><span class=\"p\">],</span> <span class=\"n\">loc</span><span class=\"o\">=</span><span class=\"s2\">&quot;lower left&quot;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">twinx</span><span class=\"p\">()</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">ylim</span><span class=\"p\">(</span><span class=\"n\">ylim2</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">plot</span><span class=\"p\">(</span><span class=\"nb\">range</span><span class=\"p\">(</span><span class=\"mi\">1</span><span class=\"p\">,</span> <span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">test_accuracy</span><span class=\"p\">)</span> <span class=\"o\">+</span> <span class=\"mi\">1</span><span class=\"p\">),</span> <span class=\"n\">test_accuracy</span><span class=\"p\">,</span> <span class=\"s1\">&#39;m&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">grid</span><span class=\"p\">()</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">ylabel</span><span class=\"p\">(</span><span class=\"s1\">&#39;accuracy&#39;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">legend</span><span class=\"p\">([</span><span class=\"s1\">&#39;test accuracy&#39;</span><span class=\"p\">],</span> <span class=\"n\">loc</span><span class=\"o\">=</span><span class=\"s2\">&quot;upper left&quot;</span><span class=\"p\">)</span>\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">title</span><span class=\"p\">(</span><span class=\"s1\">&#39;Loss and accuracy of test.&#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "            <span class=\"n\">plt</span><span class=\"o\">.</span><span class=\"n\">savefig</span><span class=\"p\">(</span><span class=\"s1\">&#39;{}.png&#39;</span><span class=\"o\">.</span><span class=\"n\">format</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">))</span>\n",
       "            <span class=\"c1\"># plt.show()</span>\n",
       "\n",
       "        <span class=\"n\">cur_at</span> <span class=\"o\">=</span> <span class=\"n\">now</span>\n",
       "\n",
       "    <span class=\"c1\"># model と optimizer を保存する</span>\n",
       "    <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span><span class=\"p\">:</span> <span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">to_cpu</span><span class=\"p\">()</span>\n",
       "    <span class=\"k\">with</span> <span class=\"nb\">open</span><span class=\"p\">(</span><span class=\"n\">os</span><span class=\"o\">.</span><span class=\"n\">path</span><span class=\"o\">.</span><span class=\"n\">join</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">,</span> <span class=\"s1\">&#39;final.model&#39;</span><span class=\"p\">),</span> <span class=\"s1\">&#39;wb&#39;</span><span class=\"p\">)</span> <span class=\"k\">as</span> <span class=\"n\">f</span><span class=\"p\">:</span>\n",
       "        <span class=\"n\">pickle</span><span class=\"o\">.</span><span class=\"n\">dump</span><span class=\"p\">(</span><span class=\"n\">model</span><span class=\"p\">,</span> <span class=\"n\">f</span><span class=\"p\">)</span>\n",
       "    <span class=\"k\">if</span> <span class=\"n\">args</span><span class=\"o\">.</span><span class=\"n\">gpu</span> <span class=\"o\">&gt;=</span> <span class=\"mi\">0</span><span class=\"p\">:</span> <span class=\"n\">model</span><span class=\"o\">.</span><span class=\"n\">to_gpu</span><span class=\"p\">()</span>\n",
       "    <span class=\"k\">with</span> <span class=\"nb\">open</span><span class=\"p\">(</span><span class=\"n\">os</span><span class=\"o\">.</span><span class=\"n\">path</span><span class=\"o\">.</span><span class=\"n\">join</span><span class=\"p\">(</span><span class=\"n\">model_dir</span><span class=\"p\">,</span> <span class=\"s1\">&#39;final.state&#39;</span><span class=\"p\">),</span> <span class=\"s1\">&#39;wb&#39;</span><span class=\"p\">)</span> <span class=\"k\">as</span> <span class=\"n\">f</span><span class=\"p\">:</span>\n",
       "        <span class=\"n\">pickle</span><span class=\"o\">.</span><span class=\"n\">dump</span><span class=\"p\">(</span><span class=\"n\">optimizer</span><span class=\"p\">,</span> <span class=\"n\">f</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"k\">print</span><span class=\"p\">(</span><span class=\"s1\">&#39;time spent:&#39;</span><span class=\"p\">,</span> <span class=\"n\">time</span><span class=\"o\">.</span><span class=\"n\">time</span><span class=\"p\">()</span> <span class=\"o\">-</span> <span class=\"n\">start_time</span><span class=\"p\">)</span>\n",
       "</pre></div>\n"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "pprint_ipynb(data[0])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'https://github.com/haradatm/nlp/tree/master/classify/train_spp3-w2v.py'"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data[0].get_url() # a link to Github file"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Part 2: Use filter to refine search"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Sometimes we are interested in searching for code snippet that contains usage of a specific class. In other cases, the criteria is a little bit more complicated, such as having \"X\" function and \"Y\" function in one file, or having \"Z\" alone. To support those need, filter is built. Let's now utilize its power to refine the search!"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "from odyssey.core.bigquery.filter import Contains, And, Or"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# Let's define a filter that asks for either RandomForestClassifier or RandomForestRegressor\n",
    "rf_classifier_or_regressor = Or(Contains('RandomForestRegressor'),Contains('RandomForestClassifier'))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# Then another filter that asks for occurence of SVC\n",
    "svc = Contains('SVC')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "# Connect the two using And\n",
    "# so we are interested in files that have both SVC and one of the two RandomForest models \n",
    "# (RandomForestClassifier or RandomForestRegressor) appearing at the same time.\n",
    "f = And(rf_classifier_or_regressor, svc)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "rf_and_svc = gp_sklearn.get_all(f)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "1070\n"
     ]
    }
   ],
   "source": [
    "print(len(rf_and_svc))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">.highlight .hll { background-color: #ffffcc }\n",
       ".highlight  { background: #f8f8f8; }\n",
       ".highlight .c { color: #408080; font-style: italic } /* Comment */\n",
       ".highlight .err { border: 1px solid #FF0000 } /* Error */\n",
       ".highlight .k { color: #008000; font-weight: bold } /* Keyword */\n",
       ".highlight .o { color: #666666 } /* Operator */\n",
       ".highlight .ch { color: #408080; font-style: italic } /* Comment.Hashbang */\n",
       ".highlight .cm { color: #408080; font-style: italic } /* Comment.Multiline */\n",
       ".highlight .cp { color: #BC7A00 } /* Comment.Preproc */\n",
       ".highlight .cpf { color: #408080; font-style: italic } /* Comment.PreprocFile */\n",
       ".highlight .c1 { color: #408080; font-style: italic } /* Comment.Single */\n",
       ".highlight .cs { color: #408080; font-style: italic } /* Comment.Special */\n",
       ".highlight .gd { color: #A00000 } /* Generic.Deleted */\n",
       ".highlight .ge { font-style: italic } /* Generic.Emph */\n",
       ".highlight .gr { color: #FF0000 } /* Generic.Error */\n",
       ".highlight .gh { color: #000080; font-weight: bold } /* Generic.Heading */\n",
       ".highlight .gi { color: #00A000 } /* Generic.Inserted */\n",
       ".highlight .go { color: #888888 } /* Generic.Output */\n",
       ".highlight .gp { color: #000080; font-weight: bold } /* Generic.Prompt */\n",
       ".highlight .gs { font-weight: bold } /* Generic.Strong */\n",
       ".highlight .gu { color: #800080; font-weight: bold } /* Generic.Subheading */\n",
       ".highlight .gt { color: #0044DD } /* Generic.Traceback */\n",
       ".highlight .kc { color: #008000; font-weight: bold } /* Keyword.Constant */\n",
       ".highlight .kd { color: #008000; font-weight: bold } /* Keyword.Declaration */\n",
       ".highlight .kn { color: #008000; font-weight: bold } /* Keyword.Namespace */\n",
       ".highlight .kp { color: #008000 } /* Keyword.Pseudo */\n",
       ".highlight .kr { color: #008000; font-weight: bold } /* Keyword.Reserved */\n",
       ".highlight .kt { color: #B00040 } /* Keyword.Type */\n",
       ".highlight .m { color: #666666 } /* Literal.Number */\n",
       ".highlight .s { color: #BA2121 } /* Literal.String */\n",
       ".highlight .na { color: #7D9029 } /* Name.Attribute */\n",
       ".highlight .nb { color: #008000 } /* Name.Builtin */\n",
       ".highlight .nc { color: #0000FF; font-weight: bold } /* Name.Class */\n",
       ".highlight .no { color: #880000 } /* Name.Constant */\n",
       ".highlight .nd { color: #AA22FF } /* Name.Decorator */\n",
       ".highlight .ni { color: #999999; font-weight: bold } /* Name.Entity */\n",
       ".highlight .ne { color: #D2413A; font-weight: bold } /* Name.Exception */\n",
       ".highlight .nf { color: #0000FF } /* Name.Function */\n",
       ".highlight .nl { color: #A0A000 } /* Name.Label */\n",
       ".highlight .nn { color: #0000FF; font-weight: bold } /* Name.Namespace */\n",
       ".highlight .nt { color: #008000; font-weight: bold } /* Name.Tag */\n",
       ".highlight .nv { color: #19177C } /* Name.Variable */\n",
       ".highlight .ow { color: #AA22FF; font-weight: bold } /* Operator.Word */\n",
       ".highlight .w { color: #bbbbbb } /* Text.Whitespace */\n",
       ".highlight .mb { color: #666666 } /* Literal.Number.Bin */\n",
       ".highlight .mf { color: #666666 } /* Literal.Number.Float */\n",
       ".highlight .mh { color: #666666 } /* Literal.Number.Hex */\n",
       ".highlight .mi { color: #666666 } /* Literal.Number.Integer */\n",
       ".highlight .mo { color: #666666 } /* Literal.Number.Oct */\n",
       ".highlight .sb { color: #BA2121 } /* Literal.String.Backtick */\n",
       ".highlight .sc { color: #BA2121 } /* Literal.String.Char */\n",
       ".highlight .sd { color: #BA2121; font-style: italic } /* Literal.String.Doc */\n",
       ".highlight .s2 { color: #BA2121 } /* Literal.String.Double */\n",
       ".highlight .se { color: #BB6622; font-weight: bold } /* Literal.String.Escape */\n",
       ".highlight .sh { color: #BA2121 } /* Literal.String.Heredoc */\n",
       ".highlight .si { color: #BB6688; font-weight: bold } /* Literal.String.Interpol */\n",
       ".highlight .sx { color: #008000 } /* Literal.String.Other */\n",
       ".highlight .sr { color: #BB6688 } /* Literal.String.Regex */\n",
       ".highlight .s1 { color: #BA2121 } /* Literal.String.Single */\n",
       ".highlight .ss { color: #19177C } /* Literal.String.Symbol */\n",
       ".highlight .bp { color: #008000 } /* Name.Builtin.Pseudo */\n",
       ".highlight .vc { color: #19177C } /* Name.Variable.Class */\n",
       ".highlight .vg { color: #19177C } /* Name.Variable.Global */\n",
       ".highlight .vi { color: #19177C } /* Name.Variable.Instance */\n",
       ".highlight .il { color: #666666 } /* Literal.Number.Integer.Long */</style><div class=\"highlight\"><pre><span></span><span class=\"c1\"># coding: utf-8</span>\n",
       "\n",
       "<span class=\"c1\"># ### Open using Jupyter Notebook. It holds the code and visualizations for developing the different classification algorithms (LibSVM, RBF SVM, Naive Bayes, Random Forest, Gradient Boosting) on the chosen subset of important features. </span>\n",
       "\n",
       "<span class=\"c1\"># In[27]:</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">pandas</span> <span class=\"kn\">as</span> <span class=\"nn\">pd</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">numpy</span> <span class=\"kn\">as</span> <span class=\"nn\">np</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">numpy</span> <span class=\"kn\">import</span> <span class=\"n\">sort</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.metrics</span> <span class=\"kn\">import</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">,</span> <span class=\"n\">accuracy_score</span><span class=\"p\">,</span><span class=\"n\">confusion_matrix</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.feature_selection</span> <span class=\"kn\">import</span> <span class=\"n\">SelectFromModel</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">matplotlib</span> <span class=\"kn\">import</span> <span class=\"n\">pyplot</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">pylab</span> <span class=\"kn\">as</span> <span class=\"nn\">pl</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn</span> <span class=\"kn\">import</span> <span class=\"n\">svm</span>\n",
       "\n",
       "<span class=\"n\">get_ipython</span><span class=\"p\">()</span><span class=\"o\">.</span><span class=\"n\">magic</span><span class=\"p\">(</span><span class=\"s1\">u&#39;matplotlib inline&#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[4]:</span>\n",
       "\n",
       "<span class=\"n\">SEED</span> <span class=\"o\">=</span> <span class=\"mi\">1234</span>\n",
       "<span class=\"c1\">## Selected set of most important features</span>\n",
       "\n",
       "<span class=\"n\">featureSet</span><span class=\"o\">=</span><span class=\"p\">[</span><span class=\"s1\">&#39;L3_S31_F3846&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1578&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S33_F3857&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1406&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S29_F3348&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S33_F3863&#39;</span><span class=\"p\">,</span>\n",
       "            <span class=\"s1\">&#39;L3_S29_F3427&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S37_F3950&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L0_S9_F170&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;L3_S29_F3321&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1346&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S32_F3850&#39;</span><span class=\"p\">,</span>\n",
       "            <span class=\"s1\">&#39;L3_S30_F3514&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1366&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L2_S26_F3036&#39;</span><span class=\"p\">]</span>\n",
       "\n",
       "<span class=\"n\">train_x</span> <span class=\"o\">=</span> <span class=\"n\">pd</span><span class=\"o\">.</span><span class=\"n\">read_csv</span><span class=\"p\">(</span><span class=\"s2\">&quot;../data/train_numeric.csv&quot;</span><span class=\"p\">,</span> <span class=\"n\">usecols</span><span class=\"o\">=</span><span class=\"n\">featureSet</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">train_y</span> <span class=\"o\">=</span> <span class=\"n\">pd</span><span class=\"o\">.</span><span class=\"n\">read_csv</span><span class=\"p\">(</span><span class=\"s2\">&quot;../data/train_numeric.csv&quot;</span><span class=\"p\">,</span> <span class=\"n\">usecols</span><span class=\"o\">=</span><span class=\"p\">[</span><span class=\"s1\">&#39;Response&#39;</span><span class=\"p\">])</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[5]:</span>\n",
       "\n",
       "<span class=\"n\">test_x</span> <span class=\"o\">=</span> <span class=\"n\">pd</span><span class=\"o\">.</span><span class=\"n\">read_csv</span><span class=\"p\">(</span><span class=\"s2\">&quot;../data/test_numeric.csv&quot;</span><span class=\"p\">,</span> <span class=\"n\">usecols</span><span class=\"o\">=</span><span class=\"n\">featureSet</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[6]:</span>\n",
       "\n",
       "<span class=\"n\">train_x</span> <span class=\"o\">=</span> <span class=\"n\">train_x</span><span class=\"o\">.</span><span class=\"n\">fillna</span><span class=\"p\">(</span><span class=\"mi\">9999999</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">msk</span> <span class=\"o\">=</span> <span class=\"n\">np</span><span class=\"o\">.</span><span class=\"n\">random</span><span class=\"o\">.</span><span class=\"n\">rand</span><span class=\"p\">(</span><span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">train_x</span><span class=\"p\">))</span> <span class=\"o\">&lt;</span> <span class=\"mf\">0.7</span>  <span class=\"c1\"># creating Training and validation set </span>\n",
       "\n",
       "\n",
       "<span class=\"n\">X_train</span> <span class=\"o\">=</span> <span class=\"n\">train_x</span><span class=\"p\">[</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "\n",
       "<span class=\"n\">Y_train</span> <span class=\"o\">=</span> <span class=\"n\">train_y</span><span class=\"o\">.</span><span class=\"n\">Response</span><span class=\"o\">.</span><span class=\"n\">ravel</span><span class=\"p\">()[</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "\n",
       "<span class=\"n\">X_valid</span> <span class=\"o\">=</span> <span class=\"n\">train_x</span><span class=\"p\">[</span><span class=\"o\">~</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "<span class=\"n\">Y_valid</span> <span class=\"o\">=</span> <span class=\"n\">train_y</span><span class=\"o\">.</span><span class=\"n\">Response</span><span class=\"o\">.</span><span class=\"n\">ravel</span><span class=\"p\">()[</span><span class=\"o\">~</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[7]:</span>\n",
       "\n",
       "<span class=\"k\">def</span> <span class=\"nf\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">typeModel</span><span class=\"p\">):</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">matshow</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">title</span><span class=\"p\">(</span><span class=\"s1\">&#39;Confusion matrix for &#39;</span><span class=\"o\">+</span><span class=\"n\">typeModel</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">colorbar</span><span class=\"p\">()</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">show</span><span class=\"p\">()</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[24]:</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.ensemble</span> <span class=\"kn\">import</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">,</span> <span class=\"n\">GradientBoostingClassifier</span>\n",
       "\n",
       "<span class=\"n\">C</span><span class=\"o\">=</span><span class=\"mi\">4</span>\n",
       "<span class=\"n\">lin_svc</span> <span class=\"o\">=</span> <span class=\"n\">svm</span><span class=\"o\">.</span><span class=\"n\">LinearSVC</span><span class=\"p\">(</span><span class=\"n\">C</span><span class=\"o\">=</span><span class=\"n\">C</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;LibSVM fitted&quot;</span>\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;LinearSVC (linear kernel)&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">lin_svc</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Confusion Matrix&quot;</span>\n",
       "<span class=\"k\">print</span> <span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[22]:</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.ensemble</span> <span class=\"kn\">import</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">,</span> <span class=\"n\">GradientBoostingClassifier</span>\n",
       "\n",
       "<span class=\"n\">C</span><span class=\"o\">=</span><span class=\"mi\">4</span>\n",
       "<span class=\"n\">rbf_svc</span> <span class=\"o\">=</span> <span class=\"n\">svm</span><span class=\"o\">.</span><span class=\"n\">SVC</span><span class=\"p\">(</span><span class=\"n\">kernel</span><span class=\"o\">=</span><span class=\"s1\">&#39;rbf&#39;</span><span class=\"p\">,</span> <span class=\"n\">gamma</span><span class=\"o\">=</span><span class=\"mf\">0.7</span><span class=\"p\">,</span> <span class=\"n\">C</span><span class=\"o\">=</span><span class=\"n\">C</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;RBF fitted&quot;</span>\n",
       "\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;SVC with RBF kernel&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">rbf_svc</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Confusion Matrix&quot;</span>\n",
       "<span class=\"k\">print</span> <span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[10]:</span>\n",
       "\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.naive_bayes</span> <span class=\"kn\">import</span> <span class=\"n\">GaussianNB</span>\n",
       "\n",
       "<span class=\"n\">gnb</span> <span class=\"o\">=</span> <span class=\"n\">GaussianNB</span><span class=\"p\">()</span>\n",
       "\n",
       "<span class=\"n\">clf</span> <span class=\"o\">=</span> <span class=\"n\">gnb</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span><span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Naive Bayes Fitted&quot;</span>\n",
       "\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;Naive Bayes&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">clf</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Confusion Matrix&quot;</span>\n",
       "<span class=\"k\">print</span> <span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[21]:</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.ensemble</span> <span class=\"kn\">import</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">,</span> <span class=\"n\">GradientBoostingClassifier</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.cross_validation</span> <span class=\"kn\">import</span> <span class=\"n\">cross_val_score</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.model_selection</span> <span class=\"kn\">import</span> <span class=\"n\">GridSearchCV</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[23]:</span>\n",
       "\n",
       "<span class=\"n\">rf</span> <span class=\"o\">=</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">(</span><span class=\"n\">n_estimators</span><span class=\"o\">=</span><span class=\"mi\">20</span><span class=\"p\">,</span> <span class=\"n\">n_jobs</span><span class=\"o\">=</span><span class=\"mi\">2</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">param_grid</span> <span class=\"o\">=</span> <span class=\"p\">{</span>\n",
       "                 <span class=\"s1\">&#39;n_estimators&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">10</span><span class=\"p\">,</span> <span class=\"mi\">15</span><span class=\"p\">,</span> <span class=\"mi\">20</span><span class=\"p\">],</span>\n",
       "                 <span class=\"s1\">&#39;max_depth&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">7</span><span class=\"p\">,</span> <span class=\"mi\">9</span><span class=\"p\">]</span>\n",
       "             <span class=\"p\">}</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[24]:</span>\n",
       "\n",
       "<span class=\"n\">grid_rf</span> <span class=\"o\">=</span> <span class=\"n\">GridSearchCV</span><span class=\"p\">(</span><span class=\"n\">rf</span><span class=\"p\">,</span> <span class=\"n\">param_grid</span><span class=\"p\">,</span> <span class=\"n\">cv</span><span class=\"o\">=</span><span class=\"mi\">10</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">rf_model</span><span class=\"o\">=</span><span class=\"n\">grid_rf</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[30]:</span>\n",
       "\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;RF fitted&quot;</span>\n",
       "\n",
       "<span class=\"n\">titles</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;Random Forest&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">rf_model</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">titles</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">]</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">titles</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">])</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[31]:</span>\n",
       "\n",
       "<span class=\"n\">gb</span> <span class=\"o\">=</span> <span class=\"n\">GradientBoostingClassifier</span><span class=\"p\">(</span><span class=\"n\">learning_rate</span><span class=\"o\">=</span><span class=\"mf\">0.5</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">param_grid</span> <span class=\"o\">=</span> <span class=\"p\">{</span>\n",
       "                 <span class=\"s1\">&#39;n_estimators&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">10</span><span class=\"p\">,</span> <span class=\"mi\">15</span><span class=\"p\">,</span> <span class=\"mi\">20</span><span class=\"p\">],</span>\n",
       "                 <span class=\"s1\">&#39;max_depth&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">7</span><span class=\"p\">,</span> <span class=\"mi\">9</span><span class=\"p\">]</span>\n",
       "             <span class=\"p\">}</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[32]:</span>\n",
       "\n",
       "<span class=\"n\">grid_gb</span> <span class=\"o\">=</span> <span class=\"n\">GridSearchCV</span><span class=\"p\">(</span><span class=\"n\">gb</span><span class=\"p\">,</span> <span class=\"n\">param_grid</span><span class=\"p\">,</span> <span class=\"n\">cv</span><span class=\"o\">=</span><span class=\"mi\">10</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">gb_model</span><span class=\"o\">=</span><span class=\"n\">grid_gb</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[36]:</span>\n",
       "\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;GB fitted&quot;</span>\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;Gradient Boosting&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">gb_model</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "</pre></div>\n"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "# Verify the occurence. We indeed have both!\n",
    "pprint_ipynb(rf_and_svc[0])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Part 3: Repos with top imports"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "One common question Python library writers (or even users) are interested in is: who is using this library? Odyssey supports querying repos with top imports of your package-in-interest. In one line, you can get the answer!"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Note: The first time running this will be very slow!**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0\n",
      "1000\n",
      "2000\n",
      "3000\n",
      "4000\n",
      "5000\n",
      "6000\n",
      "7000\n",
      "8000\n",
      "9000\n",
      "10000\n",
      "11000\n",
      "12000\n",
      "13000\n",
      "14000\n",
      "15000\n",
      "16000\n",
      "17000\n",
      "18000\n",
      "19000\n",
      "20000\n",
      "21000\n",
      "22000\n",
      "23000\n",
      "24000\n",
      "25000\n",
      "26000\n",
      "27000\n",
      "28000\n",
      "29000\n",
      "30000\n",
      "31000\n",
      "32000\n",
      "33000\n",
      "34000\n",
      "35000\n",
      "36000\n",
      "37000\n"
     ]
    }
   ],
   "source": [
    "top20_imports = gp_sklearn.get_top_import_repo(n=20) # top imports by file count"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[('ngoix/OCRF', 291), ('automl/auto-sklearn', 195), ('hmendozap/auto-sklearn', 186), ('florian-f/sklearn', 146), ('seckcoder/lang-learn', 141), ('GbalsaC/bitnamiP', 119), ('automl/paramsklearn', 100), ('chaluemwut/fbserver', 99), ('magic2du/contact_matrix', 96), ('nok/sklearn-porter', 95), ('jpzk/evopy', 87), ('B3AU/waveTree', 77), ('sinhrks/expandas', 64), ('chkoar/imbalanced-learn', 61), ('liyu1990/sklearn', 61), ('KennyCandy/HAR', 54), ('sinhrks/pandas-ml', 54), ('RecipeML/Recipe', 52), ('dvro/imbalanced-learn', 51), ('Tjorriemorrie/trading', 51)]\n"
     ]
    }
   ],
   "source": [
    "print(top20_imports)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "20\n"
     ]
    }
   ],
   "source": [
    "# Verify that the the count matches\n",
    "print(len(top20_imports)) # 20"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Part 4: Most imported class/submodule/funcion"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Another common question is how often a certain class/submodule/function is imported. Odyssey can answer that too."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "top20_models = gp_sklearn.get_most_imported_class(n=20)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[('RandomForestClassifier', 2534), ('LogisticRegression', 2152), ('SVC', 1998), ('StandardScaler', 1783), ('PCA', 1732), ('Pipeline', 1519), ('GridSearchCV', 1511), ('KMeans', 1451), ('TfidfVectorizer', 1314), ('CountVectorizer', 1294), ('KNeighborsClassifier', 1188), ('LinearSVC', 1116), ('DecisionTreeClassifier', 1047), ('LinearRegression', 861), ('GaussianNB', 817), ('LabelEncoder', 728), ('MultinomialNB', 723), ('RandomForestRegressor', 681), ('AdaBoostClassifier', 673), ('SGDClassifier', 642)]\n"
     ]
    }
   ],
   "source": [
    "print(top20_models)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "See what are the entries by calling get_import_source() "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "sources = gp_sklearn.get_import_source(\"RandomForestClassifier\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type=\"text/css\">.highlight .hll { background-color: #ffffcc }\n",
       ".highlight  { background: #f8f8f8; }\n",
       ".highlight .c { color: #408080; font-style: italic } /* Comment */\n",
       ".highlight .err { border: 1px solid #FF0000 } /* Error */\n",
       ".highlight .k { color: #008000; font-weight: bold } /* Keyword */\n",
       ".highlight .o { color: #666666 } /* Operator */\n",
       ".highlight .ch { color: #408080; font-style: italic } /* Comment.Hashbang */\n",
       ".highlight .cm { color: #408080; font-style: italic } /* Comment.Multiline */\n",
       ".highlight .cp { color: #BC7A00 } /* Comment.Preproc */\n",
       ".highlight .cpf { color: #408080; font-style: italic } /* Comment.PreprocFile */\n",
       ".highlight .c1 { color: #408080; font-style: italic } /* Comment.Single */\n",
       ".highlight .cs { color: #408080; font-style: italic } /* Comment.Special */\n",
       ".highlight .gd { color: #A00000 } /* Generic.Deleted */\n",
       ".highlight .ge { font-style: italic } /* Generic.Emph */\n",
       ".highlight .gr { color: #FF0000 } /* Generic.Error */\n",
       ".highlight .gh { color: #000080; font-weight: bold } /* Generic.Heading */\n",
       ".highlight .gi { color: #00A000 } /* Generic.Inserted */\n",
       ".highlight .go { color: #888888 } /* Generic.Output */\n",
       ".highlight .gp { color: #000080; font-weight: bold } /* Generic.Prompt */\n",
       ".highlight .gs { font-weight: bold } /* Generic.Strong */\n",
       ".highlight .gu { color: #800080; font-weight: bold } /* Generic.Subheading */\n",
       ".highlight .gt { color: #0044DD } /* Generic.Traceback */\n",
       ".highlight .kc { color: #008000; font-weight: bold } /* Keyword.Constant */\n",
       ".highlight .kd { color: #008000; font-weight: bold } /* Keyword.Declaration */\n",
       ".highlight .kn { color: #008000; font-weight: bold } /* Keyword.Namespace */\n",
       ".highlight .kp { color: #008000 } /* Keyword.Pseudo */\n",
       ".highlight .kr { color: #008000; font-weight: bold } /* Keyword.Reserved */\n",
       ".highlight .kt { color: #B00040 } /* Keyword.Type */\n",
       ".highlight .m { color: #666666 } /* Literal.Number */\n",
       ".highlight .s { color: #BA2121 } /* Literal.String */\n",
       ".highlight .na { color: #7D9029 } /* Name.Attribute */\n",
       ".highlight .nb { color: #008000 } /* Name.Builtin */\n",
       ".highlight .nc { color: #0000FF; font-weight: bold } /* Name.Class */\n",
       ".highlight .no { color: #880000 } /* Name.Constant */\n",
       ".highlight .nd { color: #AA22FF } /* Name.Decorator */\n",
       ".highlight .ni { color: #999999; font-weight: bold } /* Name.Entity */\n",
       ".highlight .ne { color: #D2413A; font-weight: bold } /* Name.Exception */\n",
       ".highlight .nf { color: #0000FF } /* Name.Function */\n",
       ".highlight .nl { color: #A0A000 } /* Name.Label */\n",
       ".highlight .nn { color: #0000FF; font-weight: bold } /* Name.Namespace */\n",
       ".highlight .nt { color: #008000; font-weight: bold } /* Name.Tag */\n",
       ".highlight .nv { color: #19177C } /* Name.Variable */\n",
       ".highlight .ow { color: #AA22FF; font-weight: bold } /* Operator.Word */\n",
       ".highlight .w { color: #bbbbbb } /* Text.Whitespace */\n",
       ".highlight .mb { color: #666666 } /* Literal.Number.Bin */\n",
       ".highlight .mf { color: #666666 } /* Literal.Number.Float */\n",
       ".highlight .mh { color: #666666 } /* Literal.Number.Hex */\n",
       ".highlight .mi { color: #666666 } /* Literal.Number.Integer */\n",
       ".highlight .mo { color: #666666 } /* Literal.Number.Oct */\n",
       ".highlight .sb { color: #BA2121 } /* Literal.String.Backtick */\n",
       ".highlight .sc { color: #BA2121 } /* Literal.String.Char */\n",
       ".highlight .sd { color: #BA2121; font-style: italic } /* Literal.String.Doc */\n",
       ".highlight .s2 { color: #BA2121 } /* Literal.String.Double */\n",
       ".highlight .se { color: #BB6622; font-weight: bold } /* Literal.String.Escape */\n",
       ".highlight .sh { color: #BA2121 } /* Literal.String.Heredoc */\n",
       ".highlight .si { color: #BB6688; font-weight: bold } /* Literal.String.Interpol */\n",
       ".highlight .sx { color: #008000 } /* Literal.String.Other */\n",
       ".highlight .sr { color: #BB6688 } /* Literal.String.Regex */\n",
       ".highlight .s1 { color: #BA2121 } /* Literal.String.Single */\n",
       ".highlight .ss { color: #19177C } /* Literal.String.Symbol */\n",
       ".highlight .bp { color: #008000 } /* Name.Builtin.Pseudo */\n",
       ".highlight .vc { color: #19177C } /* Name.Variable.Class */\n",
       ".highlight .vg { color: #19177C } /* Name.Variable.Global */\n",
       ".highlight .vi { color: #19177C } /* Name.Variable.Instance */\n",
       ".highlight .il { color: #666666 } /* Literal.Number.Integer.Long */</style><div class=\"highlight\"><pre><span></span><span class=\"c1\"># coding: utf-8</span>\n",
       "\n",
       "<span class=\"c1\"># ### Open using Jupyter Notebook. It holds the code and visualizations for developing the different classification algorithms (LibSVM, RBF SVM, Naive Bayes, Random Forest, Gradient Boosting) on the chosen subset of important features. </span>\n",
       "\n",
       "<span class=\"c1\"># In[27]:</span>\n",
       "\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">pandas</span> <span class=\"kn\">as</span> <span class=\"nn\">pd</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">numpy</span> <span class=\"kn\">as</span> <span class=\"nn\">np</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">numpy</span> <span class=\"kn\">import</span> <span class=\"n\">sort</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.metrics</span> <span class=\"kn\">import</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">,</span> <span class=\"n\">accuracy_score</span><span class=\"p\">,</span><span class=\"n\">confusion_matrix</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.feature_selection</span> <span class=\"kn\">import</span> <span class=\"n\">SelectFromModel</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">matplotlib</span> <span class=\"kn\">import</span> <span class=\"n\">pyplot</span>\n",
       "<span class=\"kn\">import</span> <span class=\"nn\">pylab</span> <span class=\"kn\">as</span> <span class=\"nn\">pl</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn</span> <span class=\"kn\">import</span> <span class=\"n\">svm</span>\n",
       "\n",
       "<span class=\"n\">get_ipython</span><span class=\"p\">()</span><span class=\"o\">.</span><span class=\"n\">magic</span><span class=\"p\">(</span><span class=\"s1\">u&#39;matplotlib inline&#39;</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[4]:</span>\n",
       "\n",
       "<span class=\"n\">SEED</span> <span class=\"o\">=</span> <span class=\"mi\">1234</span>\n",
       "<span class=\"c1\">## Selected set of most important features</span>\n",
       "\n",
       "<span class=\"n\">featureSet</span><span class=\"o\">=</span><span class=\"p\">[</span><span class=\"s1\">&#39;L3_S31_F3846&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1578&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S33_F3857&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1406&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S29_F3348&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S33_F3863&#39;</span><span class=\"p\">,</span>\n",
       "            <span class=\"s1\">&#39;L3_S29_F3427&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S37_F3950&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L0_S9_F170&#39;</span><span class=\"p\">,</span> <span class=\"s1\">&#39;L3_S29_F3321&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1346&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L3_S32_F3850&#39;</span><span class=\"p\">,</span>\n",
       "            <span class=\"s1\">&#39;L3_S30_F3514&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L1_S24_F1366&#39;</span><span class=\"p\">,</span><span class=\"s1\">&#39;L2_S26_F3036&#39;</span><span class=\"p\">]</span>\n",
       "\n",
       "<span class=\"n\">train_x</span> <span class=\"o\">=</span> <span class=\"n\">pd</span><span class=\"o\">.</span><span class=\"n\">read_csv</span><span class=\"p\">(</span><span class=\"s2\">&quot;../data/train_numeric.csv&quot;</span><span class=\"p\">,</span> <span class=\"n\">usecols</span><span class=\"o\">=</span><span class=\"n\">featureSet</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">train_y</span> <span class=\"o\">=</span> <span class=\"n\">pd</span><span class=\"o\">.</span><span class=\"n\">read_csv</span><span class=\"p\">(</span><span class=\"s2\">&quot;../data/train_numeric.csv&quot;</span><span class=\"p\">,</span> <span class=\"n\">usecols</span><span class=\"o\">=</span><span class=\"p\">[</span><span class=\"s1\">&#39;Response&#39;</span><span class=\"p\">])</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[5]:</span>\n",
       "\n",
       "<span class=\"n\">test_x</span> <span class=\"o\">=</span> <span class=\"n\">pd</span><span class=\"o\">.</span><span class=\"n\">read_csv</span><span class=\"p\">(</span><span class=\"s2\">&quot;../data/test_numeric.csv&quot;</span><span class=\"p\">,</span> <span class=\"n\">usecols</span><span class=\"o\">=</span><span class=\"n\">featureSet</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[6]:</span>\n",
       "\n",
       "<span class=\"n\">train_x</span> <span class=\"o\">=</span> <span class=\"n\">train_x</span><span class=\"o\">.</span><span class=\"n\">fillna</span><span class=\"p\">(</span><span class=\"mi\">9999999</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">msk</span> <span class=\"o\">=</span> <span class=\"n\">np</span><span class=\"o\">.</span><span class=\"n\">random</span><span class=\"o\">.</span><span class=\"n\">rand</span><span class=\"p\">(</span><span class=\"nb\">len</span><span class=\"p\">(</span><span class=\"n\">train_x</span><span class=\"p\">))</span> <span class=\"o\">&lt;</span> <span class=\"mf\">0.7</span>  <span class=\"c1\"># creating Training and validation set </span>\n",
       "\n",
       "\n",
       "<span class=\"n\">X_train</span> <span class=\"o\">=</span> <span class=\"n\">train_x</span><span class=\"p\">[</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "\n",
       "<span class=\"n\">Y_train</span> <span class=\"o\">=</span> <span class=\"n\">train_y</span><span class=\"o\">.</span><span class=\"n\">Response</span><span class=\"o\">.</span><span class=\"n\">ravel</span><span class=\"p\">()[</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "\n",
       "<span class=\"n\">X_valid</span> <span class=\"o\">=</span> <span class=\"n\">train_x</span><span class=\"p\">[</span><span class=\"o\">~</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "<span class=\"n\">Y_valid</span> <span class=\"o\">=</span> <span class=\"n\">train_y</span><span class=\"o\">.</span><span class=\"n\">Response</span><span class=\"o\">.</span><span class=\"n\">ravel</span><span class=\"p\">()[</span><span class=\"o\">~</span><span class=\"n\">msk</span><span class=\"p\">]</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[7]:</span>\n",
       "\n",
       "<span class=\"k\">def</span> <span class=\"nf\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">typeModel</span><span class=\"p\">):</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">matshow</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">title</span><span class=\"p\">(</span><span class=\"s1\">&#39;Confusion matrix for &#39;</span><span class=\"o\">+</span><span class=\"n\">typeModel</span><span class=\"p\">)</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">colorbar</span><span class=\"p\">()</span>\n",
       "    <span class=\"n\">pl</span><span class=\"o\">.</span><span class=\"n\">show</span><span class=\"p\">()</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[24]:</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.ensemble</span> <span class=\"kn\">import</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">,</span> <span class=\"n\">GradientBoostingClassifier</span>\n",
       "\n",
       "<span class=\"n\">C</span><span class=\"o\">=</span><span class=\"mi\">4</span>\n",
       "<span class=\"n\">lin_svc</span> <span class=\"o\">=</span> <span class=\"n\">svm</span><span class=\"o\">.</span><span class=\"n\">LinearSVC</span><span class=\"p\">(</span><span class=\"n\">C</span><span class=\"o\">=</span><span class=\"n\">C</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;LibSVM fitted&quot;</span>\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;LinearSVC (linear kernel)&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">lin_svc</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Confusion Matrix&quot;</span>\n",
       "<span class=\"k\">print</span> <span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[22]:</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.ensemble</span> <span class=\"kn\">import</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">,</span> <span class=\"n\">GradientBoostingClassifier</span>\n",
       "\n",
       "<span class=\"n\">C</span><span class=\"o\">=</span><span class=\"mi\">4</span>\n",
       "<span class=\"n\">rbf_svc</span> <span class=\"o\">=</span> <span class=\"n\">svm</span><span class=\"o\">.</span><span class=\"n\">SVC</span><span class=\"p\">(</span><span class=\"n\">kernel</span><span class=\"o\">=</span><span class=\"s1\">&#39;rbf&#39;</span><span class=\"p\">,</span> <span class=\"n\">gamma</span><span class=\"o\">=</span><span class=\"mf\">0.7</span><span class=\"p\">,</span> <span class=\"n\">C</span><span class=\"o\">=</span><span class=\"n\">C</span><span class=\"p\">)</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;RBF fitted&quot;</span>\n",
       "\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;SVC with RBF kernel&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">rbf_svc</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Confusion Matrix&quot;</span>\n",
       "<span class=\"k\">print</span> <span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[10]:</span>\n",
       "\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.naive_bayes</span> <span class=\"kn\">import</span> <span class=\"n\">GaussianNB</span>\n",
       "\n",
       "<span class=\"n\">gnb</span> <span class=\"o\">=</span> <span class=\"n\">GaussianNB</span><span class=\"p\">()</span>\n",
       "\n",
       "<span class=\"n\">clf</span> <span class=\"o\">=</span> <span class=\"n\">gnb</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span><span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Naive Bayes Fitted&quot;</span>\n",
       "\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;Naive Bayes&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">clf</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;Confusion Matrix&quot;</span>\n",
       "<span class=\"k\">print</span> <span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[21]:</span>\n",
       "\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.ensemble</span> <span class=\"kn\">import</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">,</span> <span class=\"n\">GradientBoostingClassifier</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.cross_validation</span> <span class=\"kn\">import</span> <span class=\"n\">cross_val_score</span>\n",
       "<span class=\"kn\">from</span> <span class=\"nn\">sklearn.model_selection</span> <span class=\"kn\">import</span> <span class=\"n\">GridSearchCV</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[23]:</span>\n",
       "\n",
       "<span class=\"n\">rf</span> <span class=\"o\">=</span> <span class=\"n\">RandomForestClassifier</span><span class=\"p\">(</span><span class=\"n\">n_estimators</span><span class=\"o\">=</span><span class=\"mi\">20</span><span class=\"p\">,</span> <span class=\"n\">n_jobs</span><span class=\"o\">=</span><span class=\"mi\">2</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">param_grid</span> <span class=\"o\">=</span> <span class=\"p\">{</span>\n",
       "                 <span class=\"s1\">&#39;n_estimators&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">10</span><span class=\"p\">,</span> <span class=\"mi\">15</span><span class=\"p\">,</span> <span class=\"mi\">20</span><span class=\"p\">],</span>\n",
       "                 <span class=\"s1\">&#39;max_depth&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">7</span><span class=\"p\">,</span> <span class=\"mi\">9</span><span class=\"p\">]</span>\n",
       "             <span class=\"p\">}</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[24]:</span>\n",
       "\n",
       "<span class=\"n\">grid_rf</span> <span class=\"o\">=</span> <span class=\"n\">GridSearchCV</span><span class=\"p\">(</span><span class=\"n\">rf</span><span class=\"p\">,</span> <span class=\"n\">param_grid</span><span class=\"p\">,</span> <span class=\"n\">cv</span><span class=\"o\">=</span><span class=\"mi\">10</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">rf_model</span><span class=\"o\">=</span><span class=\"n\">grid_rf</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[30]:</span>\n",
       "\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;RF fitted&quot;</span>\n",
       "\n",
       "<span class=\"n\">titles</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;Random Forest&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">rf_model</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">titles</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">]</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">titles</span><span class=\"p\">[</span><span class=\"mi\">0</span><span class=\"p\">])</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[31]:</span>\n",
       "\n",
       "<span class=\"n\">gb</span> <span class=\"o\">=</span> <span class=\"n\">GradientBoostingClassifier</span><span class=\"p\">(</span><span class=\"n\">learning_rate</span><span class=\"o\">=</span><span class=\"mf\">0.5</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">param_grid</span> <span class=\"o\">=</span> <span class=\"p\">{</span>\n",
       "                 <span class=\"s1\">&#39;n_estimators&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">10</span><span class=\"p\">,</span> <span class=\"mi\">15</span><span class=\"p\">,</span> <span class=\"mi\">20</span><span class=\"p\">],</span>\n",
       "                 <span class=\"s1\">&#39;max_depth&#39;</span><span class=\"p\">:</span> <span class=\"p\">[</span><span class=\"mi\">2</span><span class=\"p\">,</span> <span class=\"mi\">5</span><span class=\"p\">,</span> <span class=\"mi\">7</span><span class=\"p\">,</span> <span class=\"mi\">9</span><span class=\"p\">]</span>\n",
       "             <span class=\"p\">}</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[32]:</span>\n",
       "\n",
       "<span class=\"n\">grid_gb</span> <span class=\"o\">=</span> <span class=\"n\">GridSearchCV</span><span class=\"p\">(</span><span class=\"n\">gb</span><span class=\"p\">,</span> <span class=\"n\">param_grid</span><span class=\"p\">,</span> <span class=\"n\">cv</span><span class=\"o\">=</span><span class=\"mi\">10</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">gb_model</span><span class=\"o\">=</span><span class=\"n\">grid_gb</span><span class=\"o\">.</span><span class=\"n\">fit</span><span class=\"p\">(</span><span class=\"n\">X_train</span><span class=\"p\">,</span> <span class=\"n\">Y_train</span><span class=\"p\">)</span>\n",
       "\n",
       "\n",
       "<span class=\"c1\"># In[36]:</span>\n",
       "\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;GB fitted&quot;</span>\n",
       "\n",
       "<span class=\"n\">title</span> <span class=\"o\">=</span> <span class=\"s1\">&#39;Gradient Boosting&#39;</span>\n",
       "\n",
       "<span class=\"n\">predicted</span> <span class=\"o\">=</span> <span class=\"n\">gb_model</span><span class=\"o\">.</span><span class=\"n\">predict</span><span class=\"p\">(</span><span class=\"n\">X_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">mcc</span><span class=\"o\">=</span> <span class=\"n\">matthews_corrcoef</span><span class=\"p\">(</span><span class=\"n\">Y_valid</span><span class=\"p\">,</span> <span class=\"n\">predicted</span><span class=\"p\">)</span>\n",
       "<span class=\"k\">print</span> <span class=\"s2\">&quot;MCC Score </span><span class=\"se\">\\t</span><span class=\"s2\"> +&quot;</span><span class=\"o\">+</span><span class=\"n\">title</span><span class=\"o\">+</span><span class=\"nb\">str</span><span class=\"p\">(</span><span class=\"n\">mcc</span><span class=\"p\">)</span>\n",
       "\n",
       "<span class=\"n\">cm</span> <span class=\"o\">=</span> <span class=\"n\">confusion_matrix</span><span class=\"p\">(</span><span class=\"n\">predicted</span><span class=\"p\">,</span> <span class=\"n\">Y_valid</span><span class=\"p\">)</span>\n",
       "<span class=\"n\">showconfusionmatrix</span><span class=\"p\">(</span><span class=\"n\">cm</span><span class=\"p\">,</span> <span class=\"n\">title</span><span class=\"p\">)</span>\n",
       "</pre></div>\n"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "pprint_ipynb(sources[0])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Part 5: Instantiation"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "For classes, Odyssey can provide you with insights about how they are instantiated, default argument value people use, etc."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Note: All the arguments in the returned dictionary are in string format (even for integer values). This may be changed later.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {
    "collapsed": false
   },
   "outputs": [],
   "source": [
    "rfc_instantiation = gp_sklearn.get_instantiation(\"RandomForestClassifier\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "defaultdict(<function odyssey.core.analyzer.InstantiationAnalyzer.InstantiationAnalyzer.__init__.<locals>.<lambda>>,\n",
       "            {'*': defaultdict(int, {None: 4}),\n",
       "             '**': defaultdict(int, {None: 24}),\n",
       "             '**args': defaultdict(int, {None: 2}),\n",
       "             '**classi_params': defaultdict(int, {None: 1}),\n",
       "             '**classif_base.get_params()': defaultdict(int, {None: 1}),\n",
       "             '**classifier_pram_dic[rf_name]': defaultdict(int, {None: 1}),\n",
       "             \"**clf.get('config')\": defaultdict(int, {None: 2}),\n",
       "             '**clf_args_': defaultdict(int, {None: 2}),\n",
       "             '**clf_params': defaultdict(int, {None: 1}),\n",
       "             '**cls_kwargs': defaultdict(int, {None: 1}),\n",
       "             '**config_clf': defaultdict(int, {None: 1}),\n",
       "             '**estimator_params': defaultdict(int, {None: 4}),\n",
       "             '**forest_parms': defaultdict(int, {None: 2}),\n",
       "             '**gs.best_params_': defaultdict(int, {None: 1}),\n",
       "             '**job': defaultdict(int, {None: 1}),\n",
       "             '**kwargs': defaultdict(int, {None: 10}),\n",
       "             '**model_params': defaultdict(int, {None: 3}),\n",
       "             '**params': defaultdict(int, {None: 13}),\n",
       "             '**params_used': defaultdict(int, {None: 1}),\n",
       "             '**parse.config_for_function(RandomForestClassifier.__init__, config)': defaultdict(int,\n",
       "                         {None: 2}),\n",
       "             '**rf_config': defaultdict(int, {None: 1}),\n",
       "             '**rf_parameters': defaultdict(int, {None: 3}),\n",
       "             '**rf_params': defaultdict(int, {None: 1}),\n",
       "             '**self.param_dict': defaultdict(int, {None: 1}),\n",
       "             '**self.params': defaultdict(int, {None: 4}),\n",
       "             \"**{'n_estimators' : 7500, 'max_depth' : 200}\": defaultdict(int,\n",
       "                         {None: 2}),\n",
       "             'bootstrap': defaultdict(int,\n",
       "                         {'False': 26,\n",
       "                          'True': 62,\n",
       "                          'bootstrap': 2,\n",
       "                          'bs': 1,\n",
       "                          'bstp': 1,\n",
       "                          'config[\"rf:bootstrap\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\"bootstrap\"]': 1,\n",
       "                          'estimator.best_estimator_.bootstrap': 2,\n",
       "                          'p2': 1,\n",
       "                          'param_bootstrap': 2,\n",
       "                          'self.bootstrap': 4,\n",
       "                          'self.bootstrap_forest': 1,\n",
       "                          'settings[\"bootstrap\"]': 1}),\n",
       "             'class_weight': defaultdict(int,\n",
       "                         {' {0: 1, 1:10}': 3,\n",
       "                          ' {0:0.098, \\n                                                                                    1:0.111, \\n                                                                                    2:0.104, \\n                                                                                    3:0.102, \\n                                                                                    4:0.098, \\n                                                                                    5:0.088, \\n                                                                                    6:0.095, \\n                                                                                    7:0.103, \\n                                                                                    8:0.098, \\n                                                                                    9:0.102}': 2,\n",
       "                          '\"auto\"': 3,\n",
       "                          '\"balanced\"': 35,\n",
       "                          '\"balanced_subsample\"': 1,\n",
       "                          \"'auto'\": 16,\n",
       "                          \"'balanced'\": 26,\n",
       "                          \"'balanced_subsample'\": 5,\n",
       "                          \"'subsample'\": 1,\n",
       "                          'None': 21,\n",
       "                          'class_weight': 5,\n",
       "                          'class_wt': 1,\n",
       "                          'cw': 1,\n",
       "                          'param_class_weight': 2,\n",
       "                          \"params['class_weight']\": 1,\n",
       "                          'rf_weights': 1,\n",
       "                          'self.class_weight': 5,\n",
       "                          'self.class_weight_forest': 1,\n",
       "                          'weight': 2,\n",
       "                          '{0: 1, 1: 28}': 2,\n",
       "                          \"{0: 1, 1: space['cw']}\": 1,\n",
       "                          \"{0:1, 1: space['cw']}\": 1,\n",
       "                          '{0:100, 1:1}': 1,\n",
       "                          '{1:weights*np.count_nonzero(Y)/len(Y),0:1-(np.count_nonzero(Y)/len(Y))}': 1,\n",
       "                          '{False:1, True:1}': 1}),\n",
       "             'compute_importances': defaultdict(int,\n",
       "                         {'False': 2, 'None': 1, 'True': 25}),\n",
       "             'criterion': defaultdict(int,\n",
       "                         {'\"entropy\"': 37,\n",
       "                          '\"gini\"': 9,\n",
       "                          \"'entropy'\": 66,\n",
       "                          \"'gini'\": 81,\n",
       "                          'CRIT': 1,\n",
       "                          'args[1]': 1,\n",
       "                          'c': 5,\n",
       "                          'config[\"rf:criterion\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\"criterion\"]': 1,\n",
       "                          'crit': 1,\n",
       "                          'crit_out': 6,\n",
       "                          'criterion': 13,\n",
       "                          \"criterion[best['criterion']]\": 2,\n",
       "                          'criterion_t': 1,\n",
       "                          'estimator.best_estimator_.criterion': 2,\n",
       "                          'feature': 1,\n",
       "                          'p1': 1,\n",
       "                          'param_criterion': 2,\n",
       "                          \"params['criterion']\": 1,\n",
       "                          'rf_criterion': 3,\n",
       "                          'self.criterion': 6,\n",
       "                          'self.criterion_forest': 1,\n",
       "                          'settings[\"criterion\"]': 1,\n",
       "                          'splitcriteria_param': 1}),\n",
       "             'featuresCol': defaultdict(int, {'\"features\"': 1}),\n",
       "             'labelCol': defaultdict(int, {'\"Response\"': 1}),\n",
       "             'maxDepth': defaultdict(int, {'15': 1}),\n",
       "             'max_depth': defaultdict(int,\n",
       "                         {'1': 6,\n",
       "                          '10': 36,\n",
       "                          '100': 10,\n",
       "                          '13': 5,\n",
       "                          '14': 1,\n",
       "                          '15': 8,\n",
       "                          '16': 10,\n",
       "                          '17': 3,\n",
       "                          '2': 11,\n",
       "                          '20': 4,\n",
       "                          '2000': 1,\n",
       "                          '22': 1,\n",
       "                          '25': 5,\n",
       "                          '3': 11,\n",
       "                          '30': 2,\n",
       "                          '4': 11,\n",
       "                          '40': 3,\n",
       "                          '5': 57,\n",
       "                          '50': 9,\n",
       "                          '52': 14,\n",
       "                          '6': 5,\n",
       "                          '60': 2,\n",
       "                          '600': 1,\n",
       "                          '7': 6,\n",
       "                          '700': 1,\n",
       "                          '8': 7,\n",
       "                          '80': 2,\n",
       "                          '9': 2,\n",
       "                          'C': 2,\n",
       "                          'None': 126,\n",
       "                          'RFC_depth': 6,\n",
       "                          'RF_depth': 1,\n",
       "                          'TREE_DEPTH': 2,\n",
       "                          '_max_depth': 1,\n",
       "                          'args[\"max_tree_nodes\"]': 1,\n",
       "                          'args[2]': 1,\n",
       "                          'best_m': 1,\n",
       "                          \"best_pars['max_depth']\": 1,\n",
       "                          'config[\"rf:max_depth\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\"max_depth\"]': 1,\n",
       "                          'depth': 7,\n",
       "                          'depth_out': 4,\n",
       "                          'estimator.best_estimator_.max_depth': 2,\n",
       "                          'feature': 1,\n",
       "                          \"grid_search.best_params_['max_depth']\": 1,\n",
       "                          'hyper_parameter': 2,\n",
       "                          'length': 1,\n",
       "                          'm': 1,\n",
       "                          'm_d': 2,\n",
       "                          'm_dep': 3,\n",
       "                          'maxDepth[0]': 1,\n",
       "                          'max_D': 1,\n",
       "                          'max_d': 2,\n",
       "                          'max_dep': 9,\n",
       "                          'max_depth': 24,\n",
       "                          'max_depth_option': 1,\n",
       "                          'max_tree_depth': 1,\n",
       "                          'md': 2,\n",
       "                          'p4': 1,\n",
       "                          'param_max_depth': 2,\n",
       "                          \"params['max_depth']\": 1,\n",
       "                          \"paras['rf'][0]\": 3,\n",
       "                          'rf_max_depth': 3,\n",
       "                          \"self._settings.get('max_depth', 10)\": 1,\n",
       "                          'self.k': 1,\n",
       "                          'self.max_depth': 6,\n",
       "                          'self.max_depth_forest': 1,\n",
       "                          \"space['max_depth']\": 3}),\n",
       "             'max_features': defaultdict(int,\n",
       "                         {' int(math.sqrt(features))': 1,\n",
       "                          \" params['max_features']\": 1,\n",
       "                          '\"auto\"': 17,\n",
       "                          '\"log2\"': 7,\n",
       "                          '\"sqrt\"': 25,\n",
       "                          \"'auto'\": 64,\n",
       "                          \"'log2'\": 7,\n",
       "                          \"'sqrt'\": 17,\n",
       "                          '.33': 1,\n",
       "                          '0.1': 2,\n",
       "                          '0.2': 1,\n",
       "                          '0.4': 3,\n",
       "                          '0.497907908371': 1,\n",
       "                          '0.5': 2,\n",
       "                          '0.59': 1,\n",
       "                          '0.6': 1,\n",
       "                          '0.7': 1,\n",
       "                          '0.8': 1,\n",
       "                          '1': 59,\n",
       "                          '1.': 1,\n",
       "                          '1.0/3': 1,\n",
       "                          '10': 6,\n",
       "                          '100': 2,\n",
       "                          '128': 1,\n",
       "                          '15': 1,\n",
       "                          '16': 1,\n",
       "                          '2': 3,\n",
       "                          '20': 2,\n",
       "                          '200': 1,\n",
       "                          '3': 5,\n",
       "                          '30': 1,\n",
       "                          '375': 1,\n",
       "                          '38': 1,\n",
       "                          '4': 4,\n",
       "                          '5': 9,\n",
       "                          '50': 1,\n",
       "                          '500': 2,\n",
       "                          '7': 3,\n",
       "                          '8': 1,\n",
       "                          '80': 1,\n",
       "                          'None': 43,\n",
       "                          'R': 1,\n",
       "                          'SILLY_NUMBER': 1,\n",
       "                          \"best_params[dataset_name][method_name]['rf_max_features']\": 1,\n",
       "                          \"best_params[dataset_name][method_name][nr_events]['rf_max_features']\": 2,\n",
       "                          \"best_pars['max_features']\": 1,\n",
       "                          'c_max_features': 1,\n",
       "                          'config[\\n                                                \"rf:max_features\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\"max_features\"]': 1,\n",
       "                          'feature': 4,\n",
       "                          'features': 3,\n",
       "                          \"grid_search.best_params_['max_features']\": 1,\n",
       "                          'individual[2]': 1,\n",
       "                          'int(math.sqrt(n_features))': 2,\n",
       "                          'int(mtry)': 1,\n",
       "                          'int(np.sqrt(len(self.dataframe.columns)))': 1,\n",
       "                          'k': 2,\n",
       "                          'm_f': 2,\n",
       "                          'm_feat': 3,\n",
       "                          'max_f': 3,\n",
       "                          'max_feat_out': 5,\n",
       "                          'max_feature': 1,\n",
       "                          'max_features': 28,\n",
       "                          'max_features_options': 1,\n",
       "                          'mf': 4,\n",
       "                          'min(49, len(result1.columns) - 1)': 1,\n",
       "                          'min(52, len(result1.columns) - 1)': 1,\n",
       "                          'min(64, len(result2.columns) - 1)': 1,\n",
       "                          'mtry': 2,\n",
       "                          'n_feat': 2,\n",
       "                          'n_features': 1,\n",
       "                          'p5': 1,\n",
       "                          'param_max_features': 2,\n",
       "                          \"params['max_features']\": 1,\n",
       "                          \"paras['rf'][2]\": 3,\n",
       "                          'rf_max_features': 7,\n",
       "                          'rf_no_active_vars': 3,\n",
       "                          'self.__max_features': 2,\n",
       "                          'self.max_features': 3,\n",
       "                          'self.max_features_forest': 1,\n",
       "                          'settings[\"max_features\"]': 1,\n",
       "                          \"space['max_features']\": 3,\n",
       "                          'total_features': 2,\n",
       "                          'tree_features': 2,\n",
       "                          'tunings[1] / 100': 8}),\n",
       "             'max_leaf_nodes': defaultdict(int,\n",
       "                         {'1000': 3,\n",
       "                          '365': 14,\n",
       "                          '50': 2,\n",
       "                          'None': 26,\n",
       "                          'feature': 1,\n",
       "                          'int(tunings[4])': 1,\n",
       "                          'max_leaf_nodes_options': 1,\n",
       "                          'mln': 1,\n",
       "                          'node_out': 1,\n",
       "                          'param_max_leaf_nodes': 1,\n",
       "                          \"params['max_leaf_nodes']\": 1,\n",
       "                          'self.max_leaf_nodes': 3,\n",
       "                          'self.max_leaf_nodes_forest': 1}),\n",
       "             'minInstances': defaultdict(int, {'10': 1}),\n",
       "             'min_impurity_split': defaultdict(int,\n",
       "                         {'0.1': 1, '1e-07': 7, '1e-7': 1}),\n",
       "             'min_samples_leaf': defaultdict(int,\n",
       "                         {'1': 31,\n",
       "                          '1.0': 1,\n",
       "                          '10': 6,\n",
       "                          '100': 1,\n",
       "                          '1000': 1,\n",
       "                          '15': 1,\n",
       "                          '150': 1,\n",
       "                          '2': 23,\n",
       "                          '20': 8,\n",
       "                          '200': 2,\n",
       "                          '3': 6,\n",
       "                          '365': 14,\n",
       "                          '4': 3,\n",
       "                          '5': 13,\n",
       "                          '6': 1,\n",
       "                          '8': 10,\n",
       "                          '9': 1,\n",
       "                          'args[\"min_samples_leaf\"]': 1,\n",
       "                          'best_param': 1,\n",
       "                          \"best_pars['msl']\": 1,\n",
       "                          'config[\\n                                                \"rf:min_samples_leaf\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\\n                \"min_samples_leaf\"]': 1,\n",
       "                          'individual[1]': 1,\n",
       "                          'int(np.round(x[i]))': 2,\n",
       "                          'int(settings[\"min_sample_leaf\"])': 1,\n",
       "                          'int(tunings[2])': 8,\n",
       "                          'leaf_size': 2,\n",
       "                          'm_s_l': 2,\n",
       "                          'm_sam_leaf': 3,\n",
       "                          'min_samples_at_leaf': 1,\n",
       "                          'min_samples_leaf': 10,\n",
       "                          'min_samples_leaf_options': 1,\n",
       "                          'msl': 4,\n",
       "                          'n': 8,\n",
       "                          'nodes': 6,\n",
       "                          'p7': 1,\n",
       "                          'param': 1,\n",
       "                          'param_min_samples_leaf': 2,\n",
       "                          \"params['min_samples_leaf']\": 1,\n",
       "                          'self.min_samples_leaf': 6,\n",
       "                          'self.min_samples_leaf_forest': 1,\n",
       "                          \"space['msl']\": 3,\n",
       "                          'val': 1}),\n",
       "             'min_samples_split': defaultdict(int,\n",
       "                         {'0.02': 1,\n",
       "                          '1': 80,\n",
       "                          '10': 14,\n",
       "                          '100': 10,\n",
       "                          '1000': 1,\n",
       "                          '12': 4,\n",
       "                          '13': 2,\n",
       "                          '15': 2,\n",
       "                          '16': 3,\n",
       "                          '163': 1,\n",
       "                          '17': 5,\n",
       "                          '2': 67,\n",
       "                          '2*min_samples_at_leaf': 1,\n",
       "                          '20': 1,\n",
       "                          '25': 1,\n",
       "                          '256': 1,\n",
       "                          '3': 2,\n",
       "                          '30': 1,\n",
       "                          '32': 1,\n",
       "                          '4': 15,\n",
       "                          '5': 7,\n",
       "                          '50': 5,\n",
       "                          '7': 1,\n",
       "                          '70': 2,\n",
       "                          '76': 14,\n",
       "                          '8': 4,\n",
       "                          '9': 4,\n",
       "                          'args[\"min_samples_split\"]': 1,\n",
       "                          \"best_pars['mss']\": 1,\n",
       "                          'config[\\n                                                \"rf:min_samples_split\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\\n                \"min_samples_split\"]': 1,\n",
       "                          'feature': 1,\n",
       "                          'individual[0]': 1,\n",
       "                          'int(settings[\"min_sample_split\"])': 1,\n",
       "                          'int(tunings[3])': 8,\n",
       "                          'len(self.x) / 8': 1,\n",
       "                          'm_s_s': 2,\n",
       "                          'min_sample': 1,\n",
       "                          'min_samples': 4,\n",
       "                          'min_samples_spl': 1,\n",
       "                          'min_samples_split': 6,\n",
       "                          'nodes*2': 6,\n",
       "                          'p6': 1,\n",
       "                          'param_min_samples_split': 2,\n",
       "                          \"params['min_samples_split']\": 1,\n",
       "                          'rf_min_sample_count': 3,\n",
       "                          'sample_out': 3,\n",
       "                          'self.min_samples_split': 4,\n",
       "                          'self.min_samples_split_forest': 1,\n",
       "                          \"space['mss']\": 3}),\n",
       "             'min_weight_fraction_leaf': defaultdict(int,\n",
       "                         {'0': 6,\n",
       "                          '0.0': 15,\n",
       "                          '0.1': 1,\n",
       "                          '0.5': 1,\n",
       "                          'feature': 1,\n",
       "                          'frac_out': 2,\n",
       "                          'int(settings[\"min_weight_faction_leaf\"])': 1,\n",
       "                          'min_weight_fraction_leaf': 2,\n",
       "                          'mwfl': 1,\n",
       "                          'param_min_weight_fraction_leaf': 1,\n",
       "                          'self.min_weight_fraction_leaf': 3,\n",
       "                          'self.min_weight_fraction_leaf_forest': 1}),\n",
       "             'n_estimators': defaultdict(int,\n",
       "                         {' n_estimators/2': 1,\n",
       "                          \" params['n_estimators']\": 1,\n",
       "                          ' pm.num_trees': 2,\n",
       "                          ' self.RF_size': 1,\n",
       "                          ' self.n_estimators': 1,\n",
       "                          ' self.n_trees': 2,\n",
       "                          ' self.ntrees': 1,\n",
       "                          '0': 3,\n",
       "                          '1': 20,\n",
       "                          '10': 206,\n",
       "                          '100': 435,\n",
       "                          '1000': 69,\n",
       "                          '10000': 9,\n",
       "                          '101': 2,\n",
       "                          '1024': 5,\n",
       "                          '11': 3,\n",
       "                          '12': 2,\n",
       "                          '120': 4,\n",
       "                          '1200': 4,\n",
       "                          '12000': 1,\n",
       "                          '128': 2,\n",
       "                          '13': 2,\n",
       "                          '1400': 2,\n",
       "                          '15': 11,\n",
       "                          '150': 27,\n",
       "                          '1500': 3,\n",
       "                          '15000': 1,\n",
       "                          '17': 1,\n",
       "                          '18': 2,\n",
       "                          '180': 1,\n",
       "                          '196': 1,\n",
       "                          '198': 14,\n",
       "                          '1999': 1,\n",
       "                          '2': 3,\n",
       "                          '20': 44,\n",
       "                          '20*8': 1,\n",
       "                          '200': 48,\n",
       "                          '2000': 17,\n",
       "                          '22': 1,\n",
       "                          '23': 1,\n",
       "                          '240': 2,\n",
       "                          '25': 32,\n",
       "                          '250': 10,\n",
       "                          '2500': 3,\n",
       "                          '256': 6,\n",
       "                          '3': 3,\n",
       "                          '30': 32,\n",
       "                          '300': 38,\n",
       "                          '3000': 6,\n",
       "                          '30000': 1,\n",
       "                          '32': 3,\n",
       "                          '34': 1,\n",
       "                          '35': 3,\n",
       "                          '350': 1,\n",
       "                          '4': 2,\n",
       "                          '40': 20,\n",
       "                          '400': 7,\n",
       "                          '48': 1,\n",
       "                          '5': 10,\n",
       "                          '50': 97,\n",
       "                          '500': 122,\n",
       "                          '5000': 7,\n",
       "                          '51': 3,\n",
       "                          '512': 4,\n",
       "                          '52': 2,\n",
       "                          '55': 1,\n",
       "                          '550': 1,\n",
       "                          '6': 1,\n",
       "                          '60': 4,\n",
       "                          '600': 1,\n",
       "                          '625': 1,\n",
       "                          '64': 3,\n",
       "                          '65': 1,\n",
       "                          '7': 1,\n",
       "                          '700': 2,\n",
       "                          '75': 2,\n",
       "                          '750': 3,\n",
       "                          '8': 1,\n",
       "                          '80': 6,\n",
       "                          '800': 4,\n",
       "                          '8000': 1,\n",
       "                          '84': 1,\n",
       "                          '850': 2,\n",
       "                          '9': 1,\n",
       "                          '90': 2,\n",
       "                          '900': 1,\n",
       "                          '91': 1,\n",
       "                          '94': 3,\n",
       "                          '95': 1,\n",
       "                          '99': 3,\n",
       "                          'C': 1,\n",
       "                          'NEST': 1,\n",
       "                          'R': 1,\n",
       "                          'RFC_estimators': 6,\n",
       "                          'RF_estimators': 1,\n",
       "                          'RF_size': 3,\n",
       "                          'args.ntrees': 1,\n",
       "                          'args[\"num_trees\"]': 1,\n",
       "                          'args[0]': 1,\n",
       "                          \"best['n_estimators']\": 2,\n",
       "                          'best_n': 1,\n",
       "                          'best_param_rf.get(\"n_estimators\")': 2,\n",
       "                          \"best_pars['n_estimators']\": 1,\n",
       "                          'config[\"rf:n_estimators\"]': 1,\n",
       "                          'context[\"classifiers\"][classifier_name][\"learning_algorithm\"][\"parameters\"][\"n_estimators\"]': 1,\n",
       "                          'e': 1,\n",
       "                          'est': 1,\n",
       "                          'estimator': 4,\n",
       "                          'estimator_param': 1,\n",
       "                          'estimators': 5,\n",
       "                          'feature': 1,\n",
       "                          'i': 3,\n",
       "                          'idx + 1': 2,\n",
       "                          'individual[3]': 1,\n",
       "                          'inner_estimators': 1,\n",
       "                          'int(SILLY_NUMBER*1.5)': 1,\n",
       "                          'int(len(MetricEntry.metrics)/3)': 1,\n",
       "                          'int(numbtrees_param)': 1,\n",
       "                          'int(settings[\"n_estimators\"])': 1,\n",
       "                          'int(tunings[0])': 8,\n",
       "                          'lNbEstimatorsInEnsembles': 2,\n",
       "                          'max_random_trees': 2,\n",
       "                          'min_log_loss_iter': 1,\n",
       "                          \"model_param['n_estimators']\": 1,\n",
       "                          'mp.random_forest_estimators': 1,\n",
       "                          'n': 15,\n",
       "                          'n_cpu*trees_per_compute': 2,\n",
       "                          'n_est': 11,\n",
       "                          'n_estim': 5,\n",
       "                          'n_estimator': 1,\n",
       "                          'n_estimators': 73,\n",
       "                          'n_estimators[0]': 1,\n",
       "                          'n_estimators_options': 1,\n",
       "                          'n_estimators_size': 2,\n",
       "                          'n_out': 7,\n",
       "                          'n_tree': 5,\n",
       "                          'n_trees': 15,\n",
       "                          'ne': 1,\n",
       "                          'nest': 2,\n",
       "                          'nr_of_trees': 1,\n",
       "                          'nr_trees': 1,\n",
       "                          'ntrees': 11,\n",
       "                          'num': 1,\n",
       "                          'numE': 1,\n",
       "                          'numTrees': 2,\n",
       "                          'num_estimators': 1,\n",
       "                          'num_trees': 7,\n",
       "                          'opts.estimators': 3,\n",
       "                          'opts.numtrees': 4,\n",
       "                          'p3': 1,\n",
       "                          'param_n_estimators': 1,\n",
       "                          \"params['n_estimators']\": 1,\n",
       "                          \"paras['rf'][1]\": 3,\n",
       "                          'rf_max_num_trees': 3,\n",
       "                          'rf_n_estimators': 10,\n",
       "                          'self.Nestimators': 1,\n",
       "                          'self.__n_TreesInForest': 1,\n",
       "                          'self.__n_estimators': 2,\n",
       "                          \"self._settings.get('trees', 10)\": 1,\n",
       "                          'self.config.hid_layer_units': 1,\n",
       "                          'self.config.hid_layer_units_baseline': 1,\n",
       "                          'self.n_estimators': 16,\n",
       "                          'self.n_estimators_forest': 1,\n",
       "                          'self.n_trees': 1,\n",
       "                          'self.numTrees': 5,\n",
       "                          \"self.params['num_estimators']\": 1,\n",
       "                          'self.randomForestEstimators': 1,\n",
       "                          \"space['n']\": 1,\n",
       "                          \"space['n_estimators']\": 2,\n",
       "                          'sqrt_feat_num': 1,\n",
       "                          'trees': 9,\n",
       "                          'val': 1}),\n",
       "             'n_jobs': defaultdict(int,\n",
       "                         {' -1': 31,\n",
       "                          ' pm.n_jobs': 1,\n",
       "                          ' self.n_jobs': 1,\n",
       "                          '-1': 391,\n",
       "                          '-2': 1,\n",
       "                          '1': 55,\n",
       "                          '10': 11,\n",
       "                          '12': 8,\n",
       "                          '15': 1,\n",
       "                          '16': 4,\n",
       "                          '2': 66,\n",
       "                          '3': 8,\n",
       "                          '4': 45,\n",
       "                          '40': 1,\n",
       "                          '5': 20,\n",
       "                          '6': 3,\n",
       "                          '7': 4,\n",
       "                          '8': 14,\n",
       "                          'NUM_THREADS': 2,\n",
       "                          'PROCESSORS': 1,\n",
       "                          'args.cpu': 1,\n",
       "                          'args.njobs': 1,\n",
       "                          'cores': 1,\n",
       "                          'cpu_counts': 1,\n",
       "                          'cpus': 2,\n",
       "                          'int(settings[\"n_jobs\"])': 1,\n",
       "                          'jobs': 5,\n",
       "                          'n_cores': 1,\n",
       "                          'n_cpu': 2,\n",
       "                          'n_estimators': 1,\n",
       "                          'n_jobs': 29,\n",
       "                          'njobs': 3,\n",
       "                          'numJobs': 1,\n",
       "                          'num_jobs': 2,\n",
       "                          'number_of_threads': 1,\n",
       "                          'options.n_jobs': 1,\n",
       "                          'options.pyxit_n_jobs': 1,\n",
       "                          'opts.nprocessors': 1,\n",
       "                          'opts.numproc': 1,\n",
       "                          'param_n_jobs': 2,\n",
       "                          'self.n_jobs': 10,\n",
       "                          'self.n_jobs_forest': 1,\n",
       "                          'self.nthreads': 1,\n",
       "                          'self.parallel_jobs': 1,\n",
       "                          \"self.params['num_jobs']\": 1,\n",
       "                          'self.threadCount': 1,\n",
       "                          'workers': 3}),\n",
       "             'numTrees': defaultdict(int, {'60': 1}),\n",
       "             'oob_score': defaultdict(int,\n",
       "                         {'1': 4,\n",
       "                          'False': 34,\n",
       "                          'True': 106,\n",
       "                          'oob_score': 1,\n",
       "                          'os': 1,\n",
       "                          'param_oob_score': 2,\n",
       "                          'self.oob_score_forest': 1}),\n",
       "             'random_state': defaultdict(int,\n",
       "                         {' self.ran_stat': 2,\n",
       "                          '0': 217,\n",
       "                          '1': 116,\n",
       "                          '10': 2,\n",
       "                          '1000 + l': 2,\n",
       "                          '1000+l': 2,\n",
       "                          '1104': 1,\n",
       "                          '123': 13,\n",
       "                          '1234': 1,\n",
       "                          '12345': 4,\n",
       "                          '125': 1,\n",
       "                          '13': 4,\n",
       "                          '1301': 1,\n",
       "                          '131': 4,\n",
       "                          '1337': 1,\n",
       "                          '142': 1,\n",
       "                          '144': 2,\n",
       "                          '150': 1,\n",
       "                          '17': 1,\n",
       "                          '192': 3,\n",
       "                          '1960': 3,\n",
       "                          '2': 4,\n",
       "                          '20': 3,\n",
       "                          '2016': 1,\n",
       "                          '21': 1,\n",
       "                          '234': 1,\n",
       "                          '241': 1,\n",
       "                          '2543': 2,\n",
       "                          '30': 4,\n",
       "                          '32': 1,\n",
       "                          '321': 1,\n",
       "                          '324089': 2,\n",
       "                          '33': 2,\n",
       "                          '4': 8,\n",
       "                          '4141': 1,\n",
       "                          '42': 61,\n",
       "                          '451': 1,\n",
       "                          '5': 2,\n",
       "                          '50': 8,\n",
       "                          '571': 1,\n",
       "                          '600': 1,\n",
       "                          '7': 4,\n",
       "                          '7112016': 8,\n",
       "                          '77': 2,\n",
       "                          '782629': 1,\n",
       "                          '84': 3,\n",
       "                          '87': 1,\n",
       "                          '88': 1,\n",
       "                          '93758': 1,\n",
       "                          'None': 31,\n",
       "                          'RANDOM_STATE': 7,\n",
       "                          'RDM': 1,\n",
       "                          'RND_SEED': 3,\n",
       "                          'RandomState(__seed__)': 1,\n",
       "                          'RandomState(seed)': 1,\n",
       "                          'SEED': 1,\n",
       "                          'args[\"seed\"]': 1,\n",
       "                          'choosen_random_state': 2,\n",
       "                          'generator': 2,\n",
       "                          'i': 6,\n",
       "                          'n': 1,\n",
       "                          'np.random.RandomState(0)': 1,\n",
       "                          'param_random_state': 2,\n",
       "                          'prng': 1,\n",
       "                          'rand': 1,\n",
       "                          'rand_state': 1,\n",
       "                          'random': 9,\n",
       "                          'random_seed': 1,\n",
       "                          'random_state': 37,\n",
       "                          'randomseedcounter': 4,\n",
       "                          'rng': 5,\n",
       "                          'seed': 7,\n",
       "                          'self.random_state': 12,\n",
       "                          'self.random_state_forest': 1,\n",
       "                          'self.rng': 1,\n",
       "                          'self.rs': 2,\n",
       "                          'self.seed': 2,\n",
       "                          'settings[\"random_state\"]': 1}),\n",
       "             'seed': defaultdict(int, {'1111': 1}),\n",
       "             'verbose': defaultdict(int,\n",
       "                         {'(\\n                                                   2 if debug is True else 0)': 1,\n",
       "                          '(2 if debug is True else 0)': 1,\n",
       "                          '(args.loglevel == logging.DEBUG)': 1,\n",
       "                          '0': 37,\n",
       "                          '1': 29,\n",
       "                          '10': 3,\n",
       "                          '2': 30,\n",
       "                          '20': 15,\n",
       "                          '3': 6,\n",
       "                          '42': 1,\n",
       "                          'False': 3,\n",
       "                          'True': 8,\n",
       "                          'VERBOSE': 2,\n",
       "                          'int(settings[\"verbose\"])': 1,\n",
       "                          'options.verbose': 1,\n",
       "                          'param_verbose': 2,\n",
       "                          'self.verbose_forest': 1,\n",
       "                          'verbose': 19}),\n",
       "             'warm_start': defaultdict(int,\n",
       "                         {'False': 22,\n",
       "                          'True': 20,\n",
       "                          'param_warm_start': 2,\n",
       "                          'self.warm_start_forest': 1,\n",
       "                          'ws': 1})})"
      ]
     },
     "execution_count": 28,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "rfc_instantiation"
   ]
  }
 ],
 "metadata": {
  "anaconda-cloud": {},
  "kernelspec": {
   "display_name": "Python [default]",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.5.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}