PySpark
pandasにはあるけど、pysparkにはない代表格と言っても良いかもしれない。 modeでピンとこない人は、most frequentだったり、most commonなどでも検索します。ネットで探すといくつか実装例がある。 少しは参考にした。自分が先日書いたコードだとどんな感じ…
EMRのバージョンの関係で今、PySpark 2.4.5を使っている。Pythonという言語にはオーバーロードがないためなのか、Scalaでは用意されてるメソッドが呼び出せないなんてことが稀にある。PySparkのadd_months(start, months)の docstringの例で、startはColumn…