2021-01-01から1年間の記事一覧
pandasにはあるけど、pysparkにはない代表格と言っても良いかもしれない。 modeでピンとこない人は、most frequentだったり、most commonなどでも検索します。ネットで探すといくつか実装例がある。 少しは参考にした。自分が先日書いたコードだとどんな感じ…
EMRのバージョンの関係で今、PySpark 2.4.5を使っている。Pythonという言語にはオーバーロードがないためなのか、Scalaでは用意されてるメソッドが呼び出せないなんてことが稀にある。PySparkのadd_months(start, months)の docstringの例で、startはColumn…
Windows上でAWS CLI V2を使って aws cloudformation create-stackする時に 日本語を含むテンプレートが読み込めずにエラーになると相談されたので、夜中まで調べた。相談の際に引用されたURLはこれだった。 CloudFormationに日本語コメントを含めるとエラー…
長い道のりを経て、なんとかCodeBuildで、Sparkを動かすためのなんちゃってEMR(without EMRFS)を用意したときの記録です。GitHub - awslabs/aws-glue-data-catalog-client-for-apache-hive-metastore: The AWS Glue Data Catalog is a fully managed, Apache…