Slack分析奮闘記#1 SlackAPIから情報取得して発言内容をWordcloudにする

前回の記事

thinker-masso.hatenablog.com

はじめに

データ分析の素人である私が、とあるコミュニティのSlackデータ分析にチャレンジさせてもらえることになりました。 せっかくなので、「Slack分析奮闘記」として、そこから得た学びをアウトプットしていこうと思います。

本記事では、前回の記事で説明した砂場遊びについて簡単に説明します。 具体的な処理については、Qiitaにまとめています。 qiita.com

砂場遊びの概要

  • SlackAPI経由でSlackの情報(チャンネル、ユーザー、メッセージ)を取得する
  • ユーザーごとにメッセージをまとめてWordcloudを出力して、各ユーザーの特徴を見てみる

学んだこと

  1. 形態素解析分かち書き
  2. 文書のノイズ除去方法(クリーニング、ストップワード除去、正規化)
  3. SlackAPIの使い方
  4. Pandasを用いたテーブルデータの取り扱い
  5. TFIDFによる単語の重要度スコアリング
  6. Wordcloudの生成(スコアとしてTFIDFを用いた)