読者です 読者をやめる 読者になる 読者になる

まどかの戯言集

美容・恋愛についてアラサー男子が実際に使ったり/試したものを書き綴る

Twitterの特定界隈の2chスレを監視したいからツールを作った。

Twitterには様々なクラスタが存在する。

 

宮台真司的に言えばそれは「島宇宙」。

 

中高生から大人、おじいさんおばあさんという幅広い年齢層、田舎に住んでいる人から都心、海外在住の方まで。コンビニのアルバイトの人もいれば、外資系トップ企業で働く人も。

 

その様子は「カオス」である。

 

とは言え、そんなカオスなプラットフォームの上でも、人々はゆるく繋がるコミュニティを作り、同じような属性の人とつるんでいたりする。

 

そしてそのコミュニティの規模が大きかったりすると、今度は2chでその界隈を監視するスレッドが作られる。

 

2chは匿名だから言いたいこと言い放題で、秩序なんてあるようでないようなものだから、日々罵詈雑言、晒しや特定アカウントの非難や貶しが日常的に行われている。見ていて心が荒んでしまうような荒野がそこには広がっていた。

 

だからこそ、自分の身を守るためにも、そういったスレの情報を欠かさず取得して保存しておいたり、Twitterでの反応を保存しておくことは、自分がもしもの場合そういった晒しの対象になったときにとても有意義なデータになる。ツイ消しされる前に、スレッドが落ちる前に自動的に保存しておけば、いざ法的な対応をとる時にとても便利なのだ。

 

ということで、そういうツールを作りました。ウェブサービスではなく簡単なバッチ処理を行うプログラムです。

  • 2chの特定掲示板の板の監視
  • Twitterの特定ワードを発言した発言の取得

を行います。前回まで取得したデータを履歴として保存しておくのでバッチ実行時に同じデータを取得してくることはありません。定期実行していれば大体最新の情報を常に取得することが可能です。

 

一定以上のプログラミングスキルが必要ですが、使えればとても便利ですね。応用もききますし。以下の動画は「リプライセル」というキーワードをTwitterから拾い自動的にSlackというチャットツールに流し、2chでは「美容垢」スレの最新の発言を自動的に取得している様子です。最初はtwitter、1分あたりから2ch取得が始まります。 

 

動画

 

常にslackを開いている人間なのでslackに投稿することで監視しやすくしましたが、使わない人はcsvやExcel形式のデータを吐き出したり、特定のDatabaseに保存したり、単にテキストデータとして書き出すだけでも充分ですね。僕はGCP上に小さいインスタンスを一つ用意して、Jenkinsを立ててそいつに3分毎にバッチ処理を実行させて、取得したデータをmysqlに突っ込んでいます。

 

こういうツールを作るのは好きなのですが、ウェブサービスまで作り切るには体力が必要でなかなか気が進まず...一緒に作って遊べるような友人がいれば良いのですが。

 

逆に「こういうツールを作って欲しい」「買いたい」みたいな要望があればいつでもTwitterでDMしてください。

 

ソースコードはGithubで公開しています。 

 

サイバーセキュリティプログラミング ―Pythonで学ぶハッカーの思考

サイバーセキュリティプログラミング ―Pythonで学ぶハッカーの思考

  • 作者: Justin Seitz,青木一史,新井悠,一瀬小夜,岩村誠,川古谷裕平,星澤裕二
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2015/10/24
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (10件) を見る