10万トゥートを振り返る

この記事ははんドンクラブアドベントカレンダー19日目の記事です。

adventar.org

はんドンクラブというのはMastodonというミニブログサービスのサーバーです。2018年ごろまではTwitterを主に使っていましたが、UserstreamがなくなったころからだんだんMastodonの方に住み始めています。そんなこんなでトゥートを続けていった結果、2020年9月28日に10万トゥートを達成しました。

handon.club

SNSは人がいてこそです。バージョンアップやメンテナンスをすみやかに行ってくれて、いつも快適に書き込めるようにしてくれている管理人のはんさん、さまざまな投稿をしたり、私に反応したりしなかったりしてくださる皆さま、いつもありがとうございます。

ということで、この記事では10万トゥートの中身を分析して、これまでの投稿内容を振り返ります。なお、こういう分析に熟達しているわけではないので、どうか生温かい目で見てくださいね。

もくじ

分析について

今回の分析は、notestockというサービスのダウンロード機能を使って、トゥートデータを取得しました。ありがとうございます。

notestock.osa-p.net

12月初旬に取得したので、取得したデータととしては10万トゥート以上ありますが、キリがよいので先述した10万トゥートまでを分析対象のデータにします。ただし、データには私がブーストしたデータも入っているので、それらは取り除きましたが、自分のブーストしたデータは取り除けませんでした……。まあそんなに多くはないはずなので、そのあたりは許してください。また、Mastodonはブーストも1トゥートとしてカウントされるようなので、実際のデータ数は95809です。

投稿速度について

10万トゥートに至るまでの投稿数の推移をグラフにしました。

f:id:seibe2:20201219092135p:plain
10万トゥートまでの投稿数の推移

グラフ中、左に突き出している先はブーストした過去の日時が記録されているようです。初投稿(2017年4月)から2018年8月ごろまではほとんど投稿していませんでしたが、2018年8月からは顕著に投稿数が増えています。これは明らかにTwitterにUserstreamの廃止の影響ですね(Twitterでよく会話していた人たちがMastodonへの移住をはじめたため)。ちなみに2019年4月からはより投稿速度が増えているようですが、この理由は謎ですね……。

文字数について

よく言われます。トゥート稼ぎをしていると。私のトゥートには1文字だけのトゥートが多く、投稿数を水増ししているとの疑惑が各方面から寄せられているようです。

いやいやそんなことない、1文字のトゥートはそんなにしてないよ、割と長いトゥートもしているよ、と自身では思っていますが、実際はどうなのか。こちらが文字数のグラフになります。

f:id:seibe2:20201219102030p:plain
文字数分布(0-500文字)

ほぼすべてが100文字以内に入っていることはわかりますが、もうちょっと細かい部分がみたいですね。0-100文字に拡大したのがこちらになります。

f:id:seibe2:20201219102046p:plain
文字数分布(0-100文字)

……いかがですか? 0文字(空リプライや画像)が多いのはまあ仕方ないとして*1、その次に多いのは4文字ですね。その次は3文字、5文字とつづいて、1文字は大分下のようです。文字数で1文字が出てくるまでの順位を表にしましょう。

順位 文字数 度数
1 0 8628
2 4 5545
3 3 5335
4 5 5226
5 6 5167
6 7 4800
7 8 4389
8 9 4187
9 10 4168
10 2 3523
11 12 3485
12 11 3394
13 1 2972

ということで、1文字のトゥートは皆さんが思われているほど多くはないです。ブーストを除いた(正確には自分のブーストは除けていませんが)は95585トゥートなので、1文字トゥートは2972/95585 = 約3.11% ……あれ、ちょっと多いように思ってきましたね、まあそんなに多くないでしょう! ということにしておきましょう。

参考までに、基本統計量は以下の通りです。

項目
平均値 14.0
標準偏差 18.6
最小値 0
25%値 4
50%値 9
75%値 17
最大値 479

ちなみに2017時点でのTwitterにおける日本語の最頻値は15文字だそうです。ん……大分私の方が短いですね?

blog.twitter.com

まあ次の話題に行きましょう。1文字トゥートの具体的な中身はどんなものなのか、もう少し掘り下げて見てみたいと思います。同率19位までの表です。

順位 文字 度数
1 558
2 278
3 215
4 194
5 186
6 . 131
7 76
8 63
9 59
10 58
11 58
12 a 50
13 45
14 e 41
15 40
16 38
17 🍆 35
18 o 24
19 u 17
20 16

自身の実感として「あ」が圧倒的に多いかな、と思っていましたが、やはりその通りなようですね。「あ」は何か言い始めるときについ言ってしまう、アレです*2。「え」はちょっとした反感を示すときに使っています。「お」、「ん」は興味を示したときの反応、「う」は返答に窮したときに出てくるアレですね。ちゃんとしっかり意図を持って書き込んでいるんですよ、と言いたかったので、母音1文字のトゥートについて解説しておきました。あー、🍆が入っているのは初期の起床の挨拶に使っていた名残がありますね……。

また、私の時間では昼が一番長いようです。つづいて夜で、朝はそれに比べると約3分の1程度の時間しかないようですね……。

リプライについて

私は誰と多く会話しているのか。以下の表では空リプライをのぞいた、まともな会話を対象として、トゥートの先頭に出てくるIDを数えています。複数人に@を使って会話することもたまにありますが、それまで対象にはできなかったのでやめました。メインの会話対象の人はトゥートの一番最初に来るでしょうから、これでもおおむね傾向はつかめるでしょう。また、空中リプライをすることも多いので、実際にはこれと前後するかとは思いますが、まあ、おおむね合っているでしょう。ということで、まともな会話、上位10位です。

順位 ID 度数
1 @rio_tc 3325
2 @highemerly 1801
3 @zero_zaki_ghost 919
4 @yuhina 903
5 @Eucritical 896
6 @4pk 882
7 @toku2 863
8 @S_iRe_N 828
9 @ac_key 747
10 @u2mk 554

まあそうだろうなあと思っていましたが、りおつさんが圧倒的で3000強です。いつもありがとうございます。それにつづいてはんさんが2000弱ですね。このあたりはツイッターの頃からお世話になっております。続いて1000弱でぜろざきさん、ゆひなさん、むにきさん……と続いていく感じですね。

空リプライ上位10位も調べてみました。私が文章を入れずに、IDだけを記載してリプライした人の上位10位です。

順位 ID 度数
1 @uzuky 977
2 @y_f_ 571
3 @rainy_berry 437
4 @femm 435
5 @highemerly 428
6 @S_iRe_N 394
7 @Eucritical 336
8 @u2mk 320
9 @henkma 292
10 @zero_zaki_ghost 284

空リプは主に私のことをせんべいと言っていたり*3、しょうも無いことを言ってたりしたときにしています。このリストに上がっている皆さん、もしこの記事をご覧になっていたらどうぞ反省してくださいね?? わたしはせいべです。(ちなみに、ちなみにですが、普通のリプライのランキングには載っていないのに、このランキングには載っている方もいますね……?)

おわりに

いかがでしたか?*4 1文字トゥートは自分でも多いなと思ってはいましたが、では実際どれほどなのかを具体的に知りたいと思い、今回まとめてみました。多分ExcelGoogle Spreadsheetで十分対応できそうな気もしますが、pandasに慣れたいなあというのもあったのでpandasを使ってみました。分析に使ったJupyter Notebookは以下に貼っておきます。たぶんどこか間違えてるのでツッコミお待ちしています。

gist.github.com

最後に。読んでくれた皆さまへ、一年間のお礼として小曲を書きました。リリカルでしっとりとした曲になりました。よかったら聴いていってやってくださいね*5

soundcloud.com

*1:感の良い方ならお気づきですが、空リプライがが一番のトゥート稼ぎになりますね? まあ本文ではそのことについては触れていません

*2:フィラー」(Wikipedia英語版記事))と言うようです

*3:わたしはせいべです

*4:ちなみに前日までのはんドンアドベントカレンダーの19人中、12人が「いかがでしたか?」と書いていました。いかがでしたか?

*5:まともなのが聴きたい方はこちらをどうぞ