✖
日記(ブログ)内のカテゴリを自動抽出して設定したい。いわゆるクラスタリングだと思うが、うまくできる方法がよくわからない。
動機としては「カテゴリ」とか「タグ」を設定するのが面倒なので、自動的にトピックを解析して「タグ」として抽出したい。既に TF-IDF は出しているので、上位を使えばよさそうな感じではあるが、IDF の対象が自分のエントリだけなので、一般的な「特徴語」とは違った結果になっている。
機械的にやるよりも例えば「電子工作」なら「Raspberry Pi」「電子工作」「回路」とかを含む全てのエントリを適当に検索して出せばいいだけかもしれない。かなりヒューリスティックなので自分にとっては「新しい発見」はないが、検索流入の場合は狙った似たトピックに辿りつきやすいかもしれない。
関連エントリー
- ✖ システムあたらしくしたのでどんどん使っていくぞ〜 ポケモンZAはスタッフロールみるところまでやりました。 Chemr に mcp を実装して...
- 趣味の電子工作 趣味の電子工作には1つ溝がある 回路を組立てる (製造工程の趣味) 回路を設計する (設計工程の趣味) で、両方混ざってることもある。設計す...
- ページャの実装変更 今までのページャは良くある ?page=2 みたいな形式でした。これは内部的には offset / limit を使う SQL になります。...
- TF-IDFとコサイン類似度による類似エントリー機能の実装 TF-IDFによる類似エントリー機能の実装をしてみました。ほぼSQLiteですませるような構成です。 やっていることの概要 エントリーのHT...
- クズ 読みたいものはやる気になれるようなコンテンツなのに、そういうのは流れてきにくい。意識高い系クズがどうたらこうたらみたいな話ばかり。そういうエ...