トップ «前の日記(2005-12-08 [J]) 最新 次の日記(2005-12-12 [J])» 編集

Eroge RSS Checker 運営記録

Categories | メモ | 運営 | 感想 | 記号変更 | 雑記 | 雑文 | 思案

合計: 今日: 昨日:
2005年
12月
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

rss1.0

ここは、「Eroge RSS Checker」に関する運営の記録を書きとめておく場所です。第三者に説明する文体で書いていますが、大半は備忘録です。

  1. スクリプトを汎用化して公開する。---最終目標
  2. CSSを論理的に使う。---努力目標
  3. デザインを改善する。---努力目標
  4. 攻略の完全・不完全を出来る限り判別する。---努力目標
  5. 管理要員用のページの充実。---努力目標
  6. JANコードの入手先を探す。---躊躇中
  7. ブランドの複数登録。---大規模改修のとき
  8. 登録を簡潔にしつつ、marker登録を半自動化する。---暇なとき

2005-12-11 [J]

_ [メモ] 分類ごとの平均アクセス数

11/18日から今日までのアクセス数を元にしている。

除外データなし

データ数 / 平均アクセス数 / 分類名

5 / 44.4000 / 2次製作

22 / 26.2273 / まとめ

1 / 1.0000 / リンク集

36133 / 2.2107 / レビュー

7618 / 2.6494 / 改造

9290 / 3.0868 / 攻略

1100 / 5.4009 / 紹介

9 / 45.6667 / 解説

アクセス数0のデータを除外

5 / 44.4000 / 2次製作

13 / 44.3077 / まとめ

1 / 1.0000 / リンク集

17029 / 4.6903 / レビュー

4061 / 4.9692 / 改造

4514 / 6.3514 / 攻略

86 / 69.0814 / 紹介

9 / 45.6667 / 解説

アクセス数10以下のデータを除外

1269 / 33.7431 / レビュー

400 / 27.3725 / 改造

505 / 36.5802 / 攻略

51 / 115.3725 / 紹介

アクセス数30以下のデータを除外

288 / 96.8819 / レビュー

85 / 68.4588 / 改造

129 / 96.6589 / 攻略

45 / 128.1778 / 紹介

アクセス数100以下のデータを除外

84 / 207.6190 / レビュー

15 / 157.8000 / 改造

36 / 212.9167 / 攻略

29 / 166.6207 / 紹介

平均アクセス数を見ると、攻略>改造>レビューになってますね。

ただ、標本数が三倍以上違いますから実質的には、レビュー>攻略>改造かな。夜更けに統計学の本とか読みふけるような方は計算してみるといいかも。

使用したSQL

select count(*) as c, avg(all_count) as al, subject from counter inner join reviewpagelist on counter.id = reviewpagelist.id where error = "off" and all_count != 0 group by subject

_ [思案] 単位ごとの取得

面倒でずっと先延ばしにしていたが、なんとかしないとならないらしい。

なぜ面倒なのかといえば、marker登録との互換性の問題がある。要するに、RSSはRSS、markerはmarkerだと細かな部分で齟齬が生じる可能性があるというわけだ。一度出力フォーマットを同一にすれば、良いのだけれど頭を使うので回避していた。なぜ、単位ごとの取得は必要になるかといえば、取得要素が省略されている場合に、その要素がずれてしまい単位としてのまとまりを把握できないためだ。

では、どのような方法があるか。まず誰でも思いつき、かつ確実なのが、単位の始まりと終わりを登録してもらう方法がある。ただ、この方法には2つの問題がある。上でも書いたように、内部処理が全く別物になってしまうこと、そして新しく単位記号を登録する必要があることが問題になる。当然、単位記号を必要としない場合も考えられるので、なくとも個別で動くように作る必要もある。

この場合の実装案として、まず単位記号で、巡回対象ページの内容をくり貫き、配列に格納する。その配列データを個別に、登録記号で検索し、各要素配列に順番に格納する、単位記号がない場合はこの処理を1度だけ実行する。これで、最小限の変更で機能が実現できる。

次に、一般的な傾向を利用する方法が考えられる。普通単位というと、一箇所に固まっている(上の方法もそれを利用しているわけだが)。そこから、いくつかの要素を取り出すわけだが、その際、それ以外の情報は意味のない情報だ。しかも、要素間の順序は固定されていることが多い。そこで、何かの開始記号と何かの終了記号を組み合わせ、その記号部分も含めて単位と見ることが可能なはずだ。

この場合、それを確認するためのスクリプトを書けば、後は勝手に判断して、単位記号を決定してくれる。実装方法は上の案と同様だ。

これらを導入する場合の欠点としては、作業が少し煩雑になり、エラーの発生頻度が大きくなることだろう。RSSだけを対象にしてもタグの閉め忘れのようなミスに遭遇することがある。ましてや、手書き、ホームページ作成ツールによるサイトの場合ミスや法則から外れた書式は当たり前に存在する。

そこで、もうひとつだけ方法があるにはある。はじめに否定したRSS独自の処理の導入だ。RSSを配列に入れてくれるスクリプトは多くあり、それを導入すればなんの苦労もなく問題は解決する。ただ、齟齬が出るかもしれないことだけではなく、手直しではなく抜本的な見直しが必要になる可能性が高い。

元々、クラス化はほぼ完成しているが大きく2つのクラスから構成している。それを、ページ内容の取得保存、RSSパース、markerパース、整形・登録、の4つのクラスを作る必要が出てくるかもしれない。

バグとりから何か入れて、最低1ヶ月くらい掛かってしまうかもしれない。まずは二番目に挙げた案を頭の隅で検討してみます。

_ [メモ] RSSのみ単位取得に対応

とりあえず、簡易的にRSSの場合に別処理(といっても基本的には同じ)することにしてみた。少しずつ修正して完成したい。

お名前:
E-mail:
コメント: