他サイト更新RSSぴぽぺ速報最新記事

PHPで二次元画像自動収集ツール作ったけど質問有る?

このエントリーをはてなブックマークに追加 LINEで送る

1: 名無しさん 2014/04/06(日)08:56:57 ID:YASEvboIr

PHPで二次元画像自動収集ツール作ってまとめサイト公開してたけどなにか質問有る?

こういったこと初めてだから、うまく出来るかわかりませんが。
質問がありましたら答えていきます。

5: 名無しさん 2014/04/06(日)08:59:34 ID:YgrV8lkcv

なにか質問を想定してスレ建てたんだよね???


6: 名無しさん 2014/04/06(日)09:00:35 ID:YASEvboIr

>>5
いえ、なにか面白そうだからと言うだけだったりもします。


7: 名無しさん 2014/04/06(日)09:00:55 ID:KRaBuk52p

PHPとかいうくそ言語が覇権握ってる現状激おこプンプン丸ですぞ


8: 名無しさん 2014/04/06(日)09:02:03 ID:YASEvboIr

>>7
クソ言語使っちゃってすみません orz
全くの素人が取っ付き易い言語ということで耳にしたもので。


13: 名無しさん 2014/04/06(日)09:12:23 ID:pq8mNG41r

PHP学び始めてどのぐらいの期間で
「あ、オレものになったな」って思うようになった?


14: 名無しさん 2014/04/06(日)09:15:49 ID:YASEvboIr

>>13
サイトの作成も含めて、同時進行で他のことも学びながら行ったのではっきりとは言えませんが。
1ヶ月少しでサイトが完成させられた時には最低限ものになったな!とか思いました。
でも実際は、まだまだな事には後々気が付きましたが。
それでも、HTML+CSS+DB+PHP+Ajaxを一から学びながら1ヶ月少し、長く見て2ヶ月ほどで
完成させられたので、PHPは取っ付き易い良い言語なのかなとおもいました。
否定派の方も居るようですが...

たにぐち まこと
マイナビ
売り上げランキング: 22,251

15: 名無しさん 2014/04/06(日)09:21:02 ID:khJgutdp8

どこから収集してんの?google?


17: 名無しさん 2014/04/06(日)09:22:18 ID:YASEvboIr

>>15
収集先は、幅広いですが、Googleの他、掲示板やまとめサイトの情報をこねくり回す形です。


16: 名無しさん 2014/04/06(日)09:21:12 ID:VCx2EA23w

公開してたけどって過去形になってるけど
何故止めたの?


19: 名無しさん 2014/04/06(日)09:24:39 ID:YASEvboIr

>>16
正確には、現在も公開して入るのですが以前と方式を変えました。
一度停止した理由は、サーバの維持が行えなくなったことが原因でした。

また、以前は全て自分で書いたコードにより公開していたのですが、サーバの移転を行いまして。
その流れで、メインをWordPressにして現在も公開中です。
人は殆ど来ていないようなので、ほぼ自分用サイトに成ってます。


18: 名無しさん 2014/04/06(日)09:22:44 ID:3IUMPtpQH

月収はどんなもんだった?


20: 名無しさん 2014/04/06(日)09:25:58 ID:YASEvboIr

>>18
ほぼ収益が無く、維持費を考えると赤字でしたので一時閉鎖という流れに つД`)・゚・。・゚゚・*:.。..。.:*・゚
なにせ、利用者がほぼいなかったものでして。


21: 名無しさん 2014/04/06(日)09:26:45 ID:VCx2EA23w

維持費って月いくらくらいだったの?


22: 名無しさん 2014/04/06(日)09:28:14 ID:YASEvboIr

>>21
細かい数字はわかりませんが1万円位でした。
さらに、初期設備に書けたお金もプラスされる形で。


24: 名無しさん 2014/04/06(日)09:30:44 ID:VCx2EA23w

>>22
そりゃサイト収入がないと維持はしんどいわな


で、自己分析でサイトに人が来なかった理由は?


26: 名無しさん 2014/04/06(日)09:35:33 ID:YASEvboIr

>>24
サイトに人が来なかった理由は細かい所は色々と考えられますが。
・強豪相手が多い中宣伝されていない
・利用者の共有ができていない
等、他人に責任を押し付けることも出来ますが。
何より、表示が遅い事や、他の義類サイトと比較した場合にメインとなる要素が薄すぎる.
結果として,コア資産となるものがZIPのDLと自動収集される結果として画像数が多い.
また,自前サーバと言う事で,他のレンタルブログでは定期的に消去されてしまう過去の画像が残り続ける.
等しか誇れる点がなかったところと考えています.


29: 名無しさん 2014/04/06(日)09:38:14 ID:VCx2EA23w

>>26
なんと自前でサーバを立ててたのか すごい!


表示が遅かった原因はどんなことが考えられる?


32: 名無しさん 2014/04/06(日)09:46:17 ID:YASEvboIr

>>29
はい,自前でサーバを立てて運用を行ってました.
楽しかったです.

表示が遅くなった原因...
おそらく,サーバの設定が甘々で画像ばかりのサイトなのに読み込みが頻繁に起きること.
これは,キャッシュなどで対応するべきだったなと.
また,ど素人の書いたPHPでDBにアクセスしまくっていたのも大きい原因かと.
フレームワークの存在を知らなかったものですべてガリガリとコーディングを行いました.
それで,非効率な処理が多かったはずです.
ほかも,考えられる点は幾つかあるとは思いますが,主な原因はこの変かなと.


28: 名無しさん 2014/04/06(日)09:37:37 ID:pq8mNG41r

最終的に収集した画像は
何ファイル何GBになったの?
整理できてる?


31: 名無しさん 2014/04/06(日)09:42:22 ID:YASEvboIr

>>28
ハッキリとは記憶しておりませんが,25Gは超えていました.
ただ,その中に重複画像が混ざっていますので上手い事消去できれば節約できるのになと思っています.


11: 名無しさん 2014/04/06(日)09:06:54 ID:sDof0kuCH

2次元と3次元はどうやって判別してるの?


12: 名無しさん 2014/04/06(日)09:08:55 ID:YASEvboIr

>>11
基本的には、二次元画像が投稿されるサイト(掲示板)などを定期的にクロールしてます。
その際に、前後の文章の流れやタイトルから画像の種類を大雑把に分類してます。
それしか行っていないのが、精度が低い原因です。


33: 名無しさん 2014/04/06(日)09:49:08 ID:pq8mNG41r

ぶっちゃけ、日本の萌え二次画像で品質高いのは
Danbooru系サイトのRSS監視してればほぼ網羅できるよな
RSSからDLにうまく繋げる方法が今の自分には無いんだけどね


34: 名無しさん 2014/04/06(日)09:52:21 ID:YASEvboIr

>>33
そうですね.
私も,一部はRSS監視を行いそこから引き抜く作業を行わせています.

RSS取得を行い,その先のHTMLを解析させ画像ファイルのみを抜き出しています.


35: 名無しさん 2014/04/06(日)09:53:44 ID:VCx2EA23w

二次元画像以外に興味のある画像の分野は他にないの?


37: 名無しさん 2014/04/06(日)09:56:56 ID:YASEvboIr

>>35
興味だけですと,軍事関係の画像とか,機械の画像に興味はあります.
美しい機械はゾクゾクします.
ただ,収集系で範囲を広げるつもりはありませんが.


40: 名無しさん 2014/04/06(日)10:01:47 ID:VCx2EA23w

今はWordPressで引き継いでいるって書いてあったけど
それも自動化されてるの?


42: 名無しさん 2014/04/06(日)10:04:14 ID:YASEvboIr

>>40
今も、フロント部分はWordPressに引き継いでもらっていますが
バックエンドは引き続き自動化されています。

引き継ぎ作業として、今までのプログラムに投稿プログラムを追加してそちらも走らせ続ける形です。


41: 名無しさん 2014/04/06(日)10:02:56 ID:pq8mNG41r

自分の知っている範囲で極めて優れていると思った
主にPHPで構成されているサイトをひとつ教えてください


44: 名無しさん 2014/04/06(日)10:07:57 ID:YASEvboIr

>>41
PHPで構成していたか忘れてしまいましたが、私が触発されて作る切っ掛けとなったのは
ゆーすけべーさんのサイトです。
でも確か、あの方はPerlだった気もしますが。

関連:ボケて


43: 名無しさん 2014/04/06(日)10:06:52 ID:VCx2EA23w

サイト収入についてはどういう考え?
作るのが楽しくてあったらいいなという程度?
それともかなりメインの方針?


45: 名無しさん 2014/04/06(日)10:10:24 ID:YASEvboIr

>>43
サイト収益は、利益に成ればたしかに嬉しいのですが。
それ以上に作るのが楽しかったりするので正直どうでもいいです。
ただ、流石に赤字幅が大きいと趣味としても辛いところでもあります。
なので、±0になれば良いなと。

収益が出れば、技術力向上への投資もしやすくなるのでそれなりに広告を
貼り付けてはいますが。


46: 名無しさん 2014/04/06(日)10:12:03 ID:VCx2EA23w

プログラム的に次に挑戦していきたい事は何?


48: 名無しさん 2014/04/06(日)10:17:43 ID:YASEvboIr

>>46
いくつかありますが
今のサイトの中では...
・同一画像を見つけ出し、解像度の低いもの等の質が悪いものを消し統一化
コレにより、容量の削減を行う

・画像解析を行い、二次元なのか、三次元なのかの判別を行う

・記事単位ではなく、画像単位での人気度の集計などを行いランキング化

別サイトとして
・嫁の名前を登録することで、その嫁の特徴を幾つか抽出を行いそれに対して
別の特徴を足し引きすることで別のお勧めキャラを発掘してくれるサイトを。
と思ったところで、某ランプのおじさんに近いことに気が付き廃案にした形です。


47: 名無しさん 2014/04/06(日)10:17:18 ID:FlkXMKwYV

URLは?


49: 名無しさん 2014/04/06(日)10:19:50 ID:YASEvboIr

>>47
URLは下記のものになります。

URL:http://sub0000528116.hmk-temp.com/wordpress/

もし宜しければ、利用していただけると。そして、維持費をまかなえると嬉しいなと思ったりです。

ドメインは、なるべく維持費を抑えるために標準のものを利用してますので見苦しいかもしれませんが。
その他何かアドバイス等ありましたらよろしくお願いします。


50: 名無しさん 2014/04/06(日)10:22:27 ID:pq8mNG41r

カテゴリ分けといて
カテゴリ分けておいてくれればRSS修得するわ


52: 名無しさん 2014/04/06(日)10:25:06 ID:YASEvboIr

>>50
以前のサイトの時は、カテゴリ分けしてたのですが今は統一化してしまいました。
ヤハリ、カテゴリは分けられていたほうが利用しやすいのですね。
あれな画像と区別する精度が異常に低く混入するので精度の向上を図るところから始めてみようと思います。


54: 名無しさん 2014/04/06(日)10:29:16 ID:pq8mNG41r

>>52
というか、カテゴリ分けておいてくれると修得するRSS選べるっていう事自体の知名度が低いだけ
サイトによっては政治と萌え画像とオカルトとごっちゃに掲載してるのにカテゴリ分けてなかったりするからね
萌え画像の記事しか見ないっつーの


56: 名無しさん 2014/04/06(日)10:39:18 ID:YASEvboIr

>>54
分けれる限りのカテゴリを画像解析を行って自動でRSS配信する機能の作成を頑張らせてもらいます。


51: 名無しさん 2014/04/06(日)10:23:59 ID:VCx2EA23w

そうや!
健全な二次元ならオレも見たい!


53: 名無しさん 2014/04/06(日)10:27:51 ID:YASEvboIr

>>51
アドバイスありがとうございます。
現実的な方法としては、投稿単位に肌色成分で分別を行い
その結果引っかかったものを判断してしまえば
セーフネットとして働くかなと考えましたので、近いうちに対応させようかと思います。


元スレ:http://hayabusa.open2ch.net/test/read.cgi/news4vip/1396742217/

sosu



このエントリーをはてなブックマークに追加 LINEで送る
↑この記事をみんなに広めよう↑

↓ランキングクリックよろしくお願いします↓
 にほんブログ村 2ちゃんねるブログ 2ちゃんねる(ニュース)へ にほんブログ村 2ちゃんねるブログ 2ちゃんねる(ゲーム)へ

コメントをどうぞ

メールアドレス
コメント本文

  • あなたのコメントが、更にこの記事をおもしろくします。

プロフィール

PipopeFavicon

ぴぽぺ速報です。

下らないニュース、
おもしろい事件、
ゲームなど色々扱っております。
1日約70記事です。

Twitter
RSS

↓ランキングクリックよろしくお願いします↓
 にほんブログ村 2ちゃんねるブログ 2ちゃんねる(ニュース)へ にほんブログ村 2ちゃんねるブログ 2ちゃんねる(ゲーム)へ

新着情報

逆アクセスランキング

アクセスカウンター

  • 15現在の記事:
  • 1483430総閲覧数:
  • 143今日の閲覧数:
  • 219昨日の閲覧数:
  • 532944総訪問者数:
  • 109今日の訪問者数:
  • 166昨日の訪問者数:
  • 148一日あたりの訪問者数:
  • 1現在オンライン中の人数:

genzou1919 world