winhttrack 으로 긁었는데 이 블로그도 그렇고 hajunho.com 도 그렇고 안 긁어졌다.

https:// 를 붙이고 all site download 로 하니 긁어지기 하는데 w3g.org 까지 ... ㅡㅡ;

getleft v1.2는 unsupported protocol 이라는 팝업만 뜬다.

alternatives가 많아서 우선 되는 것 기준으로 파려고 했는데 처음부터 안되니 좀 아쉽긴 했다. getleft는 dmg는 아예 되지도 않더라.

https://github.com/xroche/httrack/tree/master

 

xroche/httrack

HTTrack Website Copier, copy websites to your computer (Official repository) - xroche/httrack

github.com

httrack 는 httrack.com 도 있는데다가 GNU다.

FSF 껀 초기에 제대로 되고 금방 다른데서 소스를 퍼 가 버리기 때문에 경쟁력이 금방 떨어져 버리는데 깃헙보면 수년 전 만든게 아직도 잘 도는 것을 보니 충분히 분석할 만한 가치가 있는 소스로 보인다. 스타도 1000개 넘고.

 

뭐, 공부 좋아하고 경제력에 전혀 문제 없다면 FSF만큼 재미있는 단체, 철학, 놀이는 없지.

 

정말 다양하게 긁어 온다. 

일전에 밝힌 적 있지만 구글 블로거에서 포스팅 지우고 해당 이미지 링크만 따 둔 경우 수년이 지나도 지워지지 않고 그대로 있는 경우가 있었다. 

뭐, 구글도 페북도 그런 부분은 전혀 믿음이 안 간다. 내가 내 의지로 데이터를 지우더라도 분명 그 데이터를 자기네들 이익을 위해 사용할 것이고 그렇게 해 왔다는 것은 자명한 사실이다. 회사가 크다보니 여러 사람을 설득해야 해서 다수의 의견을 따라,

그나마 인류에 도움되는 형태로 뻗어나간다는게 다행이지만.

애플이나 국내 서비스만큼 믿음이 안 간다는 뜻.

오해는 말자, 국내 서비스는 더 하지만 스토리지 및 관리 능력의 한계 때문에 믿음이 간다는 뜻.

참고로 IDC 센터에 있는 윈도우 서버(2012 datacenter) 에서 실행시킨 것이니 참고.

물론, 개인용이다.... 개인이 사용하는 구글 엔터프라이즈 서비스 외 기타 등등 정말... 돈 많이 나간다...

내가 살아가는 비용 합해서 1년에 1억이다. 뭐, 자세하진 않지만 누군가에게는 도움되겠지.

 


We will see here several examples, written in batch script (can be adapted to almost all batch script languages) or in C.

윈도우의 좋은 점은 GUI 아래와 같은 명령어로 세부 컨트롤 해도 되겠지만.

How to get one single file

httrack --get http://localhost/



How to get one single file and pipe it to stdout

httrack --quiet --get http://localhost/ -O tmpget -V "cat \$0" | grep -iE "TITLE" rm -rf tmpget



How to search in all HTML files on a website

httrack --skeleton http://localhost/ -V "if grep -iE \"TITLE\" \"\$0\">/dev/null; then echo \"Match found at \$0\"; fi"
rm -rf tmpget

Same thing but matches only the first file:
httrack --skeleton http://localhost/ -V "if grep -iE \"TITLE\" \"\$0\">/dev/null; then echo \"Match found at \$0\"; kill -9 \$PPID; fi"
rm -rf tmpget



Indexing a website, and using the index as a search engine

httrack localhost -%I
Will generate an index.txt file, which contains all detected keywords, sorted and indexed using this format:


Example:

 

AI 이미지 처리만 고집하는 내가 궁금한 것은 저렇게 수집된 자료에서 이미지만 빼 오는 것이다.

 

결과는 가능했다.

 

그리고 윈도우 기반이라서 단일 사이트 대상으로 할 때는 참 편하다. 티스토리 주소를 뽑아서 스크립팅으로 돌리면 더 좋을 것 같다.

내일은 인스타그램 한 번 해봐야지. BM이 보인다.

'Blog History' 카테고리의 다른 글

407  (0) 2020.06.02
406  (1) 2020.06.02
404  (0) 2020.06.02
403  (0) 2020.06.02
402  (0) 2020.06.02

+ Recent posts