게시판:자유게시판의 토론 주제

아카이빙 안되는 사이트 또는 웹페이지

1
WhatisI (토론기여)

트윗이나 페북, 혹은 다른 SNS나 까페, 블로그 글은 쉽게 사라질 수 있죠. 그래서 Wayback Machine, archive.is 사이트 같은 걸로 아카이빙을 해서 출처를 남기기도 합니다.

그런데 어떤 글은 아카이빙이 안되기도 해요. Wayback Machine의 경우 robots.txt를 존중해서 그런 것 같고, archive.is는 robots.txt는 무시하는데도 가끔 안되더라구요. 또, 가입을 해야 볼 수 있는 글 같은 경우도 저런 서비스로 아카이빙이 어렵구요.

그런 경우는 스크린 캡쳐 기능을 사용할 수 밖에 없는데, 이게 또 스크롤링 해야 하는 경우, 한꺼번에 캡쳐가 불가능하고.. 그래서 Full Page Screen Capture 같은 도구가 있습니다. 이건 크롬 브라우저 익스텐션이라 크롬만 사용 가능합니다만, 비슷한 것들이 다른 브라우저나 맥용도 있는 걸로 들었던 것 같습니다.

그런데 위의 도구는 그림 파일로 만들어줘서 조금 아쉽죠. 그래서 또 다른 크롬 브라우저 익스텐션으로 Save to Google Drive가 있습니다. 웹페이지를 그림 파일이나 html 파일 혹은 mht파일로 구글드라이브에 저장해주는 도구입니다. 이 도구의 옵션에 보면 .mht 파일로 저장 가능합니다. mht 파일은 웹페이지 전체를 하나의 파일로 압축 저장하는 방식입니다.

문제는 mht 파일을 출처로 저장할 경우, 어떻게 어디다 publishing하는가이긴 한데.. ㅎㅎ 그건 더 고민을 해봐야 할 듯요. 혹시나 필요하신 분들 위해 남깁니다.