안녕하세요? 허니입니다. 검색엔진 노출 취약점에 대해서 알아보고 대응 방법에 대해 알아보도록 하겠습니다. 사이버 해킹에 대해 공부하시는 학생이나 연구원 분이 계시면 도움이 될 것이라 생각합니다.


이름, 주민등록번호, 전화번호와 같은 개인정보가 웹 페이지상에 또는 첨부파일을 통해 노출되어 있을 경우 공격자는 개인정보를 수집하여 명의도용 등 악용할 수 있게 됩니다. 또한 공격자는 전화번호 및 주민번호의 패턴을 이용할 경우 자동화된 도구를 많은 사용자의 개인정보를 수집할 수 있습니다. 개인정보가 웹페이지에 노출되는 원인은 다음과 같습니다.
- 이용자의 부주의로 인한 게시판에 개인정보 업로드
- 관리자의 실수로 인한 게시판 첨부파일의 개인정보 포함
- 웹서버 환경설정 미흡으로 인한 파일 정보 노출(Directory Indexing)
- 외부 검색엔진을 통한 개인정보 색인
- 웹 애플리케이션 취약성 존재로 인한 내부 DB정보 노출

 

 대응방법
구글(Google) 색인에서 컨텐츠 제거를 위해 웹 마스터가 해당 페이지의 컨텐츠 자체를 변경하거나 robots.txt 파일 또는 메타태그를 사용하여 구글(Google) 검색결과에 사이트가 포함되지 않도록 해야 합니다.
(http://www.google.co.kr/support/webmasters/bin/answer.py?answer=35301)
robots.txt 파일을 사용하여 전체 웹사이트를 삭제 또는 차단해야 합니다.
(http://www.google.co.kr/support/webmasters/bin/answer.py?answer=35302)


- 웹 마스터 도구에서 robots.txt 생성 도구를 사용하여 파일을 만든 후 도메인의 루트 디렉터리에 robots.txt 이름으로 저장합니다.
- robots.txt 파일 규칙

 

User-agent : 특정 검색 엔진 로봇 (http://www.robotstxt.org/db.html)
Disallow : 차단할 URL (특정 URL 이나 패턴을 포함할 수 있으며 각 항목은 ‘/’로 시작한다.)


페이지의 섹션에 다음 메타 태그를 추가한 후 페이지를 크롤링 하여 검색 로봇이 해당 페이지에 대해 색인을 생성하지 못하도록 차단합니다. 서버에 대한 액세스 권한이 없을 때 사이트 또는 개별 페이지에 대해 액세스를 제어 할 수 있습니다
(http://www.google.co.kr/support/webmasters/bin/answer.py?hl=kr&answer=93710)

 

<meta name=”검색 로봇명“ content=”noindex”>


페이지의 <HEAD> 섹션에 다음 태그를 추가하여 ‘저장된 페이지’ 링크를 표시하지 않아 캐시 된 버전의 페이지 접근 방지 및 제거합니다.
(http://www.google.co.kr/support/webmasters/bin/answer.py?answer=35306)

 

<meta name=”검색 로봇명” content=”noarchive”>

 

내용 미리보기 방지 또는 삭제하며 내용 미리보기를 삭제하면 캐시된 페이지도 함께 삭제됩니다.

 

<meta name=”검색 로봇명” content=”nosnippet”>


웹 페이지상 또는 첨부파일에 개인정보가 노출되지 않도록 하기 위해서는 다음과 같은 조치가 필요합니다.
- 게시판 등에 사용자가 주민등록번호를 게시하거나 업로드 되지 않도록 모니터링하고 발견될 경우는 삭제하고 경고 조치함
- 불가피하게 주민등록번호가 기입되어야 하는 경우 ‘비밀 글’ 형태로 설정하여 타인의 열람이 불가능하도록 함
- ‘회원 가입’과 같은 이유로 사용자의 주민등록번호를 저장해야 하는 경우
- 암호화(Hash)하여 데이터베이스에 저장하여 노출이 되더라도 악용할 수 없도록 함
- E-mail 등을 사이트에 공지할 때는 메일 주소를 이미지와 같은 형태로 변경하여 자동 수집이 어렵도록 함

+ Recent posts