상단메뉴 바로가기 본문 내용 바로가기

대용량 악성·정상앱 1

  • 요약
    • Dataset ID : KU-2018-Android
    • 이         름 : 안드로이드 정상/악성 앱
    • 제 공 자 : 고려대학교 해킹대응기술연구실
    • 수집기간 : 2011~2015
    • 수집방법 : 악성앱 공유 사이트, 구글 플레이스토어에서 수집
  • 설명

2018년도 정보보호 R&D 데이터 챌린지 대회의 "AI기반 안드로이드 악성앱 탐지" 트랙에 활용된 안드로이드 앱 데이터셋이다.

고려대학교 해킹대응기술연구실에서 연구한 프로파일링 기반 악성앱 탐지 시스템(Andro-Profiler)의 성능검증에 기반이 된 데이터셋으로, VirusShare, Contagio 등 악성앱 공유 사이트에서 수집한 4,694개 악성앱과 구글 플레이스토어에서 수집한 9,306개 정상앱으로 구성되어 있다. 모든 앱 파일은 malwares.com 및 VirusTotal 조회를 통해 악성여부를 재확인하여, 데이터의 신뢰성 확보를 위해 노력하였다.

본 데이터셋은 정보보호 R&D 데이터 챌린지 대회의 예선 학습용, 예선 평가용, 본선 1차 평가용, 본선 2차 평가용으로 구분되어 있다. 또한 정상앱과 악성앱이 구분되어 있어, 다양한 안드로이드 악성 앱 탐지 기술의 성능평가에 활용 가능할 것으로 기대된다.

  • 추가정보
    • 파일크기 : 총 17.4GB
      - KU-CISC2018-Android-Pre-Train.zip (예선 학습용, 7.26GB)
      - KU-CISC2018-Android-Pre-Test.zip (예선 평가용, 4.72GB)
      - KU-CISC2018-Android-Final-1st-Test.zip (본선 1차 평가용, 2.66GB)
      - KU-CISC2018-Android-Final-2nd-Test.zip (본선 2차 평가용, 2.81GB)
    • 키 워 드 : Android, malware, machine learning
    • 데이터셋을 활용한 대회 : 정보보호 R&D 데이터챌린지 2018  [관련 링크]
    • 관련 연구 : Andro-Profiler  [관련 링크]
  • 데이터셋 구조
    • 안드로이드 정상/악성 APK 파일
      - normal, malware 폴더로 정상/악성 앱 여부 구분
      - 파일 이름: APK 파일의 SHA-256 해쉬값
  •                                    
  • 샘플데이터
샘플데이터
  • 데이터셋 신청