파이썬을 이용한 빅데이터 분석
최신 글 목록입니다.
-
[ 코랩과 파이썬 ] 17. python 클래스(class) 오버라이딩(overriding)과 super() 함수 1. class 클래스 클래스(class)는 파이썬에서 반드시 사용해야만 하는 함수는 아니다. 클래스는 좀 복잡한 개념이기는 하지만 단순히 설명하면, 정의된 함수(def) 여러 개를 한 번에 실행할 수 있도록 하나로 묶어 놓는 함수라고 이해하면 된다. 그래서 클래스를 쓰지 않고 함수를 def로 여러 개 정의해도 완성된 스크립트를 작성할 수 있다. 예를 들어 게임 캐릭터를 만들 때 모든 캐릭터가 공격력, 방어력, 체력을 공통으로 가지고 있다면, 이들을 각각 def로 정의할 수도 있지만, 클래스를 사용하면 한 번에 캐릭터가 생산된다. 클래스는 틀이나 설계도라고 할 수 있다. 설계도나 틀의 역할을 하는 클래스로 만들어진 것들을 객체(object) 혹은 인스턴스(instance)라고 한다. 객체는 속성(attr.. 더보기
-
[ 코랩과 파이썬 ] 1-1. 구글 코랩 Google Colab에 폴더 업로드 및 압축파일 zip 풀기 1. 구글 코랩(colab)에 폴더 업로드 구글 코랩에 폴더를 직접 업로드하는 방법은 없다. 하나의 파일은 로컬 컴퓨터에 있는 파일을 코랩에 마우스로 드래그하거나 업로드 아이콘을 클릭하면 올릴 수 있지만, 폴더는 업로드가 되지 않는다. 그래서 구글 드라이브에 폴더를 오려놓고 코랩과 구글 드라이브를 연동하는 방법을 자주 사용한다. 여기서는 하나의 파일을 업로드하는 방식을 응용해 폴더를 통째로 올려 보도록 하자. 우선 코랩에 업로드시키고자 하는 폴더를 zip 파일로 압축한다. 압축을 하면 하위 폴더를 포함해 모든 파일이 하나의 zip 파일로 압축된다. 이제 하나의 파일이 되었기 때문에 마우스로 드래그 또는 업로드 아이콘을 클릭해 코랩에 업로드하면 된다. 먼저 왼쪽 메뉴에서 폴더 아이콘을 클릭한다. 그런 후 .. 더보기
-
[ 코랩과 파이썬 ] 16. python random 모듈에서 sample, choices, choice, shuffle 함수로 데이터 추출하기 1. sample, choice, choices 함수 지난 블로그에서 random 모듈의 random 함수를 이용해 난수를 추출하는 방법을 살펴보았다. 이번에는 random 모듈에서 리스트, 튜플 등 컨테이너 자료에서 일부를 랜덤하게 뽑아내는 작업을 수행해 보자. 랜덤하게 뽑아내는 작업을 표집(sampling)이라고 하고, 뽑힌 값들의 모임을 표본(sample)이라고 한다. 무작위 랜덤 표집 방법은 모집단의 대표성을 확보하도록 표본을 구성하는 방법으로 통계적으로 매우 중요하다. 파이썬 random 모듈에서 랜덤하게 표본을 뽑는 함수는 sample, choices, choice가 있다. sample은 중복 없이 원하는 수만큼 무작위로 출하는 방법이고, choices는 중복을 허용해서 랜덤하게 추출한다. 예.. 더보기
-
[ 코랩과 파이썬 ] 15. python random 모듈로 난수 생성하기(randint, uniform, randrange 포함) 랜덤(random) 모듈은 무작위 수인 난수를 생성해 사용하는 함수들을 모아 놓은 것이다. 통계적 추론에서 표본의 대표성을 확보할 수 있는 최적의 방법은 무작위(random) 표집(sampling)이다. 여기서 무작위로 뽑는다는 것은 난수를 생성해서 뽑고자 하는 요소와 난수를 매칭시켜 선택하는 방법을 사용한다. 우선 난수를 생성하는 함수부터 살펴보자. random 모듈에서 모든 함수를 불러오도록 하자(from random import *). 불러온 함수 중 random() 함수를 사용하면 0부터 1까지 중에서 실수를 무작위로 하나 추출할 수 있다. 0~1이 아닌 특정 범위에서 난수를 뽑고 싶다면, uniform(a, b)을 사용한다. uniform(10, 20) 하면, 10.0에서 20.0 사이의 실수값.. 더보기
-
[ 코랩과 파이썬 ] 14. python 정렬 sorted 함수 (itemgetter 함수 포함) 1. sorted() 함수와 .sort() 메서드의 차이 sorted()는 데이터를 정렬시키는 함수이다. 이전 자료의 유형에서 리스트 자료를 정렬하는 메서드 .sort()에 대해 살펴본 적이 있다. sorted()와 sort()의 차이는 원본 데이터의 변화 유무에 차이가 있다. 메서드 .sort()는 리스트 원본 자체를 변화시키지만, sorted() 함수는 원본 리스트 그대로 놔두고 정렬된 리스트를 새롭게 생성한다. 그리고 .sort()는 리스트 자료만 정렬할 수 있지만, sorted()는 반복 가능한 컨테이너(리스트, 튜플, 딕셔너리 등) 자료를 정렬할 수 있다. 사용 방법은 sorted 함수 안에 정렬할 자료를 넣고, 옵션으로 내림차순(True)과 오름차순(False:)를 지정한다. 아무것도 지정하지.. 더보기