본문 바로가기

분류 전체보기

(32)
데이터 전처리 -2 데이터를 분석에 사용할때 성능이? 더 좋게 나오도록 데이터를 수정하거나 형태를 변경하는 작업 data preprocessing 데이터전처리의 종류 - 데이터 클리닝 -> 결측치 처리, 틀린값 처리 - 스케일링 - > 여러변수값의 범위를 동등하나 조건으로 맞추는것 : 표준스케일링 , min -max 스케일링 - 이상치 처리 - > 이상치 탐지 및 제거 - 데이터 변환 - 로그 변환, 카테고리 인코딩 등 데이터 클리닝 결측치 처리 값이 비어있는 것을 처리하는 것 ( 파이썬에서는 빈 값이 nan으로 표시 된다 : not a number) 결측치를 철리하는 방법은 크게 세가지가 있다. -> 결측치가 표함된 샘플(행)을 버린다. -> 결측치를 적절한 값으로 대체 한다. -> 결측치 처리를 다음 분석 단계로 넘긴다..
데이터 전처리 -1 데이터를 분석에 사용할때 성능이? 더 좋게 나오도록 데이터를 수정하거나 형태를 변경하는 작업 data preprocessing 데이터전처리의 종류 - 데이터 클리닝 -> 결측치 처리, 틀린값 처리 - 스케일링 - > 여러변수값의 범위를 동등하나 조건으로 맞추는것 : 표준스케일링 , min -max 스케일링 - 이상치 처리 - > 이상치 탐지 및 제거 - 데이터 변환 - 로그 변환, 카테고리 인코딩 등 데이터 클리닝 결측치 처리 값이 비어있는 것을 처리하는 것 ( 파이썬에서는 빈 값이 nan으로 표시 된다 : not a number) 결측치를 철리하는 방법은 크게 세가지가 있다. -> 결측치가 표함된 샘플(행)을 버린다. -> 결측치를 적절한 값으로 대체 한다. -> 결측치 처리를 다음 분석 단계로 넘긴다..
python - 실습 def fileWrite(): fp = open("test.txt", "w") fp.write("abcdefhg") fp.close() def fileRead(): fp = open("test.txt", "r") rd = fp.read() fp.close() print(rd) fileWrite() fileRead() def fileWrite(): fp = open("test.txt", "w") print(fp.tell()) # 쓰여지는위치 반환 fp.write("abc\n defhg")#\n 개행 print(fp.seek(3)) #쓰여지는 위치 강제 지정 print(fp.tell()) # 쓰여지는위치 반환 fp.write("hello") fp.close() def fileRead(): fp = open(..
python - 함수 print(n , m) 을 출력할떄 기본적으로 n과 m은 스페이스만큼의 간격이 있음 print(n, m , sep=' ') # 기본 print('hello') print('hi') 의 출력은 개행으로 들어가 있음 \n이 생략 된 것 print('hello', end = '\n') # 개행, 스페이스나 다른것으로줄수 있음 def fn4(*args): #가변인자 , 인자의 숫자가 정해여 있지 않다. def fn5(**args) #정의 되지 않은 인자 함수를 호출할때 fn5( name = '홍길동' , age=40) fn5(aa=100,bb=200 , cc=300) 이런식으로 등호의 값을 넣어줘야 함 그르면 값은 딕셔너리 타입으로 변환됨 메모리 구조 LGB규칙 LGB 변수의 규칙 로컬, 글로벌 , 빌트인 de..
python 데이터 타입 변수명은 a-z , A-Z , 0-9 , 한글(3버전) 숫자가 먼저 나오면 안됨 주석은 ctrl + / 파이썬의 모든것은 객체 객체는 속성 + 메소드로 구성 객체.속성 객체.메소드() 복소수 type = complex 허수부 = 객체.ima 실수부 = 객체.real 문자열 데이터 타입 s1="ab\ c" \는 연결문자 다음 문장이랑 이어줌 s3='''ab c''' 문자열을 입력할떄 ''' 3개를 입력하고 다음칸에 문자열을 써도 에러가 나지 않고 다음 열로 넘어감 . s1="ab\ c" s2='abc' s3='''ab c''' s4="""abc""" 문자열 타입은 4개 복합(시퀀스 ) 여러개의 데이터 순서있는 데이터 타입 ( 인덱싱, 슬라이싱 ) s1 = 'abc' print(s1[-1] #c print(..
아 짜증 ... def yoonHa(nums) : str = “” for i in nums : str = str + my_dict[i] return str print(i)
python-9 객체 객체란 무엇인가 객체는 성질과 할수 있는 행동이 담긴 자료 성질은 변수 , 할수 있는 행동은 함수 클래스 인스턴스 클래스는 객체를 만들수 있는 틀 사람이 라면 말이야 .. '이름'있어야 하고 '나이'가 있어야 하고 '사는곳'이 있어야 하고 '취미'가 있어야 하고 성질 밥먹기, 운동하기, 잠자기, 취미활동 하기 를 할줄 알아야 해 행동 class Human: #클래스 생성 필드(Field) 객체가 가지고 있는 성질 = 객체가 가지고 있는 변수 class Human : name = "Bob" age = 10 human 은 두개의 변수를 추가 할때 human은 두가지 성질을 가진다. name , age 매서드 (Method) - 짝꿍이 있는 함수 짝꿍은 객체이다. 객체 안에 들어있는 함수를 매써드 라고 ..
python - 8 모듈 코드의 길이가 길어지는 상황 이떄 모든 함수, 변수를 구현한느것은 불가능 -> 누군가 만들어 놓은 함수, 변수 등을 활용 모듈 특정 목적을 가진 함수, 자료의 모임 모듈 사용방법 모듈 불러오기 import(불러오다) 키워드를 이용해서 모듈 사용 import random #random 모듈불러오기 모듈 사용법 모듈 속 사용하려는 함수/변수의 사용법 확인 random.randrange(start.stop) range중 한가지 원소를 가지고 온다. print(random.randrange(0,2) .(dot)을 쓴 후에 모듈 속 함수/변수 사용 모듈 만들기 우리가 원하는 내용이 담긴 모듈 제작 가능 .py(파이썬)로 만들수 있다. import my_module #cal.py def plus(a,b): c..
python-7 함수 max() 스퀀스 자료의 최댓값 min() 시퀀스 자료의 최솟값 sum() 시퀀스 원소로 이루어진 시퀀스 자료의 합 len() 시퀀스 자료의 길이 사용자 지정 함수 사용자가 여러 코드를 묶어서 새로 만든 함수 define (정의하다)키워드를이용해서 함수 정의 def 함수 이름 ( 매개변수): # 매개 변수 -> 함수 안에서 사용되는 변수 return 반환값 들여쓰기를 통해 명령 작성 왜 return이 필요한가 ? 함수 내부에서 일어난 일은 함수 외부에서 알수 없기 때문에 반환을 통해 외부로 전달! 지역변수와 전역변수를 생각해서 짜야함. 전역변수는 어디서든 사용할수 있는 변수 전역변수는 함수 밖에서 정의된 변수 지역변수는 함수안에서 정의된 변수 method 매서드 특정자료에 대해 특정 기능을 하는 코..
python -6 문자열 / 리스트 활용 리스트.applend() 맨뒤에 덧 붙이는 리스트.remove() 지우는 리스트.sort() 정렬 리스트.insert( , ) 어떤자리에 어떤자료를 삽입할때 list.pop(i) 인덱스 (i)의 원소를 제거 후 그 원소를 반환 (괄호를 비울시 마지막 원소) remove의 특징은(원소) 원소가 들어가지만 pop은 (i) 인덱스 를 입력 my_list = [1,2,3,4,5] print(my_list.pop(0)) #1 print(my_list.pop()) #5 seq.count(d) 시퀀스 내부 자료 d의 개수를 반환 my_seq = [2,2,2,4,4] print(my_seq.count(2)) #3 2라는 자료가 몇개 있는지 ' srt.split(c) c를 기준으로 문자열을 쪼개서..