CSV 파일 읽어오기, 데이터 접근하기

실습링크 : https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb?hl=ko

https://developers.google.com/machine-learning/crash-course/

구글에서는 머신러닝 단기집중과정이라는 온라인 머신러닝 학습시스템을 제공하고 있습니다.
얼마 전에 한국어로 번역이 되었고 한국인 엔지니어가 감수를 했다고 해서 이 과정을 진행해 보니 머신러닝을 배우기에 좋은 콘텐츠라서 이 과정을 소개해 봅니다.

또 이 과정의 번역은 머신러닝 기술을 사용했다고해서 더 의미가 있는데요, 혼자 공부하면 지루하니 같이 이렇게 온라인상으로 나마 공부해 볼까 합니다.

Pandas에 대한 기본 소개로 시리즈와 데이터프레임 객체에 대한 간단한 이해를 할 수 있는 실습을 해보았습니다.

이번 비디오에서는 Pandas CSV 파일 읽어오기, 데이터 접근하기를 실습해 봅니다.

california_housing_dataframe = pd.read_csv("https://storage.googleapis.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

위의 예에서는 DataFrame.describe를 사용하여 DataFrame에 관한 흥미로운 통계를 보여줍니다. 또 다른 유용한 함수는 DataFrame.head로, DataFrame 레코드 중 처음 몇 개만 표시합니다.

california_housing_dataframe.head()

Pandas의 또 다른 강력한 기능은 그래핑입니다. 예를 들어 DataFrame.hist를 사용하면 한 열에서 값의 분포를 빠르게 검토할 수 있습니다.

california_housing_dataframe.hist('housing_median_age')

데이터 액세스

익숙한 Python dict/list 작업을 사용하여 DataFrame 데이터에 액세스할 수 있습니다.

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
print type(cities['City name'])
cities['City name']
print type(cities['City name'][1])
cities['City name'][1]
print type(cities[0:2])
cities[0:2]

또한 Pandas는 고급 색인 생성 및 선택 기능을 위한 풍부한 API를 제공합니다. 이 내용은 너무 광범위하므로 여기에서 다루지 않습니다.

강의에 등록된 질문이 없습니다. 궁금한 부분이 있으면 주저하지 말고 무엇이든 물어보세요.