Index, ReIndex

Series.apply의 인수로 lambda 함수를 사용해서 새로운 Series 를 만들고 데이터프레임에 추가하기

실습링크 : https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb?hl=ko

https://developers.google.com/machine-learning/crash-course/

구글에서는 머신러닝 단기집중과정이라는 온라인 머신러닝 학습시스템을 제공하고 있습니다.
얼마 전에 한국어로 번역이 되었고 한국인 엔지니어가 감수를 했다고 해서 이 과정을 진행해 보니 머신러닝을 배우기에 좋은 콘텐츠라서 이 과정을 소개해 봅니다.

또 이 과정의 번역은 머신러닝 기술을 사용했다고해서 더 의미가 있는데요, 혼자 공부하면 지루하니 같이 이렇게 온라인상으로 나마 공부해 볼까 합니다.

이번 비디오에서는 Index와 ReIndex를 통해 인덱스를 조정해보고 NumPy의 random.permutation 으로 인덱스를 랜덤하게 조정해 봅니다.

색인

SeriesDataFrame 객체 모두 식별자 값을 각 Series 항목이나 DataFrame 행에 할당하는 index 속성을 정의합니다.

기본적으로 생성 시 Pandas는 소스 데이터의 순서를 나타내는 색인 값을 할당합니다. 생성된 이후 색인 값은 고정됩니다. 즉, 데이터의 순서가 재정렬될 때 변하지 않습니다.

city_names.index
cities.index

DataFrame.reindex를 호출하여 수동으로 행의 순서를 재정렬합니다. 예를 들어 다음은 도시 이름을 기준으로 분류하는 것과 효과가 같습니다.

cities.reindex([2, 0, 1])

색인 재생성은 DataFrame을 섞기(임의 설정하기) 위한 좋은 방법입니다. 아래의 예에서는 배열처럼 된 색인을 NumPy의 random.permutation 함수에 전달하여 값을 섞습니다. 이렇게 섞인 배열로 reindex를 호출하면 DataFrame 행도 같은 방식으로 섞입니다.
다음 셀을 여러 번 실행해 보세요.

cities.reindex(np.random.permutation(cities.index))

자세한 정보는 색인 문서를 참조하세요.

강의에 등록된 질문이 없습니다. 궁금한 부분이 있으면 주저하지 말고 무엇이든 물어보세요.