Index, ReIndex
Series.apply의 인수로 lambda 함수를 사용해서 새로운 Series 를 만들고 데이터프레임에 추가하기
실습링크 : https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb?hl=ko
https://developers.google.com/machine-learning/crash-course/
구글에서는 머신러닝 단기집중과정이라는 온라인 머신러닝 학습시스템을 제공하고 있습니다.
얼마 전에 한국어로 번역이 되었고 한국인 엔지니어가 감수를 했다고 해서 이 과정을 진행해 보니 머신러닝을 배우기에 좋은 콘텐츠라서 이 과정을 소개해 봅니다.
또 이 과정의 번역은 머신러닝 기술을 사용했다고해서 더 의미가 있는데요, 혼자 공부하면 지루하니 같이 이렇게 온라인상으로 나마 공부해 볼까 합니다.
이번 비디오에서는 Index와 ReIndex를 통해 인덱스를 조정해보고 NumPy의 random.permutation 으로 인덱스를 랜덤하게 조정해 봅니다.
색인
Series
와 DataFrame
객체 모두 식별자 값을 각 Series
항목이나 DataFrame
행에 할당하는 index
속성을 정의합니다.
기본적으로 생성 시 Pandas는 소스 데이터의 순서를 나타내는 색인 값을 할당합니다. 생성된 이후 색인 값은 고정됩니다. 즉, 데이터의 순서가 재정렬될 때 변하지 않습니다.
city_names.index
cities.index
DataFrame.reindex
를 호출하여 수동으로 행의 순서를 재정렬합니다. 예를 들어 다음은 도시 이름을 기준으로 분류하는 것과 효과가 같습니다.
cities.reindex([2, 0, 1])
색인 재생성은 DataFrame
을 섞기(임의 설정하기) 위한 좋은 방법입니다. 아래의 예에서는 배열처럼 된 색인을 NumPy의 random.permutation
함수에 전달하여 값을 섞습니다. 이렇게 섞인 배열로 reindex
를 호출하면 DataFrame
행도 같은 방식으로 섞입니다.
다음 셀을 여러 번 실행해 보세요.
cities.reindex(np.random.permutation(cities.index))
자세한 정보는 색인 문서를 참조하세요.