김채형 (Chaehyeong Kim)

김채형 (Chaehyeong Kim)

Archive

[데이터 전처리] 데이터프레임 내 중복 데이터 제거하기

January 23, 2021

이 글은 판다스의 데이터프레임 내 중복 데이터를 확인하고 제거하는 방법에 관한 기록입니다.

주요 메소드

df.duplicated() : 중복 데이터 확인
df.drop_duplicates() : 중복 데이터 제거

중복 데이터 확인하기 : `df.duplicated()`

df.duplicated(subset=['COLUMN1', 'COLUMN2', ...], keep={‘first’, ‘last’, False}) : 중복 행을 나타내는 불리언 Series 반환
- subset=['COLUMN1', 'COLUMN2', ...] : COLUMN1, COLUMN2, …를 기준으로 중복 행을 확인
- keep={‘first’, ‘last’, False} : 어떤 중복을 표시할 것인지를 결정
  - keep=first : 처음에 발생한 중복을 제외한 나머지 중복을 True로 표시 (default)
  - keep=last : 마지막에 발생한 중복을 제외한 나머지 중복을 False로 표시
  - keep=False : 모든 중복을 True로 표시

중복 데이터 제거하기 : `df.drop_duplicates()`

df.drop_duplicates(subset=['COLUMN1', 'COLUMN2', ...], keep={'first', 'last', False}, inplace={True, False}) : 중복 행이 제거된 데이터프레임 반환
- subset=['COLUMN1', 'COLUMN2', ...] : COLUMN1, COLUMN2, …을 기준으로 중복 행을 확인
- keep={‘first’, ‘last’, False}, default ‘first’ : 어떤 중복을 남길 것인지를 결정
  - keep=first : 처음에 발생한 중복을 제외하고 중복 제거 (default)
  - keep=last : 마지막에 발생한 중복을 제외하고 중복 제거
  - keep=False : 모든 중복을 제거

참고자료

pandas documentation
pandas documentation

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

[NLP] 허깅페이스 (HuggingFace) 텍스트 생성 (Text Generation) 방법

February 9, 2023

이 글은 HuggingFace 내 transformers 라이브러리를 활용하여 텍스트를 생성하는 방법에 관한 기록입니다.

[macOS] Homebrew를 이용하여 Anaconda 설치

November 12, 2021

이 글은 macOS에서 Homebrew를 이용하여 Anaconda를 설치하는 방법에 관한 기록입니다.

[macOS] 깃허브 블로그를 위한 Homebrew 및 Ruby 설치

November 11, 2021

이 글은 깃허브 블로그를 만들고자 Homebrew와 Ruby를 설치하는 방법에 관하여 정리한 기록입니다.

[macOS] CUDA를 사용하도록 PyTorch 설치

November 5, 2021

이 글은 macOS에서 CUDA를 사용할 수 있도록 PyTorch를 설치하는 방법에 관한 기록입니다.