본문 바로가기

Algorithm/Programmers

[Programmers] 완주하지 못한 선수 python (Hash)

반응형

문제

문제 설명

수많은 마라톤 선수들이 마라톤에 참여하였습니다. 단 한 명의 선수를 제외하고는 모든 선수가 마라톤을 완주하였습니다.

마라톤에 참여한 선수들의 이름이 담긴 배열 participant와 완주한 선수들의 이름이 담긴 배열 completion이 주어질 때, 완주하지 못한 선수의 이름을 return 하도록 solution 함수를 작성해주세요.

제한 사항

  • 마라톤 경기에 참여한 선수의 수는 1명 이상 100,000명 이하입니다.
  • completion의 길이는 participant의 길이보다 1 작습니다.
  • 참가자의 이름은 1개 이상 20개 이하의 알파벳 소문자로 이루어져 있습니다.
  • 참가자 중에는 동명이인이 있을 수 있습니다.

입출력 예

입출력 예 설명

예제 #1
"leo"는 참여자 명단에는 있지만, 완주자 명단에는 없기 때문에 완주하지 못했습니다.

예제 #2
"vinko"는 참여자 명단에는 있지만, 완주자 명단에는 없기 때문에 완주하지 못했습니다.

예제 #3
"mislav"는 참여자 명단에는 두 명이 있지만, 완주자 명단에는 한 명밖에 없기 때문에 한명은 완주하지 못했습니다.

 

문제 해설

문제 분석

  •  이 문제의 크기는 몇명이 마라톤 경기에 참여했는지에 따라 결정된다.
  •  최대 10만명이기 때문에 n이나 nlogn에 비례하는 정도의 알고리즘을 착안하는게 좋을 것 같다.
  •  동명이인이 있을 수 있으므로 이 경우를 처리하는게 문제가 될 수 있음 !

 

자료구조 선택

 이름이 주어지면 몇 번이나 배열에 등장했는지 데이터를 저장할 수 있는 구조가 필요함.

 

 따라서  '해시'를 쓸 수 있다 ! 

 

적용할 알고리즘에 따라서 적합한 자료구조가 정해지고. 적합한 자료구조에 따라 적용할 알고리즘이 정해진다.

 

만약 이름 대신 번호가 주어졌다면???
-> 선형 배열 (linear array)
: 인덱스를 이용할 수 있기 때문에 최대 크기를 10만을 가지는 배열에 데이터 저장이 가능하다 ! 1번 선수가 완주를 했는지..2번 선수가 완주를 했는지 저장 가능하다.

하지만, 이 경우엔 배열에 저장을 할 수 없다!
가능한 모든 이름의 조합의 수를 저장한다면..영문 알파벳이 26개이고, 20개 까지 가능하므로 약 26^20만큼의 배열을 잡아야 이름이 주어지면 몇번째 배열에 있는지 찾아가는 형태가 된다.

그렇다면....
번호 말고 다른 것(ex.문자열)로 접근 할 수 있는 자료구조가 없을까?
 -> 해시(Hash)
 사람들의 이름을 키로 하고, 해시테이블이라는 저장공간에 키들이 어느 위치에 있는지 저장하는 구조를 사용하자! 인덱스 대신 원소를 찾아갈 수 있다 !

 

- hash function : 항상 모든 키가 다른 칸에 들어 갈 수 있도록 보장 할 수는 없지만 되도록 다른 칸에 들어갈 수 있도록 한다.

 

만약 충돌이 난다면 다음과 같이 hash함수를 구현하여 해결할 수 있다.. 하지만 이 문제에선 상관없는 내용이므로 자세히 다룰 필요는 없다.

 

문제풀이 분석

 

위와 같은 예시가 있을 때..participant배열을 사용하여 각 이름에 대하여 등장한 숫자가 대응될 수 있도록 해시 테이블을 구성한 후 

 

competition 배열을 사용하여 각 선수들이 완주했는지 확인한 후 이름에 대응되는 숫자의 값을 갱신한다.

 

이때 0이 아니니 값을 갖는 이름이 완주하지 못한 선수의 이름이 된다.

 

풀이

파이썬의 dictionary는 내부적으로 해시를 이용해 구현되기 때문에

사전의 원소들을 해시를 이용해 O(1) 시간에 접근이 가능하다.

 

def solution(participant, completion):
    d = {}
    for x in participant:
    	d[x] = d.get(x, 0) + 1
    for x in completion:
    	d[x] -= 1
    dnf = [k for k, v in d.items() if v > 0]
    answer = dnf[0]
    return answer

 

시간 복잡도 분석

순환문이 두개 들어있음..첫 번째 순환문을 보면

 

 

해당 문자열을 키로 해서 사전에 접근하고, 사전에 있는 값을 업데이트 한 후 저장하는 코드이다. 사전이 해시테이블로 구현되어있기 때문에 이 각각은 상수시간에 이루어질 수 있다.

따라서 복잡도는 participant라는 배열의 길이에 비례한다.

 

 

마찬가지로 이 순환문도 completion이라는 배열의 길이에 비례한다.

 

두 순환문 모두 n에 비례하는 복잡도를 가진다.

 

 

이 리스트 컴프리헨션도 사전에 있는 모든 원소를 꺼내기때문에 사전의 크기에 비례하는 복잡도를 가진다.

 

즉, 함수 전체의 시간 복잡도는

인자로 주어진 participant의 길이가 n 일 때,

n에 비례하는 선형 시간 복잡도(linear time complexity) O(n)을 가진다 !

 

다른 풀이 

def solution(participant, completion):
    participant.sort()
    completion.sort()
    for i in range(len(completion)):
        if participant[i] != completion[i]:
            return participant[i]
    return participant[len(participant) - 1]

 

정렬을 사용할 경우 테스트는 통과하지만..

O(NlogN)의 시간 복잡도를 가진다. 따라서 해시를 사용하는 것이 좀 더 효율적이라고 할 수 있다 ! 

반응형

'Algorithm > Programmers' 카테고리의 다른 글

[Programmers] 가장 큰 수 python (정렬)  (0) 2022.02.22
[Programmers] 체육복 python (Greedy)  (0) 2022.02.22