프로그래밍 언어/Python

파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법

Rateye 2021. 12. 7. 10:19
728x90
반응형
질문 : 파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법은 무엇입니까?

파이썬에 유니 코드 문자열이 있는데 모든 악센트 (분음 부호)를 제거하고 싶습니다.

웹에서이 작업을 수행하는 우아한 방법을 찾았습니다 (Java에서).

pyICU와 같은 라이브러리를 설치해야합니까, 아니면 Python 표준 라이브러리만으로 가능합니까? 그리고 파이썬 3은 어떻습니까?

중요 참고 사항 : 악센트 부호가있는 문자에서 악센트 부호가없는 문자로의 명시 적 매핑을 사용하는 코드를 피하고 싶습니다.

답변

Unidecode 가 이에 대한 정답입니다. 모든 유니 코드 문자열을 ASCII 텍스트에서 가능한 가장 가까운 표현으로 음역합니다.

예:

accented_string = u'Málaga'
# accented_string is of type 'unicode'
import unidecode
unaccented_string = unidecode.unidecode(accented_string)
# unaccented_string contains 'Malaga'and is of type 'str'
출처 : https://stackoverflow.com/questions/517923/what-is-the-best-way-to-remove-accents-normalize-in-a-python-unicode-string
728x90
반응형