파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법

프로그래밍 언어/Python

파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법

Rateye 2021. 12. 7. 10:19

728x90

질문 : 파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법은 무엇입니까?

파이썬에 유니 코드 문자열이 있는데 모든 악센트 (분음 부호)를 제거하고 싶습니다.

웹에서이 작업을 수행하는 우아한 방법을 찾았습니다 (Java에서).

pyICU와 같은 라이브러리를 설치해야합니까, 아니면 Python 표준 라이브러리만으로 가능합니까? 그리고 파이썬 3은 어떻습니까?

중요 참고 사항 : 악센트 부호가있는 문자에서 악센트 부호가없는 문자로의 명시 적 매핑을 사용하는 코드를 피하고 싶습니다.

답변

Unidecode 가 이에 대한 정답입니다. 모든 유니 코드 문자열을 ASCII 텍스트에서 가능한 가장 가까운 표현으로 음역합니다.

예:

accented_string = u'Málaga'
# accented_string is of type 'unicode'
import unidecode
unaccented_string = unidecode.unidecode(accented_string)
# unaccented_string contains 'Malaga'and is of type 'str'

출처 : https://stackoverflow.com/questions/517923/what-is-the-best-way-to-remove-accents-normalize-in-a-python-unicode-string

728x90

'프로그래밍 언어 > Python' 카테고리의 다른 글

Python으로 새 딕셔너리 만들기 (0)	2021.12.08
파이썬 모듈의 버전을 확인하는 방법 (0)	2021.12.08
파이썬에서 큰 파일의 줄 수를 간단하게 얻는 방법 (0)	2021.12.07
파이썬에서 '//' 연산자 (0)	2021.12.07
파이썬에서 'Enum'을 표현하는 방법 (0)	2021.12.07

현재글파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법

250x250

코딩하다 현타올 때마다 작성하러 오는 블로그

jQuery, String, C#, php, Database, version-control, js, c++, Python, JavaScript, HTML, java, Arrays, node.js, git, Linux, json, CSS, Android, github,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

코딩하다 현타올 때