728x90
반응형

Unicode 6

파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법

질문 : 파이썬 유니 코드 문자열에서 악센트를 제거 (정규화)하는 가장 좋은 방법은 무엇입니까? 파이썬에 유니 코드 문자열이 있는데 모든 악센트 (분음 부호)를 제거하고 싶습니다. 웹에서이 작업을 수행하는 우아한 방법을 찾았습니다 (Java에서). pyICU와 같은 라이브러리를 설치해야합니까, 아니면 Python 표준 라이브러리만으로 가능합니까? 그리고 파이썬 3은 어떻습니까? 중요 참고 사항 : 악센트 부호가있는 문자에서 악센트 부호가없는 문자로의 명시 적 매핑을 사용하는 코드를 피하고 싶습니다. 답변 Unidecode 가 이에 대한 정답입니다. 모든 유니 코드 문자열을 ASCII 텍스트에서 가능한 가장 가까운 표현으로 음역합니다. 예: accented_string = u'Málaga' # accent..

Python으로 Pandas에서 CSV 파일을 읽을 때 UnicodeDecodeError

질문 : Python으로 Pandas에서 CSV 파일을 읽을 때 UnicodeDecodeError 30,000 개의 유사한 파일을 처리하는 프로그램을 실행하고 있습니다. 임의의 숫자가 중지되고이 오류가 발생합니다. File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\pars..

유니 코드 문자열을 Python의 문자열로 변환 (추가 기호 포함)

질문 : 유니 코드 문자열을 Python의 문자열로 변환 (추가 기호 포함) 유니 코드 문자열 (£ $ 등과 같은 추가 문자 포함)을 Python 문자열로 어떻게 변환합니까? 답변 unicodedata.normalize 참조하십시오. title = u"Klüft skräms inför på fédéral électoral große" import unicodedata unicodedata.normalize('NFKD', title).encode('ascii', 'ignore') 'Kluft skrams infor pa federal electoral groe' 출처 : https://stackoverflow.com/questions/1207457/convert-a-unicode-string-to-a-st..

json.dumps가있는 utf-8 텍스트를 \u 이스케이프 시퀀스가 아닌 UTF8로 저장하는 방법

질문 : json.dumps가있는 utf-8 텍스트를 \ u 이스케이프 시퀀스가 아닌 UTF8로 저장 샘플 코드 : >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print(json_string) "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" 문제는 사람이 읽을 수 없다는 것입니다. 내 (스마트 한) 사용자는 JSON 덤프로 텍스트 파일을 확인하거나 편집하기를 원합니다 (그리고 XML을 사용하지 않을 것입니다). 객체를 UTF-8 JSON 문자열로 직렬화하는 방법이 있습니까 ( \uXXXX 답변 ensure_ascii=False 스위치를 json.dumps() 로 사용하고 값을 수동으로 UTF-8로 인코딩합..

MySQL 데이터베이스 / 테이블 / 열이 어떤 문자 집합인지 확인하는 방법

질문 : MySQL 데이터베이스 / 테이블 / 열이 어떤 문자 집합인지 어떻게 알 수 있습니까? 다음에 대한 (기본값) 문자 세트는 무엇입니까? MySQL 데이터베이스 MySQL 테이블 MySQL 열 답변 방법은 다음과 같습니다. 스키마 (또는 데이터베이스-동의어)의 경우 : SELECT default_character_set_name FROM information_schema.SCHEMATA WHERE schema_name = "schemaname"; 테이블의 경우 : SELECT CCSA.character_set_name FROM information_schema.`TABLES` T, information_schema.`COLLATION_CHARACTER_SET_APPLICABILITY` CCSA W..

HTML로 표시하기 위해 위쪽 / 아래쪽 삼각형 (줄기없는 화살표)에 사용할 수있는 문자

질문 : HTML로 표시하기 위해 위쪽 / 아래쪽 삼각형 (줄기없는 화살표)에 사용할 수있는 문자는 무엇입니까?토글 스위치로 사용할 수 있도록 위 또는 아래를 가리키는 삼각형 인 HTML 또는 ASCII 문자를 찾고 있습니다.나는 ↑ ( ↑ uarr;) 및 ↓ ( ↓ )를 찾았지만 줄기가 좁습니다. HTML 화살표 "머리"를 찾고 있습니다.답변유니 코드 화살표 머리 :▲-U + 25B2 검은 색 위쪽을 가리키는 삼각형▼-U + 25BC 검은 색 아래쪽을 가리키는 삼각형▴-U + 25B4 작은 검은 색 위쪽을 가리키는 삼각형▾-U + 25BE 작은 검은 색 아래쪽을 가리키는 삼각형▲ 및 ▼의 경우 ▲ 및 ▼ 유니 코드 문자를 직접 포함 할 수없는 경우 (UTF-8 사용!)작은 버전에 대한 글꼴 지원은 그다..

728x90
반응형