프로그래밍 언어/HTML,CSS,JS

문자열에서 HTML 태그 제거

Rateye 2021. 8. 10. 10:50
728x90
반응형

질문 : 문자열에서 HTML 태그 제거

Java 문자열에서 HTML을 제거하는 좋은 방법이 있습니까? 다음과 같은 간단한 정규식

replaceAll("\\<.*?>", "") 

작동하지만 &amp; 올바르게 변환되지 않고 두 꺾쇠 괄호 사이의 비 HTML이 제거됩니다 (예 : .*? 가 사라짐).

답변

정규식 대신 HTML 파서를 사용하십시오. 이것은 Jsoup으로 매우 간단합니다.

public static String html2text(String html) {
    return Jsoup.parse(html).text();
    }
    

Jsoup은 또한 사용자 정의 가능한 화이트리스트에 대한 HTML 태그 제거 를 지원합니다 <b> , <i><u> 만 허용하려는 경우 매우 유용합니다.

출처 : https://stackoverflow.com/questions/240546/remove-html-tags-from-a-string
728x90
반응형