본문 바로가기

IT/java

문자 인코딩에 관한 애기 인코딩에 관한 애기를 하고자한다. 1. 인코딩이란 무엇인가? 컴퓨터가 알고있는 문자는 0,1 이 두가지 밖에 없다. 그런데 사람이 쓰는 문자는 영어, 한글, 일본어 등... 엄청 많다. 그러면 사람이 쓰는 문자를 컴퓨터가 알아먹게 하기위해서 0, 1로 바꿔줘야된다. 그 바꿔주는 규칙을 정의해놓은것이 바로 인코딩이다. 인코딩중에 대표적인게 ascii 코드다. ascii 코드는 http://www.asciitable.com/ 여기서 확인가능하다. 그런데 이 ascii 코드는 1Byte로 구성되어 있다. 1Byte로는 각국의 언어를 다 담을수 없어서 2Byte짜리 Unicode를 만들어 냈다. 어..그런데 ascii로도 한글이 표현이 가능한데? 물론 가능하다.. 그렇지만 다른 나라에서는 호환되게 사용할수가 없.. 더보기
자바 정규표현식 정규표현식에 관한 애기를 해보고자 한다. 정규표현식의 전반적인 내용에 관해서는 자바 튜토리얼(http://java.sun.com/docs/books/tutorial/essential/regex/index.html) 을 참고하시길.. 여기서는 몇일동안 안 풀렸던 문제에 대해서 이야기 하고자 한다. 문제는 html 문서에서 ) 이다. 이 정규표현식을 사용할 경우 ... 가운데 있는 table 태그까지 삭제 되게 된다.. 정확한 개념은 추후에 더 문서를 알아바야 겠지만.. greedy와 관련된것 같다.. 간단한 예를 들어 보면 주어진 스트링이 fooooo 이고 정규 표현식이.. ".o*"일 경우 일치하는 패턴은 f 다음의 o 가 아니고 oooo 이 일치하게 된다. 이는 정규표현식이 패턴을 찾을 때 최대로 일치.. 더보기