You are here

tdom을 이용한 html 파싱

admin의 아바타

제 머리에서 나온 팁은 아니구요.
어찌하다 검색해 보니 아래의 예가 있더군요.

출처: http://stackoverflow.com/questions/2919456/parsing-html-pages-from-tcl

package require tdom

set html {<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN">
<html>
  <head>
  </head>
  <body>
    <div id="m">
    </div>
  </body>
</html>}
set doc [ dom parse -html $html ]
set node  [ $doc getElementById m]
puts [$node asList]

결과

div {id m} {}

혹은 set node [ $doc getElementById m] 대신에 아래와 같이 해도 됩니다.

puts [[$doc selectNodes "//*\[@id\]"] asList]

tdom 을 응용하면 html로 파싱할수 있다는것만 알아두셔도 좋을것 같습니다.

포럼: