코린이 HTML 크롤링 후 XML 파일로 만들기

코린이 HTML 크롤링 후 XML 파일로 만들기

작성일 2021.08.06댓글 1건
    게시물 수정 , 삭제는 로그인 필요

https://www.cftc.gov/dea/options/ag_lof.htm
위 링크에 있는 텍스트를 크롤링하여, XML 파일로 만들고자 합니다.

(목적은 해당 XML 파일을 EXCEL파일에 표와 그래프로 표현하기 위함입니다.)

위 html 링크를 xml로 만들기 위해서는 별도의 프로그래밍을 해야 하는 것으로 알고 있습니다.

우선 html의 링크를 크롤링하여 txt로 받은 후에 이를 xml로 바꾸고자 합니다.

html을 txt로 변경하는 것은 크롤링하는 모듈을 참고하면 될 것으로 보입니다. 
(BeautifulSoup or Sellenium 활용)

다만 txt 파일은 어떻게 xml로 변환할지에 대해서는 어떻게 해야할 지.. 문의드립니다.

참고할만한 문서, 키워드, 링크 어떤 것이든 공유해주시면 감사하겠습니다.



profile_image 익명 작성일 -

XML은 어떻게 보면 단순히 텍스트라고 볼 수 있고 dom tree 구조를 가지고 있으므로 이러한 dom tree 구조를 쉽게 만들 수 있도록 도움을 주는 라이브러리를 활용 할 수는 있고 언어마다 이미 쉽게 찾을 수 있을거라 생각 됩니다.

그러나 변환하는 것에 가장큰 난관은 예시로 보여주신 데이터가 텍스트를 그래픽화 한 데이터로 일종의 머신 리더블한 데이터가 아니라는 점입니다.

얼핏보면 indent로 구분이 가능해 보이지만 merge된 column은 분명 그래픽 적인 요소의 형태를 띄고 있습니다.

따라서 논리적 데이터라고 보기 어려우며 오히려 txt가 아닌 이미지로 접근해서 해석해야 하는게 더 올바른 방법이라 볼 수 있습니다.

그런데 현존하는 인공지능 기술과 OCR 기술의 결합으로 예시로 주신 데이터를 XML이나 HTML table로 변환하는 것은 불가능해 보입니다.

--- 추가 ---

: 콜론과 - 대시 기호 등의 패턴을 분석해서 row 와 column과 colspan, rowspan을 구분하는 알고리즘으로 해석하면 가능 할것 같기는 합니다.

swing에서 xml만들기...

... xml파일을 생성해야하고 그 안에는 아까 입력했던 이름이... com/xml/jaxp/dist/1.1/docs/tutorial/dom/index.html 여기에 보시면 예제코드랑...

XML 의 발전방향과 기대효과는?

... 위해서 XML만들기 시작하였는데 HTML이 인터넷... 다른 파일에 저장되어 태그로 호출할 수 있다. 그... 난 다시 내보내는 작업을 한다고 하자. XML과 적합한...

크롬 북마크 및 비밀번호 저장 불러오기

... 연결한 크롬 브라우저에서 설정-고급 설정-변경옵션-비밀번호 및 폼-비밀번호 관리자-세팅-파일 만들기를 클릭하여 XML 파일로 내보내기를 선택하고 내보낼 파일...

IllegalArgumentException

프로젝트 실행하고 글작성 할때 파일첨부... 저장 id값 활용을 위해 리턴 받음.... // 저장용 이름 만들기 System.out.println(System....