클리앙 게시물 크롤링 도구
알림
|
페이지 정보
작성일
2024.03.29 17:57
본문
간단한 크롤링 도구를 만들었습니다
클리앙의 글을 크롤링하여 JSON으로 저장하는 간단한 도구를 만들었습니다
https://github.com/wokim/clien-archiver
별건 없고 url 목록을 전달하면 게시물의 내용과 이미지를 다운로드 받습니다. 추후에 내글 전체 백업 같은 기능을 확장한다던지 export 플러그인을 연동하면 이곳으로 글을 옮겨올 수도 있지 않을까 생각합니다..
이제 필요한 건 PR입니다
클리앙의 글을 크롤링하여 JSON으로 저장하는 간단한 도구를 만들었습니다
https://github.com/wokim/clien-archiver
별건 없고 url 목록을 전달하면 게시물의 내용과 이미지를 다운로드 받습니다. 추후에 내글 전체 백업 같은 기능을 확장한다던지 export 플러그인을 연동하면 이곳으로 글을 옮겨올 수도 있지 않을까 생각합니다..
이제 필요한 건 PR입니다
- 게시물이 없습니다.
댓글 56
/ 1 페이지
오월의장미님의 댓글
아... 글 삭제하고 왔는데요 ㅠ ㅠ 이 글을 이제서야 봤습니다 그리고 너무 좋은 정보입니다 엄지 손가락 눌러 추천드렸습니다
ashly님의 댓글의 댓글
@은퇴한옆집사장님에게 답글
사용법이 궁금합니다.. ㅠㅠ
무슨 창하나 켜졌다 꺼지던데요.... ㅠㅠ
무슨 창하나 켜졌다 꺼지던데요.... ㅠㅠ
달짝지근님의 댓글
대박입니다
저는 똥글만 써대서 딱히 퍼올 이유가 없습니다만 ㅋㅋ
자기글 퍼와서 올려주실분 기대합니다
저는 똥글만 써대서 딱히 퍼올 이유가 없습니다만 ㅋㅋ
자기글 퍼와서 올려주실분 기대합니다
남산깎는노인님의 댓글
무.... 무서웡.... 능력자분들 너무 많으시네요. 클리앙 보면서 얼마나 답답하셨을지...
보딩보딩보딩님의 댓글
벌써 만들어주시다니 정말 대단합니다.
댓글 백업은 안되는걸까요... 양질의 댓글들도 백업이 되어야 합니다. ㅠㅠ
댓글 백업은 안되는걸까요... 양질의 댓글들도 백업이 되어야 합니다. ㅠㅠ
OGUN님의 댓글
올려주신 소스코드 이용해서 클리앙 ID / 패스워드 커맨드 라인에 넣으면
내가 썼던 모든 글 자동으로 크롤링하는 프로그램 만들어 봤습니다.
여기서 조금만 더 발전 시키면 스크랩, 댓글 등도 백업이 가능하나...
제가 이거 테스트하다 클리앙한테 IP차단 당했습니다... ㅠ.ㅠ
로그인을 너무 자주해서 그런지..아니면 크롤링 행위로 간주되면 IP차단을 하는지 모르겠으나....
IP 차단 당해서 테스트를 제대로 못해봤습니다.
node.js로 개발 가능하신 분들 아래 저장소 테스트 및 추가 개발 좀 부탁드립니다!
https://github.com/joshlim0766/backup-clien
내가 썼던 모든 글 자동으로 크롤링하는 프로그램 만들어 봤습니다.
여기서 조금만 더 발전 시키면 스크랩, 댓글 등도 백업이 가능하나...
제가 이거 테스트하다 클리앙한테 IP차단 당했습니다... ㅠ.ㅠ
로그인을 너무 자주해서 그런지..아니면 크롤링 행위로 간주되면 IP차단을 하는지 모르겠으나....
IP 차단 당해서 테스트를 제대로 못해봤습니다.
node.js로 개발 가능하신 분들 아래 저장소 테스트 및 추가 개발 좀 부탁드립니다!
https://github.com/joshlim0766/backup-clien
OGUN님의 댓글의 댓글
@OGUN님에게 답글
오....IP 차단 풀렸습니다..테스트 해봐야겠네요.
카프리썬님의 댓글의 댓글
@OGUN님에게 답글
오오 감사합니다! 사실 CLI로 만든 것도 누군가 로그인하여 글 목록 만들어주는 도구 만들어주십사 의도한거였는데 짱입니다
카프리썬님의 댓글
개발자입니다! 아내랑 마트 다녀와서 늦었습니다 ㅠ
1. 오군님의 도구와 합쳐서 조만간 일반인(?) 도 사용할 수 있는 가이드를 제공해드릴게요. 글 삭제는 조금만 기다려주세요! (가이드 한글로 적을게요 ㅠ 클로드가 만들어준거라 영어였습니다. 죄송)
2. 지금은 게시글과 글 안의 이미지만 크롤링 합니다. 댓글도 중요한데 댓글을 백업해도 게시글 아래 그냥 붙여야 할지 약간 고민이라서요. 어떻게 하는게 좋을까요?
3. 레딧은 API가 있어서 하드디스크에 저장된 글을 레딧으로 옮기는게 비교적 편한데.. 다모앙은 어떻게 해야 할지 고민입니다. 먼저 서버 안정화를 진행하고 개발자분과 방법을 모색해봐야 할 것 같습니다. 자칫하면 인간 DDoS 공격이 되어버리거든요
1. 오군님의 도구와 합쳐서 조만간 일반인(?) 도 사용할 수 있는 가이드를 제공해드릴게요. 글 삭제는 조금만 기다려주세요! (가이드 한글로 적을게요 ㅠ 클로드가 만들어준거라 영어였습니다. 죄송)
2. 지금은 게시글과 글 안의 이미지만 크롤링 합니다. 댓글도 중요한데 댓글을 백업해도 게시글 아래 그냥 붙여야 할지 약간 고민이라서요. 어떻게 하는게 좋을까요?
3. 레딧은 API가 있어서 하드디스크에 저장된 글을 레딧으로 옮기는게 비교적 편한데.. 다모앙은 어떻게 해야 할지 고민입니다. 먼저 서버 안정화를 진행하고 개발자분과 방법을 모색해봐야 할 것 같습니다. 자칫하면 인간 DDoS 공격이 되어버리거든요
OGUN님의 댓글의 댓글
@카프리썬님에게 답글
제가 슬립안주고 마구잡이로 클리앙쪽 접근하다 IP 다시 차단당해서 테스트가 불가합니다...ㅠ.ㅠ
제가 로그인 성공했던 코드 typescript로 바꿔서 PR 올리겠습니다.
제가 로그인 성공했던 코드 typescript로 바꿔서 PR 올리겠습니다.
카프리썬님의 댓글의 댓글
@OGUN님에게 답글
감사합니다 ㅠ 저도 블럭당할까봐 1초 딜레이 넣었는데 후… 무섭습니다 IP차단 당하면 개발을 못해서..
OGUN님의 댓글의 댓글
@카프리썬님에게 답글
로그인, 내가 쓴 글 목록 가져오는 기능 typescript로 바꿔서 PR 올렸습니다.
댓글 같은 경우는 좀 살펴보니까 작성자 ID, 댓글 sequence number, 작성자 닉네임, 내용 이런거 가져오는 건 쉬울 것 같은데 백업 방법은 진짜 잘 모르겠네요... ㅎㅎ
기능 어느 정도 완성되면 electron 같은걸로 간단한 UI 만들어서 붙이고 stand alone으로 동작할 수 있도록 만들면 좋을 것 같은 생각이 듭니다 ㅎㅎ
댓글 같은 경우는 좀 살펴보니까 작성자 ID, 댓글 sequence number, 작성자 닉네임, 내용 이런거 가져오는 건 쉬울 것 같은데 백업 방법은 진짜 잘 모르겠네요... ㅎㅎ
기능 어느 정도 완성되면 electron 같은걸로 간단한 UI 만들어서 붙이고 stand alone으로 동작할 수 있도록 만들면 좋을 것 같은 생각이 듭니다 ㅎㅎ
카프리썬님의 댓글
설거지도 다 했고.. PR보내주신것도 잘 받았습니다! 개발 들어가겠습니다.
1. 내 글, 스크랩 글 등 글 url 목록 생성 기능
2. 댓글 백업 기능
부터 만들겠습니다. 삭제된 글들은 너무 아쉽지만 아직 삭제 전이신 분들은 조금만 기다려주세요!
1. 내 글, 스크랩 글 등 글 url 목록 생성 기능
2. 댓글 백업 기능
부터 만들겠습니다. 삭제된 글들은 너무 아쉽지만 아직 삭제 전이신 분들은 조금만 기다려주세요!
카프리썬님의 댓글
https://github.com/wokim/clien-archiver/releases/tag/v0.0.2
0.0.2 버전 나왔습니다!
- 이제 댓글도 저장합니다. 하지만 댓글에 포함된 이미지는 제외입니다 ㅜ.ㅜ 그리고 댓글의 댓글표시, 또는 내가 단 댓글을 구분하지 않고 그냥 퉁쳐서 저장합니다.... 참고로 댓글이 너무 많으면 다 저장 못해유..
- 외부 CDN 이미지가 포함된 게시글이 백업 안되는 문제를 수정했습니다.
- OGUN 님의 컨트리뷰션 덕분에 로그인하여 내가 작성한 게시물 목록을 가져오는 기능이 들어갔습니다. 넵 이제 이런 명령어로 내가 작성한 게시물을 한방에 저장할 수 있습니다
clien-archiver backup --id <내아이디> --password <패스워드>
크롤링하는거라 여러 예외 상황에 유연하게 대처가 안되어있으니 사용하시면서 문제점은 github에 주세요.
https://github.com/wokim/clien-archiver/issues/2 요렇게 제보 주시면 됩니다!
export 플러그인 기능은 차차 구현할터이니 백업부터!
0.0.2 버전 나왔습니다!
- 이제 댓글도 저장합니다. 하지만 댓글에 포함된 이미지는 제외입니다 ㅜ.ㅜ 그리고 댓글의 댓글표시, 또는 내가 단 댓글을 구분하지 않고 그냥 퉁쳐서 저장합니다.... 참고로 댓글이 너무 많으면 다 저장 못해유..
- 외부 CDN 이미지가 포함된 게시글이 백업 안되는 문제를 수정했습니다.
- OGUN 님의 컨트리뷰션 덕분에 로그인하여 내가 작성한 게시물 목록을 가져오는 기능이 들어갔습니다. 넵 이제 이런 명령어로 내가 작성한 게시물을 한방에 저장할 수 있습니다
clien-archiver backup --id <내아이디> --password <패스워드>
크롤링하는거라 여러 예외 상황에 유연하게 대처가 안되어있으니 사용하시면서 문제점은 github에 주세요.
https://github.com/wokim/clien-archiver/issues/2 요렇게 제보 주시면 됩니다!
export 플러그인 기능은 차차 구현할터이니 백업부터!
ashly님의 댓글의 댓글
@카프리썬님에게 답글
정말 최고이십니다. ㅎㅎ. 저도 공대지만 바이오쪽이라 ㅎㅎ
실직양파님의 댓글의 댓글
@카프리썬님에게 답글
핫.. 이미지 및 댓글까지 받을 수 있게 되면.. 정말 유용한 도구가 될거라 생각합니다.. @.@;
커피농장님의 댓글