알림
|

클리앙 게시물 크롤링 도구

페이지 정보

작성자 카프리썬 172.♡.214.103
작성일 2024.03.29 17:57
7,420 조회
56 댓글
125 추천
글쓰기

본문

간단한 크롤링 도구를 만들었습니다

클리앙의 글을 크롤링하여 JSON으로 저장하는 간단한 도구를 만들었습니다

https://github.com/wokim/clien-archiver

별건 없고 url 목록을 전달하면 게시물의 내용과 이미지를 다운로드 받습니다. 추후에 내글 전체 백업 같은 기능을 확장한다던지 export 플러그인을 연동하면 이곳으로 글을 옮겨올 수도 있지 않을까 생각합니다..

이제 필요한 건 PR입니다
댓글 56 / 1 페이지

커피농장님의 댓글

작성자 커피농장 (162.♡.118.126)
작성일 03.29 17:58
괴..굉장하십니다 ㄷㄷㄷㄷㄷㄷㄷ

Sunys님의 댓글

작성자 Sunys (172.♡.215.26)
작성일 03.29 17:59
강좌에도 올려주세요! ㅎㅎ

오월의장미님의 댓글

작성자 오월의장미 (172.♡.233.146)
작성일 03.29 18:00
아... 글 삭제하고 왔는데요 ㅠ ㅠ 이 글을 이제서야 봤습니다 그리고 너무 좋은 정보입니다 엄지 손가락 눌러 추천드렸습니다

오월의장미님의 댓글

작성자 오월의장미 (172.♡.233.146)
작성일 03.29 18:01
너무 좋은 정보입니다 최고예요

정신쇠약님의 댓글

작성자 정신쇠약 (172.♡.211.67)
작성일 03.29 18:04
아까 예고글 보았는데요 수고 많으십니다

은퇴한옆집사장님의 댓글

작성자 은퇴한옆집사장 (162.♡.186.221)
작성일 03.29 18:07
급하게 하셨다고 하시는데… 깔끔하게 잘 만드셨네요.  :)

ashly님의 댓글의 댓글

대댓글 작성자 ashly (172.♡.118.103)
작성일 03.29 18:42
@은퇴한옆집사장님에게 답글 사용법이 궁금합니다.. ㅠㅠ
무슨 창하나 켜졌다 꺼지던데요.... ㅠㅠ

달짝지근님의 댓글

작성자 달짝지근 (172.♡.118.185)
작성일 03.29 18:16
대박입니다
저는 똥글만 써대서 딱히 퍼올 이유가 없습니다만 ㅋㅋ
자기글 퍼와서 올려주실분 기대합니다

소망내음님의 댓글

작성자 소망내음 (172.♡.223.26)
작성일 03.29 18:17
어디서 이런 인재들이 출몰하시는지요.
전 삭제해 버려서 의미는 없지만, 감사합니다.

솔밤님의 댓글

작성자 솔밤 (162.♡.187.62)
작성일 03.29 18:26
아.. 좀 더 삭제를 나중에할껄 그랬네요... 다른분께 많은 도움이 될것같아요 감사합니다!

오호라님의 댓글

작성자 오호라 (172.♡.233.120)
작성일 03.29 18:30
아 기다리던 프로그램이 왔군요
작업 돌려도 되는 피시로 가서 해야겠네요

교주님의 댓글

작성자 no_profile 교주 (172.♡.214.228)
작성일 03.29 18:33
굥장허네.

쭈따님의 댓글

작성자 쭈따 (162.♡.186.205)
작성일 03.29 18:34
당장 게시물을 삭제하지는 않더라도 백업한다는 느낌으로 해놔야겠네요.

코카콜라님의 댓글

작성자 코카콜라 (172.♡.34.18)
작성일 03.29 18:34
오오오 바로 올려주셔서 감사해요!!!

Picards님의 댓글

작성자 Picards (162.♡.91.70)
작성일 03.29 18:39
문송한 회원들을 위해서 어떻게 사용하는지도 좀 알려주세요... 굽신굽신

ashly님의 댓글

작성자 ashly (172.♡.118.103)
작성일 03.29 18:40
오~!!! 진짜 기다리던 기능 입니다~!!!
감사합니다.

개발자01님의 댓글

작성자 개발자01 (172.♡.206.186)
작성일 03.29 18:42
따봉 드립니다~!

메이데이님의 댓글

작성자 메이데이 (162.♡.186.207)
작성일 03.29 18:45
다 지웠는데...ㅜㅠ

돌아온칠이님의 댓글

작성자 돌아온칠이 (141.♡.86.182)
작성일 03.29 18:48
사용법좀 알려주시면 감사감사요... ㅜ 문송합니다..

블블님의 댓글

작성자 블블 (141.♡.86.28)
작성일 03.29 19:14
우와... 오늘  하루의 고민을 이렇게 날려주시다니!!

웃는아빠님의 댓글

작성자 웃는아빠 (162.♡.119.217)
작성일 03.29 19:14
역시 실력자분들이 많네요..ㅎㅎ

남산깎는노인님의 댓글

작성자 남산깎는노인 (172.♡.214.228)
작성일 03.29 19:38
무.... 무서웡.... 능력자분들 너무 많으시네요. 클리앙 보면서 얼마나 답답하셨을지...

예민한낙천주의자님의 댓글

작성자 예민한낙천주의자 (162.♡.119.218)
작성일 03.29 19:41
21년의 기록을 어제 삭제했습니다 ㅜㅜ

나노코더님의 댓글의 댓글

대댓글 작성자 나노코더 (172.♡.119.188)
작성일 03.29 20:26
@예민한낙천주의자님에게 답글 아이구.ㅠㅠ

파키케팔로님의 댓글

작성자 파키케팔로 (172.♡.211.56)
작성일 03.29 19:46
감사합니당

깍꿍이당님의 댓글

작성자 깍꿍이당 (162.♡.118.52)
작성일 03.29 19:57
자료 옮길 때 유용할 것 같습니다.
감사합니다!!

오다가다님의 댓글

작성자 no_profile 오다가다 (172.♡.33.10)
작성일 03.29 20:05
와우 멋지십니다!

시골닭님의 댓글

작성자 시골닭 (172.♡.118.196)
작성일 03.29 20:59
클리앙 게시물 크롤링

아이스님의 댓글

작성자 아이스 (172.♡.123.126)
작성일 03.29 21:03
좋은 툴 감사합니다~~

stannum님의 댓글

작성자 stannum (172.♡.63.52)
작성일 03.29 21:03
능력자들이 너무 많은거 아닙니까 ㅎㅎ

보딩보딩보딩님의 댓글

작성자 no_profile 보딩보딩보딩 (172.♡.34.24)
작성일 03.29 21:04
벌써 만들어주시다니 정말 대단합니다.
댓글 백업은 안되는걸까요... 양질의 댓글들도 백업이 되어야 합니다. ㅠㅠ

백장미님의 댓글

작성자 백장미 (172.♡.222.182)
작성일 03.29 21:12
혹시 스크랩한 것들도 가능할까요.

OGUN님의 댓글

작성자 OGUN (172.♡.223.76)
작성일 03.29 21:33
올려주신 소스코드 이용해서 클리앙 ID / 패스워드 커맨드 라인에 넣으면
내가 썼던 모든 글 자동으로 크롤링하는 프로그램 만들어 봤습니다.

여기서 조금만 더 발전 시키면 스크랩, 댓글 등도 백업이 가능하나...
제가 이거 테스트하다 클리앙한테 IP차단 당했습니다... ㅠ.ㅠ
로그인을 너무 자주해서 그런지..아니면 크롤링 행위로 간주되면 IP차단을 하는지 모르겠으나....
IP 차단 당해서 테스트를 제대로 못해봤습니다.

node.js로 개발 가능하신 분들 아래 저장소 테스트 및 추가 개발 좀 부탁드립니다!

https://github.com/joshlim0766/backup-clien

OGUN님의 댓글의 댓글

대댓글 작성자 OGUN (162.♡.118.199)
작성일 03.29 21:34
@OGUN님에게 답글 오....IP 차단 풀렸습니다..테스트 해봐야겠네요.

섬지기님의 댓글의 댓글

대댓글 작성자 섬지기 (162.♡.91.44)
작성일 03.29 22:06
@OGUN님에게 답글 오오 제가 원하던 기능요~ 감사합니다.

카프리썬님의 댓글의 댓글

대댓글 작성자 카프리썬 (162.♡.186.66)
작성일 03.29 22:11
@OGUN님에게 답글 오오 감사합니다! 사실 CLI로 만든 것도 누군가 로그인하여 글 목록 만들어주는 도구 만들어주십사 의도한거였는데 짱입니다

시민님의 댓글

작성자 시민 (162.♡.119.191)
작성일 03.29 21:46
역시 이과생이 짱입니다

시민님의 댓글

작성자 시민 (162.♡.119.191)
작성일 03.29 21:47
감사합니다

카프리썬님의 댓글

작성자 카프리썬 (162.♡.186.149)
작성일 03.29 22:06
개발자입니다! 아내랑 마트 다녀와서 늦었습니다 ㅠ

1. 오군님의 도구와 합쳐서 조만간 일반인(?) 도 사용할 수 있는 가이드를 제공해드릴게요. 글 삭제는 조금만 기다려주세요! (가이드 한글로 적을게요 ㅠ 클로드가 만들어준거라 영어였습니다. 죄송)

2. 지금은 게시글과 글 안의 이미지만 크롤링 합니다. 댓글도 중요한데 댓글을 백업해도 게시글 아래 그냥 붙여야 할지 약간 고민이라서요. 어떻게 하는게 좋을까요?

3. 레딧은 API가 있어서 하드디스크에 저장된 글을 레딧으로 옮기는게 비교적 편한데.. 다모앙은 어떻게 해야 할지 고민입니다. 먼저 서버 안정화를 진행하고 개발자분과 방법을 모색해봐야 할 것 같습니다. 자칫하면 인간 DDoS 공격이 되어버리거든요

OGUN님의 댓글의 댓글

대댓글 작성자 OGUN (172.♡.222.79)
작성일 03.29 22:10
@카프리썬님에게 답글 제가 슬립안주고 마구잡이로 클리앙쪽 접근하다 IP 다시 차단당해서 테스트가 불가합니다...ㅠ.ㅠ
제가 로그인 성공했던 코드 typescript로 바꿔서 PR 올리겠습니다.

카프리썬님의 댓글의 댓글

대댓글 작성자 카프리썬 (162.♡.186.66)
작성일 03.29 22:13
@OGUN님에게 답글 감사합니다 ㅠ 저도 블럭당할까봐 1초 딜레이 넣었는데 후… 무섭습니다 IP차단 당하면 개발을 못해서..

OGUN님의 댓글의 댓글

대댓글 작성자 OGUN (172.♡.123.92)
작성일 03.29 22:45
@카프리썬님에게 답글 로그인, 내가 쓴 글 목록 가져오는 기능 typescript로 바꿔서 PR 올렸습니다.
댓글 같은 경우는 좀 살펴보니까 작성자 ID, 댓글 sequence number, 작성자 닉네임, 내용 이런거 가져오는 건 쉬울 것 같은데 백업 방법은 진짜 잘 모르겠네요... ㅎㅎ

기능 어느 정도 완성되면 electron 같은걸로 간단한 UI 만들어서 붙이고 stand alone으로 동작할 수 있도록 만들면 좋을 것 같은 생각이 듭니다 ㅎㅎ

카프리썬님의 댓글의 댓글

대댓글 작성자 카프리썬 (162.♡.186.110)
작성일 03.30 04:38
@OGUN님에게 답글 완전 짱이었습니다.

섬지기님의 댓글의 댓글

대댓글 작성자 섬지기 (172.♡.34.23)
작성일 03.29 22:46
@카프리썬님에게 답글 일반인 가이드 대기하고 응원하겠습니다. 감사합니다!

오호라님의 댓글의 댓글

대댓글 작성자 오호라 (172.♡.223.26)
작성일 03.30 12:55
@카프리썬님에게 답글 기다리고 있습니다
감사합니다

rince님의 댓글

작성자 rince (162.♡.186.66)
작성일 03.29 22:38
멋진 도구네요

카프리썬님의 댓글

작성자 카프리썬 (172.♡.214.250)
작성일 03.29 23:01
설거지도 다 했고.. PR보내주신것도 잘 받았습니다! 개발 들어가겠습니다.

1. 내 글, 스크랩 글 등 글 url 목록 생성 기능
2. 댓글 백업 기능

부터 만들겠습니다. 삭제된 글들은 너무 아쉽지만 아직 삭제 전이신 분들은 조금만 기다려주세요!

땅바다님의 댓글

작성자 no_profile 땅바다 (172.♡.222.214)
작성일 03.29 23:11
이럴 줄 알았으면 며칠 기다렸다 지울껄요

캔모아다모앙님의 댓글

작성자 캔모아다모앙 (172.♡.210.98)
작성일 03.29 23:56
크롤링!

뼝뼝이님의 댓글

작성자 뼝뼝이 (172.♡.223.36)
작성일 03.30 01:50
저도 현직 이지만 게을러서...
이런 부지런한 분들 보면 정말 멋지십니다.

카프리썬님의 댓글

작성자 카프리썬 (162.♡.186.110)
작성일 03.30 04:37
https://github.com/wokim/clien-archiver/releases/tag/v0.0.2


0.0.2 버전 나왔습니다!

- 이제 댓글도 저장합니다. 하지만 댓글에 포함된 이미지는 제외입니다 ㅜ.ㅜ 그리고 댓글의 댓글표시, 또는 내가 단 댓글을 구분하지 않고 그냥 퉁쳐서 저장합니다.... 참고로 댓글이 너무 많으면 다 저장 못해유..
- 외부 CDN 이미지가 포함된 게시글이 백업 안되는 문제를 수정했습니다.
- OGUN 님의 컨트리뷰션 덕분에 로그인하여 내가 작성한 게시물 목록을 가져오는 기능이 들어갔습니다. 넵 이제 이런 명령어로 내가 작성한 게시물을 한방에 저장할 수 있습니다

clien-archiver backup --id <내아이디> --password <패스워드>

크롤링하는거라 여러 예외 상황에 유연하게 대처가 안되어있으니 사용하시면서 문제점은 github에 주세요.
https://github.com/wokim/clien-archiver/issues/2 요렇게 제보 주시면 됩니다!

export 플러그인 기능은 차차 구현할터이니 백업부터!

ashly님의 댓글의 댓글

대댓글 작성자 ashly (172.♡.123.74)
작성일 03.30 10:26
@카프리썬님에게 답글 정말 최고이십니다. ㅎㅎ. 저도 공대지만 바이오쪽이라 ㅎㅎ

큐리스님의 댓글의 댓글

대댓글 작성자 큐리스 (172.♡.222.174)
작성일 03.30 10:29
@카프리썬님에게 답글 테스트해봤는데 너무 잘 동작하네요. 감사합니다.

실직양파님의 댓글의 댓글

대댓글 작성자 no_profile 실직양파 (162.♡.186.149)
작성일 03.30 11:35
@카프리썬님에게 답글 핫.. 이미지 및 댓글까지 받을 수 있게 되면.. 정말 유용한 도구가 될거라 생각합니다.. @.@;

찰스님의 댓글

작성자 찰스 (162.♡.90.165)
작성일 03.30 14:28
코... 코딩을 배워야 하나요...

ㅠㅜ

호박님의 댓글

작성자 no_profile 호박 (162.♡.186.99)
작성일 03.31 02:20
감사합니다
글쓰기
전체 검색