반응형 전체 글592 [Dacon] 악성 URL 분류 AI 경진 대회 (3) - Code 악성 URL 분류 AI 경진 대회 - 최종 코드 이번 글은 악성 URL 분류 AI 경진 대회의 최종 코드를 살펴보도록 하겠습니다. 지난 EDA를 통해서 URL로부터 특징을 추출하거나 URL을 BERT를 사용하여 처리하는 과정을 거쳤습니다. 그럼 이에 대하여 최종 코드를 살펴보도록 하겠습니다. 코드의 내용은 아래와 같습니다. 1. Data Load2. 길이 기반 특징 추출3. 개수 기반 특징 추출4. 존재 여부 특징 추출5. 기타 특징 추출6. Embedding with BERT7. Hold out & Scale8. LGBM Classifier 데이콘 링크 : https://dacon.io/competitions/official/236451/overview/description 악성 URL 분류 AI 경.. 2025. 3. 31. [Dacon] 악성 URL 분류 AI 경진대회 (2) - EDA 악성 URL 분류 AI 경진대회 - EDA 이번글은 악성 URL 분류 대회에서 수행했던 탐색적 데이터 분석(EDA)에 대한 글입니다. 이번 대회를 통해서 URL에 대해서 알아보며, 기본적으로 URL을 분류하기 위해 URL의 구성 그리고 URL 데이로부터 어떤 전처리 방법을 사용하는 지에 대해서 Kaggle, 논문을 통해서 여러 가지 방법들을 알 수 있었던 시간이었습니다. 그럼 오늘 EDA 과정을 살펴보도록 하겠습니다. 내용 요약1. 데이터 확인- URL 구조2. 데이터 추출 기법3. 기타 기법 Dacon 악성 URL 분류 AI 경진대회 링크 : https://dacon.io/competitions/official/236451/overview/description 악성 URL 분류 AI 경진대회 - .. 2025. 3. 31. [Dacon] 악성 URL 분류 AI 경진대회 (1) Dacon - 악성 URL 분류 AI 경진대회 이번 글은 Dacon에서 개최된 '악성 URL 분류 AI 경진대회'에 대한 참가 및 후기 글입니다. 이번 대회도 점수를 올려보려고 다양한 기법들을 공부해보고 적용해보는 시간을 가졌습니다. URL의 구조부터 시작해서 URL로부터 개수, 존재, 길이 그리고 기타 기반의 특징을 추출하여 컬럼을 만들고 BERT 기법을 이용하여 임베딩 하는 방법까지 참 이번에도 나름 치열했던 것 같습니다. 비록 높은 등수를 받지는 못했지만 나름대로 뿌듯하게 보냈던 대회였던 것 같습니다. 주제 : 악성 URL 분류 AI 알고리즘 개발주관 : Dacon대회 일정 : 2025.02.03 ~ 2025.03.31대회 링크 : https://dacon.io/competitions/off.. 2025. 3. 31. [Dacon] 채무 불이행 여부 예측 해커톤 (3) - Code 채무 불이행 여부 예측 해커톤 - 최종 코드 이번에는 채무 불이행 여부 EDA에 이어서 최종 코드를 살펴보도록 하겠습니다. 지난 EDA를 통해서 데이터 왜도 보정, 파생변수 등을 하였는 데, 이를 바탕으로 제가 작성한 최종적인 코드에 대해서 설명하겠습니다. 전반적인 과정은 아래를 먼저 참고해주시면 될 것 같습니다. * 최종 코드 주요 내용1. Data Load2. EDA3. Add to New Columns4. 왜도 보정5. Label Encoding6. Correlation Value Check7. Colunms Drop8. Data Scaling & Hold out9. LGBM + CAT BOOST Ensemble 데이콘 링크 : https://dacon.io/competitions/offici.. 2025. 3. 31. [Dacon] 채무 불이행 여부 예측 해커톤 (2) - EDA 채무 불이행 여부 예측 해커톤 - EDA 이번 글은 채무 불이행 여부 예측 해커톤에서 수행했던 탐색적 데이터 분석(EDA)에 대한 글입니다. 대회를 수행하면서 EDA는 데이터는 어떤 데이터이며, 컬럼은 무엇이고 성능을 끌어올리기 위해 어떤 것들을 해야될지 고민하고 분석하는 과정이라고 할 수 있을 것 같습니다. 그럼 제가 대회를 통해서 어떤 것을 고민했는 지 살펴보도록 하겠습니다. 내용 요약1. 데이터 확인2. 데이터 정보 확인- 정보- 결측치3. 그래프 & 이상치- 기본 그래프 확인- 기준에 따른 그래프 확인- '왜도' 보정- 상관 그래프 확인4. 컬럼 Drop5. 파생 변수 추출하기 Dacon 채무 불이행 여부 대회 링크: https://dacon.io/competitions/official/2.. 2025. 3. 31. [Dacon] 채무 불이행 여부 예측 해커톤 (1) - 후기 Dacon - 채무 불이행 여부 예측 해커톤 이번 글은 Dacon에서 주관한 '채무 불이행 여부 예측 해커톤 : 불이행의 징후를 찾아라!'에 대한 참가 및 후기 글입니다. 지난 2월에 데이콘에서 난독화 복원과 부동산 허위매물 분류에서는 높은 성적은 거두지 못했지만, 그래도 좋은 경험을 했다고 생각하고 새로운 도전을 시도했었습니다. 그 중에 하나가 바로 채무 불이행 여부 예측 해커톤이었습니다. 주제 : 채무 불이행 여부 예측 AI 알고리즘 개발주관 : 데이콘대회 일정 : 2025.02.03 ~ 2025.03.31대회 링크 : https://dacon.io/competitions/official/236450/overview/description 채무 불이행 여부 예측 해커톤: 불이행의 징후를 찾아라! .. 2025. 3. 31. 2025. 03. 29. 취준 기록 2025년 3월 29일 취업 기록입니다. 날씨가 좋았다가 추워졌다가 반복되고 여전히 할 일이 많은 하루들의 연속이었습니다. ■ 3월 17일 한 주의 시작은 언제나, Dacon 대회입니다. 원래 하루의 시작은 제 블로그부터 확인하는 것이었는 데, 데이콘 대회를 시작한 뒤로 가장 먼저 대회 순위를 확인하는 것이 습관이 되었습니다. 이전에 전기차 가격 예측 대회 3등 이후로 제게는 큰 성적을 보이고 있지 않습니다. 이 과정에서 그러면 안되지만, 높은 순위에 있는 분들을 보면서 질투를 느끼거나, 의심을 하게 됩니다. 노력하고 있지만 닿을 수 없는 곳으로 달려가는 기분입니다. 그리고 제게 간절히 원하는 자리는 이미 누군가가 차지하고 있다는 것에 참 많은 화를 느끼게 됩니다. 저는 개인적으로 경쟁을 좋아하는 .. 2025. 3. 29. [기업 지원 후기] 2025년 상반기 한국전력공사 NCS 후기 2025년 상반기 한국전력공사 필기 후기 2025년 3월 29일 (토), 오늘은 한국전력공사 필기 후기가 있었습니다. 오전 9시 50분까지는 입실 시간이었기 때문에 미리 일찍 일어나서 이전에 작성해두었던 정보통신기사 요약도 좀 보면서 시험을 보러 간 것 같습니다. 시험 정보입실 시간 : 09시 50분까지 (이후 시험 안내 시작)시험 시간1 교시 : 10시 30분 ~ 11시 40분 (70분)휴식 시간 : 20분2 교시 : 12시 00분 ~ 13시 00분 (검사 50분, 준비 10분)준비물 : 수험표, 신분증, 검정펜, 수정 테이프 (컴퓨터용 사인펜은 지급) 응시자 입실 완료 시간인 09시 50분이 되면 시험에 대한 안내가 시작됩니다. 이후 시험이 시작되는 1 교시에는 직무능력검사가 70분 동안 진행.. 2025. 3. 29. [기업 지원 후기] 2025년 상반기 IBK 서류 통과 후기 2025년 상반기 IBK (디지털) 서류 통과 후기 이번 글은 2025년 상반기 중소기업은행(IBK) 서류 통과 후기입니다. 오늘 오후 4시에는 SQLD에 대한 발표가 있었는 데, 사전 발표 결과 떨어져서 엄청 화가 나 있는 상태였습니다. 그래서 IBK 발표 시간이 다가올 때 쯤에 IBK도 떨어지면 어떻게 해야되나... 라고 불안해하고 있었습니다. 합격자 발표에 대한 문자가 온 뒤에 덜덜 거리는 마음으로 확인해본 결과 다행히도 아래와 같이 서류 통과에 대한 소식을 접할 수 있었습니다. 다른 곳은 참 덤덤하게 받아들이는 편인데... 유독 IBK 때에는 엄청 떨리는 것 같습니다. 이제 서류 합격 이후에는 4월 12일 (토)에는 NCS 필기 시험 일정이 있습니다. 지난 번 하반기 때에는 정말 약간의 .. 2025. 3. 28. [Dacon] 건설공사 사고 예방 및 대응책 생성 경진 대회 (2) - Code 건설공사 사고 예방 및 대응책 생성 - Code 안녕하세요. 이번 글은 건설공사 사고 예방 및 대응책 생성 대회에서 제가 사용했던 RAG를 활용한 코드에 대해서 살펴보도록 하겠습니다. 비록 대회에서 큰 성적을 거두지는 못했지만, 처음으로 RAG를 공부하면서 알게된 것들 그리고 전반적으로 고민했던 것과 그것을 바탕으로 작성된 코드를 살펴보도록 하겠습니다. 일단 아래를 통해서 이번 글의 내용을 간략하게 살펴보겠습니다. (참고로 대회에서 사용된 데이터는 제가 함부로 제공할 수 없으니, 아래 데이콘 링크를 통해서 문의해주세요!) * 코드 주요 내용1. PDF & CSV Load2. Text Splitter3. Text Embedding4. Vector Store5. Retriever6. Chain7. Infe.. 2025. 3. 26. 이전 1 2 3 4 ··· 60 다음 반응형