본문 바로가기
반응형

Personal Projects29

[Dacon] 악성 URL 분류 AI 경진 대회 (3) - Code 악성 URL 분류 AI 경진 대회 - 최종 코드  이번 글은 악성 URL 분류 AI 경진 대회의 최종 코드를 살펴보도록 하겠습니다. 지난 EDA를 통해서 URL로부터 특징을 추출하거나 URL을 BERT를 사용하여 처리하는 과정을 거쳤습니다. 그럼 이에 대하여 최종 코드를 살펴보도록 하겠습니다. 코드의 내용은 아래와 같습니다. 1. Data Load2. 길이 기반 특징 추출3. 개수 기반 특징 추출4. 존재 여부 특징 추출5. 기타 특징 추출6. Embedding with BERT7. Hold out & Scale8. LGBM Classifier 데이콘 링크 : https://dacon.io/competitions/official/236451/overview/description 악성 URL 분류 AI 경.. 2025. 3. 31.
[Dacon] 악성 URL 분류 AI 경진대회 (2) - EDA 악성 URL 분류 AI 경진대회 - EDA  이번글은 악성 URL 분류 대회에서 수행했던 탐색적 데이터 분석(EDA)에 대한 글입니다. 이번 대회를 통해서 URL에 대해서 알아보며, 기본적으로 URL을 분류하기 위해 URL의 구성 그리고 URL 데이로부터 어떤 전처리 방법을 사용하는 지에 대해서 Kaggle, 논문을 통해서 여러 가지 방법들을 알 수 있었던 시간이었습니다. 그럼 오늘 EDA 과정을 살펴보도록 하겠습니다.  내용 요약1. 데이터 확인- URL 구조2. 데이터 추출 기법3. 기타 기법  Dacon 악성 URL 분류 AI 경진대회 링크 : https://dacon.io/competitions/official/236451/overview/description 악성 URL 분류 AI 경진대회 - .. 2025. 3. 31.
[Dacon] 악성 URL 분류 AI 경진대회 (1) Dacon - 악성 URL 분류 AI 경진대회   이번 글은 Dacon에서 개최된 '악성 URL 분류 AI 경진대회'에 대한 참가 및 후기 글입니다. 이번 대회도 점수를 올려보려고 다양한 기법들을 공부해보고 적용해보는 시간을 가졌습니다. URL의 구조부터 시작해서 URL로부터 개수, 존재, 길이 그리고 기타 기반의 특징을 추출하여 컬럼을 만들고 BERT 기법을 이용하여 임베딩 하는 방법까지 참 이번에도 나름 치열했던 것 같습니다. 비록 높은 등수를 받지는 못했지만 나름대로 뿌듯하게 보냈던 대회였던 것 같습니다.   주제 : 악성 URL 분류 AI 알고리즘 개발주관 : Dacon대회 일정 : 2025.02.03 ~ 2025.03.31대회 링크 : https://dacon.io/competitions/off.. 2025. 3. 31.
[Dacon] 채무 불이행 여부 예측 해커톤 (3) - Code 채무 불이행 여부 예측 해커톤 - 최종 코드  이번에는 채무 불이행 여부 EDA에 이어서 최종 코드를 살펴보도록 하겠습니다. 지난 EDA를 통해서 데이터 왜도 보정, 파생변수 등을 하였는 데, 이를 바탕으로 제가 작성한 최종적인 코드에 대해서 설명하겠습니다. 전반적인 과정은 아래를 먼저 참고해주시면 될 것 같습니다.  * 최종 코드 주요 내용1. Data Load2. EDA3. Add to New Columns4. 왜도 보정5. Label Encoding6. Correlation Value Check7. Colunms Drop8. Data Scaling & Hold out9. LGBM + CAT BOOST Ensemble  데이콘 링크 : https://dacon.io/competitions/offici.. 2025. 3. 31.
[Dacon] 채무 불이행 여부 예측 해커톤 (2) - EDA 채무 불이행 여부 예측 해커톤 - EDA  이번 글은 채무 불이행 여부 예측 해커톤에서 수행했던 탐색적 데이터 분석(EDA)에 대한 글입니다. 대회를 수행하면서 EDA는 데이터는 어떤 데이터이며, 컬럼은 무엇이고 성능을 끌어올리기 위해 어떤 것들을 해야될지 고민하고 분석하는 과정이라고 할 수 있을 것 같습니다.  그럼 제가 대회를 통해서 어떤 것을 고민했는 지 살펴보도록 하겠습니다.  내용 요약1. 데이터 확인2. 데이터 정보 확인- 정보- 결측치3. 그래프 & 이상치- 기본 그래프 확인- 기준에 따른 그래프 확인- '왜도' 보정- 상관 그래프 확인4. 컬럼 Drop5. 파생 변수 추출하기  Dacon 채무 불이행 여부 대회 링크: https://dacon.io/competitions/official/2.. 2025. 3. 31.
[Dacon] 채무 불이행 여부 예측 해커톤 (1) - 후기 Dacon - 채무 불이행 여부 예측 해커톤  이번 글은 Dacon에서 주관한 '채무 불이행 여부 예측 해커톤 : 불이행의 징후를 찾아라!'에 대한 참가 및 후기 글입니다. 지난 2월에 데이콘에서 난독화 복원과 부동산 허위매물 분류에서는 높은 성적은 거두지 못했지만, 그래도 좋은 경험을 했다고 생각하고 새로운 도전을 시도했었습니다. 그 중에 하나가 바로 채무 불이행 여부 예측 해커톤이었습니다.   주제 : 채무 불이행 여부 예측 AI 알고리즘 개발주관 : 데이콘대회 일정 : 2025.02.03 ~ 2025.03.31대회 링크 : https://dacon.io/competitions/official/236450/overview/description 채무 불이행 여부 예측 해커톤: 불이행의 징후를 찾아라! .. 2025. 3. 31.
[Dacon] 건설공사 사고 예방 및 대응책 생성 경진 대회 (2) - Code 건설공사 사고 예방 및 대응책 생성 - Code  안녕하세요. 이번 글은 건설공사 사고 예방 및 대응책 생성 대회에서 제가 사용했던 RAG를 활용한 코드에 대해서 살펴보도록 하겠습니다. 비록 대회에서 큰 성적을 거두지는 못했지만, 처음으로 RAG를 공부하면서 알게된 것들 그리고 전반적으로 고민했던 것과 그것을 바탕으로 작성된 코드를 살펴보도록 하겠습니다. 일단 아래를 통해서 이번 글의 내용을 간략하게 살펴보겠습니다. (참고로 대회에서 사용된 데이터는 제가 함부로 제공할 수 없으니, 아래 데이콘 링크를 통해서 문의해주세요!) * 코드 주요 내용1. PDF & CSV Load2. Text Splitter3. Text Embedding4. Vector Store5. Retriever6. Chain7. Infe.. 2025. 3. 26.
[Dacon] 건설공사 사고 예방 및 대응책 생성 경진대회 (1) - 후기 Dacon - 건설공사 사고 예방 및 대응책 생성  안녕하세요. 이번에는 Dacon에서 한솔데코 시즌3 AI 경진대회인 '건설공사 사고 예방 및 대응책 생성'에 대한 참가 및 후기에 관한 글입니다. 이번 대회에서는 주어진 PDF 파일과 CSV 파일을 이용하여 건설 공사 사고 예방 및 대응책을 생성하는 AI를 만드는 대회였습니다. 이 과정에서 저는 처음으로 RAG를 구현할 수 있었던 경험을 할 수 있었고, 많은 서적과 참고 자료 등을 통해서 다양한 것들을 시도 할 수 있었습니다. 비록 성적은 그리 좋지는 않지만 이번을 계기로 한글 데이터 전처리를 위한 NLP에 대해서 많은 공부를 해야겠다는 다짐을 하게 되었습니다. 역시 대회에 참여하는 것은 가지고 있는 능력을 한 층 더 성장시켜 줄 수 있는 기회인 것 같.. 2025. 3. 24.
[Dacon] 부동한 허위매물 분류 해커톤 (3) - 최종 코드 부동산 허위매물 분류 해커톤 - 최종 코드  안녕하세요! 이번에는 EDA 과정 이후의 대회에서 최종 제출한 코드를 살펴보도록 하겠습니다. 이번 최종 코드 과정에서는 지난 EDA를 통해 어떻게 성능을 올릴지 그래프와 수치를 보면서 전략을 세웠다면 이번 시간에는 최종 코드를 통해서는 여러 전략의 시도 끝에 대회에 최종적으로 어떤 전략들을 세웠는 지를 설명하도록 하겠습니다. 전반적인 과정을 아래와 같습니다.  * 최종 코드 주요 내용1. 결측치 처리2. 파생 변수 생성3. 정규화 시도 4. 데이터 변형5. Feature Drop6. StandardScaler7. LGBM8. Feature Importance 데이콘 링크 : https://dacon.io/ 데이터사이언티스트 AI 컴피티션10만 AI 팀이 협업하.. 2025. 2. 28.
[Dacon] 부동산 허위매물 분류 해커톤 (2) - EDA 부동산 허위매물 분류 해커톤 (2) - EDA  이번 글은 Dacon 부동산 허위매물 분류 해커톤에서 제공받은 데이터를 기반으로 수행한 EDA에 대한 글입니다. 사용된 데이터는 부동산 매물관련 정보가 포함된 정보였고 이를 활용하여 허위매물을 분류하는 AI 알고리즘을 개발하는 것이 대회의 주제였습니다. 제공 받은 데이터의 컬럼은 ID, 매물확인방식, 보증금, 월세, 전용면적, 해당층, 총층, 방향, 방수, 욕실수, 주차가능여부, 총주차대수, 관리, 중개사무소, 제공플랫폼, 게재일 그리고 정답인 허위매물여부였습니다. 일단 지난 전기차 예측은 회귀의 문제였다면 이번에는 분류의 문제로서 0과 1만을 구분하는 Binary 방식입니다.  먼저, 데이터 분석 이전에 부동산 시장은 우리의 삶의 필수 요소인 의, 식, .. 2025. 2. 28.
반응형