본문 바로가기
반응형

Personal Projects33

[Dacon] 건설공사 사고 예방 및 대응책 생성 경진 대회 (2) - Code 건설공사 사고 예방 및 대응책 생성 - Code  안녕하세요. 이번 글은 건설공사 사고 예방 및 대응책 생성 대회에서 제가 사용했던 RAG를 활용한 코드에 대해서 살펴보도록 하겠습니다. 비록 대회에서 큰 성적을 거두지는 못했지만, 처음으로 RAG를 공부하면서 알게된 것들 그리고 전반적으로 고민했던 것과 그것을 바탕으로 작성된 코드를 살펴보도록 하겠습니다. 일단 아래를 통해서 이번 글의 내용을 간략하게 살펴보겠습니다. (참고로 대회에서 사용된 데이터는 제가 함부로 제공할 수 없으니, 아래 데이콘 링크를 통해서 문의해주세요!) * 코드 주요 내용1. PDF & CSV Load2. Text Splitter3. Text Embedding4. Vector Store5. Retriever6. Chain7. Infe.. 2025. 3. 26.
[Dacon] 건설공사 사고 예방 및 대응책 생성 경진대회 (1) - 후기 Dacon - 건설공사 사고 예방 및 대응책 생성  안녕하세요. 이번에는 Dacon에서 한솔데코 시즌3 AI 경진대회인 '건설공사 사고 예방 및 대응책 생성'에 대한 참가 및 후기에 관한 글입니다. 이번 대회에서는 주어진 PDF 파일과 CSV 파일을 이용하여 건설 공사 사고 예방 및 대응책을 생성하는 AI를 만드는 대회였습니다. 이 과정에서 저는 처음으로 RAG를 구현할 수 있었던 경험을 할 수 있었고, 많은 서적과 참고 자료 등을 통해서 다양한 것들을 시도 할 수 있었습니다. 비록 성적은 그리 좋지는 않지만 이번을 계기로 한글 데이터 전처리를 위한 NLP에 대해서 많은 공부를 해야겠다는 다짐을 하게 되었습니다. 역시 대회에 참여하는 것은 가지고 있는 능력을 한 층 더 성장시켜 줄 수 있는 기회인 것 같.. 2025. 3. 24.
[Dacon] 부동한 허위매물 분류 해커톤 (3) - 최종 코드 부동산 허위매물 분류 해커톤 - 최종 코드  안녕하세요! 이번에는 EDA 과정 이후의 대회에서 최종 제출한 코드를 살펴보도록 하겠습니다. 이번 최종 코드 과정에서는 지난 EDA를 통해 어떻게 성능을 올릴지 그래프와 수치를 보면서 전략을 세웠다면 이번 시간에는 최종 코드를 통해서는 여러 전략의 시도 끝에 대회에 최종적으로 어떤 전략들을 세웠는 지를 설명하도록 하겠습니다. 전반적인 과정을 아래와 같습니다.  * 최종 코드 주요 내용1. 결측치 처리2. 파생 변수 생성3. 정규화 시도 4. 데이터 변형5. Feature Drop6. StandardScaler7. LGBM8. Feature Importance 데이콘 링크 : https://dacon.io/ 데이터사이언티스트 AI 컴피티션10만 AI 팀이 협업하.. 2025. 2. 28.
[Dacon] 부동산 허위매물 분류 해커톤 (2) - EDA 부동산 허위매물 분류 해커톤 (2) - EDA  이번 글은 Dacon 부동산 허위매물 분류 해커톤에서 제공받은 데이터를 기반으로 수행한 EDA에 대한 글입니다. 사용된 데이터는 부동산 매물관련 정보가 포함된 정보였고 이를 활용하여 허위매물을 분류하는 AI 알고리즘을 개발하는 것이 대회의 주제였습니다. 제공 받은 데이터의 컬럼은 ID, 매물확인방식, 보증금, 월세, 전용면적, 해당층, 총층, 방향, 방수, 욕실수, 주차가능여부, 총주차대수, 관리, 중개사무소, 제공플랫폼, 게재일 그리고 정답인 허위매물여부였습니다. 일단 지난 전기차 예측은 회귀의 문제였다면 이번에는 분류의 문제로서 0과 1만을 구분하는 Binary 방식입니다.  먼저, 데이터 분석 이전에 부동산 시장은 우리의 삶의 필수 요소인 의, 식, .. 2025. 2. 28.
[Dacon] 부동산 허위매물 분류 해커톤 (1) - 후기 (Private 43, 상위 10%) Dacon - 부동산 허위매물 분류 해커톤  안녕하세요. 이번 글은 Dacon에서 주관한 '부동산 허위매물 분류 해커톤 : 가짜를 색출하라!'에 대한 참가 및 후기 글입니다. 지난 번에는 데이콘에서 전기차 가격 예측 해커톤에 참가를 했었습니다. 지난 대회는 최종 3위로 얼떨결에 높은 순위를 기록할 수 있었습니다. 이러한 경험을 발판 삼아서 이번 대회에도 큰 열정을 가지고 바로 도전을 했지만, 처음에는 모든 방법을 다 써보아도 오르지 않는 점수 때문에 머리가 아팠지만, 계속된 분석 끝에 결과를 계속 제출한 결과, 다행히 이번 대회에도 상위권에 머무를 수 있었습니다. 하루가 다르게 순위가 변하는 치열한 과정 속에서 그래도 나름 잘 살아남았던 것 같습니다.    주제 : 부동산 허위매물 분류 AI 알고리즘 개.. 2025. 2. 28.
[Dacon] 전기차 가격 예측 해커톤 (3) - Prediction Process 전기차 가격 예측 해커톤 - Prediction Process  안녕하세요! 이번에는 지난 EDA에 이어서 데이터를 불러오는 것부터 예측까지의 모든 과정에 대한 글입니다. 지난 번 EDA에서 데이터의 이상치를 제거했다면 이번 글을 통해서는 Null 값을 어떻게 처리했는지, 어떤 Scaler를 사용했고 어떤 컬럼을 Drop했으며, 마지막으로 학습을 위해 어떤 모델을 사용했는 지에 대해 알아보도록 하겠습니다. 전반적인 과정을 요약하면 아래와 같습니다.  보증기간(년), 제조사, 모델, 구동방식에 따른 평균Scaler 선택학습 모델 선택데이콘 링크 : https://dacon.io/ 데이터사이언티스트 AI 컴피티션10만 AI 팀이 협업하는 데이터 사이언스 플랫폼. AI 경진대회와 대상 맞춤 온/오프라인 교육,.. 2025. 1. 31.
[Dacon] 전기차 가격 예측 해커톤 (2) - EDA 전기차 가격 예측 해커톤 - Exploratory Data Analysis, EDA  안녕하세요. 이번에는 Dacon 전기차 가격 예측 해커톤에서 제공받은 데이터를 기반으로 수행한 탐색적 데이터 분석(Exploratory Data Anaysis, EDA)에 대한 글입니다. 해당 데이터는 전기차와 관련된 데이터를 활용하여 전기차 가격을 예측하는 AI 알고리즘 개발을 위해 제공되었으며, 데이터의 컬럼은 ID, 제조사, 모델, 차량상태, 배터리용량, 주행거리(km), 구동방식, 보증기간(년), 사고이력, 연식(년) 그리고 정답인 가격(백만원)으로 이루어진 데이터입니다. 해당 데이터 기반의 예측은 전기차 시장에서 소비자와 제조사 모두에게 중요한 가치를 제공하게 되는 데, 정확한 가격 예측은 시장 경쟁력 분서그 .. 2025. 1. 31.
[Dacon] 전기차 가격 예측 해커톤 (1) - 후기 (최종 3위) Dacon - 전기차 가격 예측 해커톤  안녕하세요. 이번 글은 Dacon에서 주관한 '전기차 가격 예측 해커톤 : 데이터로 EV를 읽다!' 에 대한 참가 및 후기 글입니다. 2025년의 시작으로 Dacon 대회를 5개 정도 참가해서 우수한 성적을 거두어보자. 라는 목표를 세웠는 데, 오늘 그 첫 번째 대회가 종료되었고 총 참가자 1,259명 중 5위 라는 기록을 할 수 있었습니다. Dacon 대회는 2021년 이후로 거의 참가를 못하고 있었는 데, SKT FLY AI 이후로 누군가와 오랜만에 경쟁을 하면서 순위가 훅훅 바뀌는 쫄깃한 경험을 할 수 있었습니다. 이에 대해서 제가 어떻게 데이터를 분석하고 결과를 내는 과정을 공유하고자 이번 글을 작성하게 되었습니다. 아직 최종 수상자 발표까지는 나오지 않았.. 2025. 1. 31.
[토이 프로젝트 3] 범인의 몽타주 그려주는 AI - 학습 (1), VQVAE Text to 몽타주 AI 만들기 - 학습 (1)  이번 글은 범인의 몽타주를 그려주는 AI 만들기의 학습 (1)입니다. 전처리와는 다르게... 왜 안되지? 를 혼자 중얼거리며 GPT와 구글의 도움을 받으면서 겨우 겨우 학습했던 시간이었습니다. 대부분은 영상과 비슷하지만, 약간의 차이가 있음을 알려드리면서 이번 학습 (1) 과정을 살펴보도록 하겠습니다.  사용 데이터 : 페르소나 기반의 가상 인물 몽타주 데이터프로그래밍 환경 : 개인 컴퓨터 (GPU : NVIDIA TITAN RTX, RAM 128)모델 : VQVAE총 학습 시간 : 약 24 시간데이터 링크 (AI 허브)링크 : https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=618  AI-Hub샘플.. 2024. 12. 13.
[토이 프로젝트 3] 범인의 몽타주 그려주는 AI - 데이터 전처리 Text to 몽타주 AI 만들기 - 데이터 전처리  이번 글은 세 번째 토이 프로젝트의 데이터 전처리에 대한 글입니다. 또 다시 시작된 가상 환경 설정, pip install, Error, 그리고 Wandb까지... 등등 힘겨운 우열곡절(?) 끝에 겨우 학습을 시킨 후, 토이 프로젝트 3에 대한 글을 쓸 수 있게 되었습니다.  데이터 전처리의 경우는 경로 설정 등의 부분 빼고는 대부분 영상을 따라하시면 되고, 약간의 오타(?) 부분을 수정하면 데이터 전처리를 수행할 수 있습니다. 그럼 데이터 전처리 과정에 대해서 살펴보도록 하겠습니다.  사용 데이터 : 페르소나 기반의 가상 인물 몽타주 데이터데이터 링크 (AI 허브)링크 : https://www.aihub.or.kr/aihubdata/data/view.. 2024. 12. 11.
반응형