본문 바로가기

전체 글84

하둡(hadoop)이란 무엇인가? 하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스(무료)프레임워크입니다 분산처리란? 데이터를 여러개의 서버들에 나누서 저장하고 여러 서버들의 자원을 다 이용해서 데이터를 처리하는 것을 말합니다.구글에서 구글에 쌓이는 빅데이터를 처음에는 오라클에 저장하려고 했는데 너무 데이터가 많아서 오라클에 저장하는 것을 시패하고 나름의 방법으로 빅데이터를 저장하는 기술을 만들고 논문을 하나 발표했는데 그 논문을 더그커팅이라는 사람이 읽고 자바로 구현을 했습니다. 그리고 무료로 쓸 수 있게 한 것이 바로 하둡 hadoop이란 이름은 더그커팅의 아들이 노란 코끼리 장난감을 가지고 놀다가 ‘하둡’이라고 했다고 해서 하둡이라고 지었다고 합니다. 그리하여 하둡 생태계(Hadoop Ecosystem)에서 기생하게.. 2023. 4. 21.
하이브(Hive) 보이 너만 원해 하이브 설치법 제목은 내가 인생의 반이상을 케이팝 광인으로 살아와서 어쩔 수 없음 hive> select ename, sal from emp; 이렇게 sql 쿼리를 날릴 수 있음 하이브(Hive)란 NoSQL(No Only SQL) "자바를 몰라도 rdbms 에 익숙한 데이터 분석가들을 위해서 SQL을 이용해서 하둡의 멥리듀싱을 지원하는 프로그래밍 " 페이스북에서 만든 오픈소스 오라클과 MySQL은 small data를 다루는 경장비 hive는 bigdata를 다루는 중장비(포크레인)→ 아주 큰 데이터를 검색할때 유용함 본격적으로 하이브 설치하기 ㄱㅂㅈㄱ 1. 하이브 설치파일을 리눅스 시스템에 올립니다. https://drive.google.com/file/d/1m1KoO-l6DXq_iy4cE7fkgoFGisIyU9E.. 2023. 4. 19.
k-means 케이평균 군집분석 정리 솔직히 처음 k-means에 대해 들었을때 드는 생각을 다름아닌 뭐만하면 k어쩌고ㅋㅋㅋㅋ 물론 당연히 Korea의 K는 아니겠지만 암튼 내기준 웃참포인트였다. 1. K-means 케이평균 군집분석이란? K-means 클러스터링은 총 K개의 그룹이나 클러스터를 만들어주는 것을 의미한다. 아하 그래서 군집분석이라고 그러는구나 오키 요약하자면 군집분석이란 비지도 학습의 일종으로 주어진 각 객체들의 유사성을 분석해서 유사성이 높은 대상끼리 일반화된 그룹으로 분류하는 기법이다. 군집분석 활용분야는 암판별 머신러닝모델에 지도학습데이터를 학습시킬때 비지도학습과 함께 사용해서 모델의 정확도를 높이거나, 마케팅 세그멘테이션(segmentation, 특성에 맞는 고객들끼리 군집화), 통신사 기지국 세울때 위치를 정하는데 .. 2023. 4. 4.
신경망 이론 퍼셉트론 누구세요 딥러닝 그게뭔데... 도저히 학원 수업만으로 따라가는게 벅차서 혼자 공부해야겠다 => 공부블로그 만들어야겠다 => 티스토리블로그 만들어야겠다고 감히 다짐하게 만든너 딥러닝 여기서 x1, x2는 입력신호 y는 출력신호 w1,w2는 가중치(weigth)를 의미한다. 그림의 원을 뉴런, 노드라고 부르고, 입력신호가 뉴런에 보내질때 각각의 고유한 가중치가 곱해진다. 이렇게 보내온 신호의 총합이 정해진 한계(임계점 θ theta 세타)를 넘어설 때만 1을 출력(= 뉴런이 활성화한다.) 퍼셉트론은 복수의 입력신호 각각에 고유한 가중치를 부여하기 때문에 각 신호가 결과에 주는 형향력을 조절하는 요소이다. 가중치가 클수록 해당신호가 그만큼 더 중요하다는 것을 의미한다. 65. 신경망 이론(빅분기책 p.337) 신경망이.. 2023. 3. 30.