'춤추는 프로그래머/Big Data' 카테고리의 글 목록

본문 바로가기

춤추는 프로그래머/Big Data

Sorting FileStatus[]/정렬하기 아래 링크에서 퍼옴 https://issues.apache.org/jira/browse/HADOOP-9066 12345678910111213141516171819202122232425262728293031323334//테스트케이스 작성시에 대충 이런것들이 필요하다. import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import.. 더보기

flume-hdfs-sink / flume-hdfs-conf.properties Flume을 이용해 수집한 데이터를 HDFS로 저장하고 싶을때... flume-hdfs-sink를 이용한다. Flume의 lib폴더에 flume-hdfs-sink.jar파일을 넣어준다. 나는 커스텀하여 다시 묶어서 넣었다. $ bin/flume-ng agent --conf conf --conf-file conf/flume-hdfs-conf.properties -n source -Dflume.root.logger=DEBUG,console 한번 써 봤다... Flume 실행시키는 커맨드이다. 옵션 별 설명은 딴데서 찾아봐... 검색하면 나옴 ㅎㅎㅎ(ㅈㅅ..ㄱㅊ) conf/flume-hdfs-conf.properties 를 반영하여 실행시키도록 해 놨으니 저 파일의 구성을 보면...앞뒤 다 짤르고 그냥 이 s.. 더보기

Hadoop에 저장된 파일 읽어오기 (ls, cat) 음 이거 하면서 ls가 listStatus의 약자구나............... 했따.....................ㅎ역시 코딩초딩 + "ls가 뭐에요?"나는 진정 ls도 모르는 사람이었어. 하. 하하하. 각설하고, 12345678910111213import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path; Configuration conf = new Configuration();conf.set("fs.d.. 더보기

ElasticSearch로 검색 Paging하기... (scan type) 일단 아래 링크를 읽어보자. http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-request-search-type.html#scan 스크롤에 왜 시간값을 주는지는 잘 모르겠다.. 인자로 넘겨주는 시간 이후에는 죽는건가? 뭐... 테스트도 안해봤따...... 뭔지... 잘........ 1. 자바 함수로 구현2. 함수를 실행시킬 때 마다 다음 페이지가 검색되도록..3. 인자는 쿼리와 기타 검색조건들, 페이지 사이즈.. 같은 함수를 실행시키는데 이게 최초 검색인지 다음페이지를 요청하는 것인지 알기 위해서 전역변수를 썼따!!!!아니 이게 잘하는 짓인지는 모르겠지만 코딩초딩인 나는.... 플래그또는캐싱 같은 개념을 가지고.... 더보기

MongoDB 설치기 http://www.mongodb.org/downloads 에서 다운받을 수 있따. 64비트로 깔고 싶지만 32비트를 쓰므로. 일단은 윈도우에서 테스트 해보자. 32비트 윈도우용을 다운받고 압축을 푼다. https://github.com/mongodb/mongo-java-driver/releases 여기서는 자바 드라이버를 다운받을 수 있다. 더보기

ElasticSearch에서 인덱스의 상태 정보 가져오기 (인덱스 사이즈, 문서 개수) 자바 API를 사용하여 ElasticSearch에서 인덱스의 상태 정보 가져오는 방법은 다음과 같다. // IndicesStatusRequest 객체 IndicesStatusRequest indicesStatusRequest = new IndicesStatusRequest(new String[] {indexName}); // 요청 객체 실행하기IndicesStatusResponse indicesStatusResponse = client.admin().indices().status(indicesStatusRequest).actionGet(); // 응답 객체로부터 필요한 정보 가져오기// 복제본을 포함한 인덱스의 전체 사이즈를 문자열 형태로 가져오기String indexSize = indicesStatus.. 더보기

로그 파일에 대해 Elasticsearch 사용하기 원문 : Using Elasticsearch for logsBy Radu Gheorghe | 19 May 2012 로그를 저장하기 위해 Elasticsearch를 사용하고자 한다면, 이 문서를 통해서 Elasticsearch를 구성하는 방식에 대한 도움을 얻을 수 있다. 다수의 장비에서 로그를 수집하여 Elasticsearch에 저장하고자 한다면, 아래에서 하나를 선택해볼 수 있다.Graylog2 Graylog2를 중앙 서버에 설치하면, Graylog2가 알아서 Elasticsearch에 로그를 저장해준다. 그러면 깔끔한 인터페이스를 사용해서 저장된 로그를 검색할 수 있다.Logstash 꽤 다양한 기능을 제공한다. 저장할 수 있는 로그의 종류(input)가 다양하며, 로그를 변환할 수 있는 방식(fil.. 더보기

pscp 사용법 >pscp.exe [file] [id]@[ip addr]:[path] [id]@[ip addr]'s password:[file] | 7 kB | 7.6 kB/s | ETA: 00:00:00 | 100% 용량 속도 진행률 요로케 하면 됨 더보기

java.lang.NoClassDefFoundError 빌드 패쓰에 해당 jar 파일 포함시켜준다. 버전을 잘 보고 포함시켜 줘야 한다. deprecated된거 있으면 포함시켜줘도 안되니까......... 더보기

Indexing and Searching on a HDFS 출처 : http://www.drdobbs.com/parallel/indexing-and-searching-on-a-hadoop-distr/226300241?pgno=1 In today's information-saturated world, the huge growth of geographically distributed data necessitates a system that facilitates fast parsing for the retrieval of meaningful results. A searchable index for distributed data would go a long way toward speeding the process. In this article, I demonstrate.. 더보기

하둡 에코 시스템(Hadoop ECO system) 하둡은 비즈니스에 효율적으로 적용할 수 있도록 다양한 서브 프로젝트가 제공됩니다. 이러한 서브 프로젝트들이 상용화되면서, 하둡 에코 시스템(Hadoop ECO system)이 구성됐습니다. 참고로 하둡 에코 시스템은 하둡 생태계라고 표현되기도 합니다. 아래 그림은 하둡 에코 시스템을 나타낸 것입니다. 분산 데이터를 저장하는 HDFS와 분석 데이터를 처리하는 MapReduce가 하둡 코어 프로젝트에 해당하며, 나머지 프로젝트는 모두 하둡의 서브 프로젝트입니다. 아파치 하둡 프로젝트에 속하는 프로젝트도 있지만, 업체에서 자사의 솔루션으로 이용하다가 오픈 소스로 공개한 프로젝트도 있습니다. 각 각의 서브 프로젝트들의 특징은 다음과 같습니다.1. Zookeeper분산 환경에서 서버들간에 상호 조정이 필요한 다양.. 더보기

스크랩 한나눔 형태소 분석기http://kldp.net/projects/hannanum매뉴얼 http://kldp.net/projects/hannanum/forum/316173 꼬꼬마 프로젝트는 서울대학교 IDS (Intelligent Data Systems) 연구실에서 자연어 처리를 하기 위한 다양한 모듈 및 자료를 구축하기 위한 과제로 크게 '형태소 분석기 및 자연어 처리 모듈 개발' 부분과 '세종 말뭉치 활용 시스템'으로 구분된다.http://kkma.snu.ac.kr/관련논문 http://ids.snu.ac.kr/w/images/f/f8/CPL2010-therocks.pdf 루씬 한글분석기 오픈소스 프로젝트http://cafe.naver.com/korlucene 더보기

데이터 마이닝 데이터마이닝: 대용량의 데이터로부터 이들 데이터내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들 데이터 마이닝 기법 1. Decision Tree : 과거 수집된 데이터를 분석하여 이들간 존재 패턴,부류별 특성 조합 2. 신경망 : 인간이 경험으로부터 학습해가는 두뇌의 신경망 활동을 모사하여 자신이 가진 데이터로부터 학습 과정을 찾아냄, 예측에 유용 3. 동시발생메트릭스: 존재하는 항목간 연관관계 발견 연관관계 규칙: 지지도,향상도,신뢰도 4. 클러스터링 : 어떤 목적 변수(Target)을 예측하기 보다는 고객수입.연령 같은 특성이 비슷한 고객을 묶어 몇 개의 의미 있는 군집으로 나눔. 데이터 마이닝과 OLAP 과의 비교 데이터마이닝 OLAP .. 더보기

이전 1 다음

티스토리툴바