본문 바로가기

춤추는 프로그래머

환경 설정 http://opencv.org/downloads.html open CV 다운로드. 2.4.9 버전으로 하기로 한번 음 그래 http://docs.opencv.org/doc/tutorials/objdetect/cascade_classifier/cascade_classifier.html#cascade-classifier 이런 오브젝트 디텍션 샘플도 있다. https://github.com/Itseez/opencv/blob/master/samples/cpp/tutorial_code/objectDetection/objectDetection2.cpp 더 나아진 샘플 근데 cpp이네 뭐지... 뭐지... 왜지.. http://cell0907.blogspot.kr/2013/07/detecting-faces-in-y.. 더보기
개인 프로젝트 시작... 재미난 생각이 났다. 백남준 작가의 비디오 아트.. 백남준 作 TV 부처 이걸 보고 오늘 회사의 인문학 강의에 온 강사는 윤회설을 떠올렸다고 한다. 여기에 꽂혔따!!!! - 강혜인 作 ┕> 요론걸 만들어보겠음 음화화화 필요한 것은 프로젝터(보유중이니까 활용을..), 카메라(폰카를 쓸지 비디오 카메라를 하나 빌릴지 고민중), 끝이네???앱을 만들지 않을거라면 노트북도 한대 정도 필요할듯 하다.. 간단히 아이디어를 주욱 훑자면 1. 카메라로 입력을 받는다2. 얼굴이나 패턴을 인식한다3. 마커 기준 또는 얼굴 기준으로 부처의 이미지를 오버랩4. 스크린 아웃5. 실시간으로 인식 및 이미지 아웃 잘 될라나?? 더보기
공부 할 것 http://en.wikipedia.org/wiki/Association_rule_learning http://en.wikipedia.org/wiki/Precision_and_recall *병렬 처리 Map Reduce Scan Stencil Scatter 더보기
이태리논문 ) Entity Linking의 learning relatedness 측정 요약 키워드 ) Entity Linking(개체 연결)Relatedness measures(관계성 측정)Learning to rank(랭킹 학습) Entity Linking은 텍스트 문서에서 개체들의 주어진 지식을 기반으로 하여 적합한 mention들을 찾아내는 작업이다. 가장 중요한 것은 entity relatedness이다. 이 알고리즘이 어노테이션으로 선택된 적합한 개체들의 관계성을 최대화 할 수 있도록 보장해야 하고이 관계성의 최대화가 곧 개체 연결의 명확화(모호성 해소화)에 있어 에러를 최소화 하기 때문이다. 효과적인 relatedness function을 정의하는 것이 entity linking 알고리즘에서 중요한 포인트이다. In this paper... ) 랭킹학습으로서의 개체 관련성 학습의 문.. 더보기
Entity Linking system 전형적인 엔티티 링킹 시스템은 두 단계로 나뉜다. Spotting, disambiguation. SPOTTING > 인풋 도큐먼트에서 후보 스팟들의 집합을 구별해 낸 뒤, 각 스팟에서 후보 개체들의 리스트를 생산해 난다. DISAMBIGUATION > 그러면 후보들 중에서 가장 관계있는 스팟과 가장 비슷한 개체를 선택한다. 더보기
Entity Linking (from wiki) (http://en.wikipedia.org/wiki/Entity_linking)In natural language processing, entity linking, named entity disambiguation or named entity normalization (NEN)[1] is the task of determining the identity of entities mentioned in text. It is distinct from named entity recognition (NER) in that it identifies not the occurrence of names (and a limited classification of those), but their reference.Entit.. 더보기
Rough set - definitions... (from wiki) 컴퓨터 과학에서 러프 집합은 Zdzisław I. Pawlak라는 폴란드의 컴퓨터 사이언티스트가 처음으로 제창했다. (81,2년인듯)러프 집합은 전통적 집합이라고도 하는 crisp set의 정식 근사로 원래 집합의 하한, 상한 근사 두 가지 집합의 한 쌍이다. 1991년에 표준판의 rough set theory 러프 집합 이론은 하한과 상한 근사 집합이 crisp set이지만 다른 변수 하에서는 fuzzy set이 될 수도 있다. (대상 집합을 퍼지 집합으로 확장한 퍼지-러프 집합 이론도 있다고 하네 일본어판에는..) crisp set ? mathematical set. 우리가 흔히 아는 그런 집합을 의미 한다. fuzzy set ? 각 element들의 membership의 degrees(소속도)를 가.. 더보기
Sorting FileStatus[]/정렬하기 아래 링크에서 퍼옴 https://issues.apache.org/jira/browse/HADOOP-9066 12345678910111213141516171819202122232425262728293031323334//테스트케이스 작성시에 대충 이런것들이 필요하다. import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import.. 더보기
flume-hdfs-sink / flume-hdfs-conf.properties Flume을 이용해 수집한 데이터를 HDFS로 저장하고 싶을때... flume-hdfs-sink를 이용한다. Flume의 lib폴더에 flume-hdfs-sink.jar파일을 넣어준다. 나는 커스텀하여 다시 묶어서 넣었다. $ bin/flume-ng agent --conf conf --conf-file conf/flume-hdfs-conf.properties -n source -Dflume.root.logger=DEBUG,console 한번 써 봤다... Flume 실행시키는 커맨드이다. 옵션 별 설명은 딴데서 찾아봐... 검색하면 나옴 ㅎㅎㅎ(ㅈㅅ..ㄱㅊ) conf/flume-hdfs-conf.properties 를 반영하여 실행시키도록 해 놨으니 저 파일의 구성을 보면...앞뒤 다 짤르고 그냥 이 s.. 더보기
Hadoop에 저장된 파일 읽어오기 (ls, cat) 음 이거 하면서 ls가 listStatus의 약자구나............... 했따.....................ㅎ역시 코딩초딩 + "ls가 뭐에요?"나는 진정 ls도 모르는 사람이었어. 하. 하하하. 각설하고, 12345678910111213import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path; Configuration conf = new Configuration();conf.set("fs.d.. 더보기
ElasticSearch로 검색 Paging하기... (scan type) 일단 아래 링크를 읽어보자. http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-request-search-type.html#scan 스크롤에 왜 시간값을 주는지는 잘 모르겠다.. 인자로 넘겨주는 시간 이후에는 죽는건가? 뭐... 테스트도 안해봤따...... 뭔지... 잘........ 1. 자바 함수로 구현2. 함수를 실행시킬 때 마다 다음 페이지가 검색되도록..3. 인자는 쿼리와 기타 검색조건들, 페이지 사이즈.. 같은 함수를 실행시키는데 이게 최초 검색인지 다음페이지를 요청하는 것인지 알기 위해서 전역변수를 썼따!!!!아니 이게 잘하는 짓인지는 모르겠지만 코딩초딩인 나는.... 플래그또는캐싱 같은 개념을 가지고.... 더보기
MongoDB 설치기 http://www.mongodb.org/downloads 에서 다운받을 수 있따. 64비트로 깔고 싶지만 32비트를 쓰므로. 일단은 윈도우에서 테스트 해보자. 32비트 윈도우용을 다운받고 압축을 푼다. https://github.com/mongodb/mongo-java-driver/releases 여기서는 자바 드라이버를 다운받을 수 있다. 더보기
diff 사용법 -u : 없어진 내용(-), 생긴 내용(+)을 구분해서 표현해준다. 소스파일 비교시 필수-r : 재귀적으로 하위파일들까지 검사한다. 디렉토리 검사할 때 필요-N: 새로 생긴 파일(빠진파일)에 대한 비교결과까지 보여준다.--brief : 단순히 파일이 같은지만 확인 diff -u a_rev1.c a_rev2.c > comp.diff - 파일 a_rev1.c 와 a_rev2.c 파일을 비교 diff -urN dir1 dir2 > comp.diff - 폴더 dir1 과 dir2 를 비교. 가장 일반적인 형태. - dir2 가 최신이어야 한다. 그래야 '+(추가된 코드)' 형식으로 나타내어짐. 아니면 거꾸로 됨 diff -ur dir1 dir2 > comp.diff - 마찬가지로 두 폴더를 비교하는데, 빠진 파.. 더보기
ElasticSearch에서 인덱스의 상태 정보 가져오기 (인덱스 사이즈, 문서 개수) 자바 API를 사용하여 ElasticSearch에서 인덱스의 상태 정보 가져오는 방법은 다음과 같다. // IndicesStatusRequest 객체 IndicesStatusRequest indicesStatusRequest = new IndicesStatusRequest(new String[] {indexName}); // 요청 객체 실행하기IndicesStatusResponse indicesStatusResponse = client.admin().indices().status(indicesStatusRequest).actionGet(); // 응답 객체로부터 필요한 정보 가져오기// 복제본을 포함한 인덱스의 전체 사이즈를 문자열 형태로 가져오기String indexSize = indicesStatus.. 더보기
로그 파일에 대해 Elasticsearch 사용하기 원문 : Using Elasticsearch for logsBy Radu Gheorghe | 19 May 2012 로그를 저장하기 위해 Elasticsearch를 사용하고자 한다면, 이 문서를 통해서 Elasticsearch를 구성하는 방식에 대한 도움을 얻을 수 있다. 다수의 장비에서 로그를 수집하여 Elasticsearch에 저장하고자 한다면, 아래에서 하나를 선택해볼 수 있다.Graylog2 Graylog2를 중앙 서버에 설치하면, Graylog2가 알아서 Elasticsearch에 로그를 저장해준다. 그러면 깔끔한 인터페이스를 사용해서 저장된 로그를 검색할 수 있다.Logstash 꽤 다양한 기능을 제공한다. 저장할 수 있는 로그의 종류(input)가 다양하며, 로그를 변환할 수 있는 방식(fil.. 더보기
리눅스 원격 파일 전송 scp로 Linux 간에 파일을 전송하려면 ssh 연결을 먼저 해야 함. $ ssh [ip] 그 다음에 $ scp [보낼 파일 경로] userid@ip:[받을 경로] okay? : ) 더보기
부팅시 자동실행 명령어 스크립트, rc.local rc.local - 부팅시 자동실행 명령어 스크립트 수행 일반적으로 서버 부팅시마다 매번 자동실행되길 원하는 명령어는 /etc/rc.d/rc.local에 넣어주면 된다. 이부분을 알아보기 전에 리눅스 부팅과정에 대한 약간의 이해를 주면 리눅스에서는 실행레벨에 따라 다르게 부팅할 수 있는데 실행레벨에 따라서 설정되어 있는 모든 프로세스들을 실행하게 된다. /etc/inittab파일에는 init가 현재의 실행레벨에서 실행되어야 할 내용들에 대한 설정이 되어 있다. 6개의 실행레벨중 기본레벨인 3번레벨의 실행내용들을 간단히 살펴보면, 즉 /etc/rc.d/rc3.d/ 디렉토리의 내용을 살펴보면 아래와 같다.[root@inter-devel rc3.d]# ll....lrwxrwxrwx 1 root root 19 .. 더보기
방화벽 포트 열기 # iptables -L : 방화벽 설정 확인 # iptables -A INPUT -p tcp --dport 3306 -j ACCEPT : 3306포트 방화벽 뚫어주기 # service iptables save : 설정한 내용을 저장한다. # /etc/init.d/iptables restart : 포트변경후 iptables 재시작 더보기
ECHO 명령어; 개행문자/줄바꿈 넣기 vi를 쓰기 귀찮을 때. echo -e "Hello\nWorld" > [path]/[filename] 하면 path에 filename이란 파일에 HelloWorld 로 됨. 더보기
pscp 사용법 >pscp.exe [file] [id]@[ip addr]:[path] [id]@[ip addr]'s password:[file] | 7 kB | 7.6 kB/s | ETA: 00:00:00 | 100% 용량 속도 진행률 요로케 하면 됨 더보기
java.lang.NoClassDefFoundError 빌드 패쓰에 해당 jar 파일 포함시켜준다. 버전을 잘 보고 포함시켜 줘야 한다. deprecated된거 있으면 포함시켜줘도 안되니까......... 더보기
Indexing and Searching on a HDFS 출처 : http://www.drdobbs.com/parallel/indexing-and-searching-on-a-hadoop-distr/226300241?pgno=1 In today's information-saturated world, the huge growth of geographically distributed data necessitates a system that facilitates fast parsing for the retrieval of meaningful results. A searchable index for distributed data would go a long way toward speeding the process. In this article, I demonstrate.. 더보기
사회공학(社會工學, social engineering) 보안을 접하고 처음 발표를 하게 된 주제가 바로 사회공학이었다. 캐빈미트닉의 책을 읽고 발표를 한 것이었는데.. 그게.. 스무살때였나? 대학교 2학년때. 뭣도 모르고 무작정 책으로 접했지만 사회공학이라는거 참 무섭다. 음, 뭐, 사기 수준으로 갈 수도 있고. 오늘 회사 정보보안연구회에서 비공식 세미나로 다시 다루게 되어 정겨워서 포스팅 해봄. 사회공학(社會工學, 영어: social engineering)은 보안학적 측면에서 기술적인 방법이 아닌 사람들간의 기본적인 신뢰를 기반으로 사람을 속여 비밀 정보를 획득하는 기법을 일컫는다. 신뢰 기반의 해킹 컴퓨터 보안에서 인간 상호 작용의 깊은 신뢰를 바탕으로 사람들을 속여 정상 보안 절차를 깨트리기 위한 비기술적 침입 수단. 우선 통신망 보안 정보에 접근 권한.. 더보기
유한상태기계(Finite State Machine, FSM) 이란? 1. FSM 이란? 유한상태기계(finite state machine, FSM)는 게임 에이전트에게 환상적인 지능을 부여하기 위한 선택 도구로 사용되어왔다. 다시 말해, 유한상태기계는, 주어지는 모든 시간에서 처해 있을 수 있는 유한 개의 상태를 가지고 주어지는 입력에 따라 어떤 상태에서 다른 상태로 전환시키거나 출력이나 액션이 일어나게 하는 장치 또는 그런 장치를 나타낸 모델이다. FSM 이란 특정한 상태를 정의하기위한 개념적 모델이다. 여러개의 제한된 상태(State)가 존재하고 그 존재들이 특정 조건에 물려 서로 연결되어있는 형태를 의미한다. 위의 그림과 같이 유한 상태 기계의 간단한 예로는 집에 있는 전등 스위치를 들 수 있다. 스위치가On일 때는 전등의 불이 들어오게 되고 그 상태가 유지 된다... 더보기
하둡 에코 시스템(Hadoop ECO system) 하둡은 비즈니스에 효율적으로 적용할 수 있도록 다양한 서브 프로젝트가 제공됩니다. 이러한 서브 프로젝트들이 상용화되면서, 하둡 에코 시스템(Hadoop ECO system)이 구성됐습니다. 참고로 하둡 에코 시스템은 하둡 생태계라고 표현되기도 합니다. 아래 그림은 하둡 에코 시스템을 나타낸 것입니다. 분산 데이터를 저장하는 HDFS와 분석 데이터를 처리하는 MapReduce가 하둡 코어 프로젝트에 해당하며, 나머지 프로젝트는 모두 하둡의 서브 프로젝트입니다. 아파치 하둡 프로젝트에 속하는 프로젝트도 있지만, 업체에서 자사의 솔루션으로 이용하다가 오픈 소스로 공개한 프로젝트도 있습니다. 각 각의 서브 프로젝트들의 특징은 다음과 같습니다.1. Zookeeper분산 환경에서 서버들간에 상호 조정이 필요한 다양.. 더보기
스크랩 한나눔 형태소 분석기http://kldp.net/projects/hannanum매뉴얼 http://kldp.net/projects/hannanum/forum/316173 꼬꼬마 프로젝트는 서울대학교 IDS (Intelligent Data Systems) 연구실에서 자연어 처리를 하기 위한 다양한 모듈 및 자료를 구축하기 위한 과제로 크게 '형태소 분석기 및 자연어 처리 모듈 개발' 부분과 '세종 말뭉치 활용 시스템'으로 구분된다.http://kkma.snu.ac.kr/관련논문 http://ids.snu.ac.kr/w/images/f/f8/CPL2010-therocks.pdf 루씬 한글분석기 오픈소스 프로젝트http://cafe.naver.com/korlucene 더보기
데이터 마이닝 데이터마이닝: 대용량의 데이터로부터 이들 데이터내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들 데이터 마이닝 기법 1. Decision Tree : 과거 수집된 데이터를 분석하여 이들간 존재 패턴,부류별 특성 조합 2. 신경망 : 인간이 경험으로부터 학습해가는 두뇌의 신경망 활동을 모사하여 자신이 가진 데이터로부터 학습 과정을 찾아냄, 예측에 유용 3. 동시발생메트릭스: 존재하는 항목간 연관관계 발견 연관관계 규칙: 지지도,향상도,신뢰도 4. 클러스터링 : 어떤 목적 변수(Target)을 예측하기 보다는 고객수입.연령 같은 특성이 비슷한 고객을 묶어 몇 개의 의미 있는 군집으로 나눔. 데이터 마이닝과 OLAP 과의 비교 데이터마이닝 OLAP .. 더보기
방화벽(Firewall) / 응용 게이트웨이 방식 응용 게이트웨이 방식의 방화벽. (Application Gateway) - OSI 모델의 Application Layer에서 동작. - TCP header의 Data 영역까지 체크한다. - 해당 서비스 별로 별도의 Proxy 데몬이 구동되어 클라이언트와 서버 사이에서 접속을 관리한다. : 외부 시스템과 내부 시스템은 방화벽의 Proxy를 통해서만 연결이 허용되고, 직접 연결(IP Connection)은 허용되지 않기 때문에 외부에 대한 내부망의 완벽한 경계선 방어 가능, IP주소를 숨길 수 있다. * 장점 - 보안성이 뛰어남 - 다른 방화벽에 비해 강력한 로깅(Logging) 및 감사(Audit) 기능을 제공 - 프록시의 특성인 프로토콜 및 데이터 전달기능을 이용하여 사용자 인증이나 바이러스 검색기능과 .. 더보기
방화벽(Firewall) / 패킷 필터링 방식 패킷 필터링 방식의 방화벽. - OSI 모델에서 Network Layer(IP), Transport Layer(TCP)에서 작동. - IP 주소와 Port Number만 보고 접속 제어. * 장점 - Stateful Inspection 방식이나 Application gateway 방식에 비하여 처리 속도가 빠르고 적용/운용이 쉽다. (성능이 가장 좋음) * 단점 - 바이러스에 감염된 Mail과 첨부파일 등을 전송할 경우 차단 불가능 (TCP header의 Data영역을 보지 않기 때문) - 접속 제어 규칙의 개수 및 순서에 따라 부하 가중. 더보기
방화벽(Firewall)이란? 인증되지 않은 외부 사용자로부터 내부 네트워크의 접근을 막아 정보 유출을 막고 외부 네트워크와 안정적인 정보 전달을 수행하는 시스템. 허가되지 않은 외부 사용자가 내부 네트워크 정보에 불법적으로 접근하는 것을 방지하는 기능을 수행. 더보기