text-processing

    1

    1답변

    나는 문서에서 텍스트의 일부를 선택할 수 있고 스택 오버플로 검색 엔진과 비슷한 내용의 의미를 잃지 않고 키워드를 기반으로 슬라이스 할 수있는 효율적이고 빠른 PHP 솔루션을 찾고 있습니다. C#에 대해 하나의 similar question이 발견되었지만 예제가 없습니다. PHP에서 이러한 기능을 어떻게 구현합니까?

    0

    2답변

    내 입력이 같다 : I가 start .. end 블록 (... 또는 제 또는 제) 제를 추출 할 start content A end garbage start content B end . sed -ne '/start/,/end/p' 나는 가비지를 걸러 낼 수 있지만 "시작 콘텐츠 B 끝"은 어떻게 만듭니 까?

    1

    2답변

    최근 프로젝트에서 텍스트 문서 간의 유사점을 측정하고 각각에 짧은 제목을 지정해야합니다. 그 (것)들을위한 어떤 오픈 소스 도서관 있는가? 또는 직접 작성해야하는 경우 주제에 대한 자습서가 있습니까? 내가 사용해야하는 도구는 무엇입니까?

    0

    1답변

    시스템이 파일을 읽을 때 데이터베이스의 데이터가 채워지는 시스템을 만들었습니다. 이 파일은 나중 단계에서 채워질 수 있으며, 동일한 파일을 다시 읽도록 요구합니다. 데이터 자체는 파일의 각 행에 표시되며 어려운 부분은 고유 한 값을 찾는 것이므로 그 이유를 알려 드리겠습니다. 123 20110101 4123 Hello 123 20110101 4123 He

    1

    1답변

    저는 아주 간단한 ETL 작업을 가지고 있습니다. 이것은 .txt에서 다른 파일로의 간단한 파일 변환입니다. 5 분, 맞지? 음, 단 한가지를 제외하고 - 출력 파일은 .SLK 여야합니다. 조금 봤는데 파일 자체에 형식 데이터가 포함 된 "프로그래밍 된"형식 인 것으로 보입니다. 누구든지 형식의 세부 사항에 관한 링크가 있습니까? 나 좀 도와 줘, 얘들 아

    0

    1답변

    내가 원하는 것을 이해하기를 바랍니다. 영어가 제 첫 번째 언어가 아니며 자동 번역자를 신뢰하지 않기 때문에 최고의 단어를 선택하기가 어렵습니다. 내가 할 수있는 한 설명하려고 노력할 것이다. 긴 텍스트를 분석하려고 생각했습니다. 예를 들어, 단락으로 나뉘어 진 문자열이 있다고 가정 해보십시오. 로렘 딥 스톱 앉아서, 컨시어 저 adipiscing 엘리트.

    2

    1답변

    그림에서 알 수 있듯이 IP 주소 목록 (128.3. * 및 131.243. *에 유의하십시오)은 서브넷에 있습니다. 우리는 * nix 환경에서 환영받는 것보다 다른 좋은 아이디어 인 Perl에서하는 것을 선호합니다. - Dest_Port - 소스 IP- Source_Port 공간이 세퍼레이터로 사용된다 (정렬) 목적지 IP : 픽처 같이 포맷된다. 우리는

    6

    3답변

    수십만 개의 행 (로그 파일)이 포함될 수있는 파일을 처리하는 가져 오기 스크립트를 작성하고 있습니다. 아주 간단한 접근 방식을 사용하면 (MBP를 꺼내는 것처럼 느껴질만큼 충분한 시간과 메모리가 필요했기 때문에) 프로세스를 종료했습니다. #... File.open(file, 'r') do |f| f.each_line do |line|

    2

    1답변

    외부 구성 파일이있는 배치 파일이 있습니다. 구성 파일에 지정된 파일을 한 줄에의 구분 목록으로 삭제해야한다고 가정 해보십시오. 파일은 다음과 같을 수 있습니다. [config.cfg] *.pdb;*.config [batch.bat] ... for /f "tokens=* delims=;" %%b in (%DATA_10%) do ( CALL DEL

    0

    2답변

    저는 현재 HTML을 가져와 일반 텍스트로 변환하는 펄 스크립트를 가지고 있습니다. 나는 모든 HTML 태그를 제거하기 위해 HTML :: TagFilter를 사용하고 있으며, 우리가 하나의 문제에 부딪친 것을 제외하고는 거의 완벽하게 작동하고있다. 있는 HTML이 예를 입력에서 "캡션"와 같은 비 스탠드 HTML 태그가 포함 된 경우 해당 태그가 제거되지